2025年にAIシステムがエージェント的な振る舞いへ向けて初めて本格的な一歩を踏み出すと、攻撃者はその足元がどこで滑り得るかを試すのに時間を無駄にしなかった。
Lakera AIの研究者は、第4四半期の30日間にわたり、顧客環境全体での攻撃活動を分析した。
その分析により、文書の閲覧、ツールの呼び出し、外部入力の処理が可能な初期段階のAIエージェントでさえ、すでに新たで悪用可能なセキュリティ経路を生み出していることを示す攻撃の波が明らかになった。
「AIエージェントが実験的プロジェクトから実際の業務ワークフローへ移行するにつれ、攻撃者は待っていません。閲覧、文書アクセス、ツール呼び出しといった新しい能力をすでに悪用しています」と、Check PointのAI Agent Security(AIエージェントセキュリティ)研究責任者であるMateo Rojas-Carulla氏は述べた。
同氏は「Lakeraの2025年第4四半期データは、これらの機能を狙う間接攻撃が、直接的なプロンプトインジェクションよりも少ない試行回数で成功し、より広範な影響を及ぼすことを示しています」と説明した。
Mateo氏はさらに、「これは企業に対し、AIセキュリティを後回しにできないことを示しています。2026年にエージェント導入がさらに加速する前に、リーダーは信頼境界、ガードレール、データ取り込みの実務を今すぐ見直す必要があります」と付け加えた。
システムプロンプトが主要な攻撃ターゲットに
第4四半期における攻撃者の最も一般的な目的は、システムプロンプトの抽出だった。
敵対者にとって、システムプロンプトは価値あるインテリジェンスを提供する。役割定義、ツールの説明、ポリシー境界、ワークフローのロジックなどは、より効果的な後続攻撃を作るために再利用できる。
これらの試みでは、2つの手法が主流だった。
1つ目は仮想シナリオと役割付けで、攻撃者はモデルに対し、シミュレーションに参加する開発者、監査担当者、学生であると「想像」するよう求めた。
要求をトレーニング演習、フィッシングシミュレーション、学術的課題として枠付けすると、直接的な要求が失敗する場面でも成功することが多く、特に微妙な言い回しの変化や多言語プロンプトと組み合わせた場合に顕著だった。
2つ目の手法は難読化で、悪意ある指示を構造化された、あるいはコード風のコンテンツ内に隠した。
JSON風の入力やメタデータフィールドに、内部情報を開示するようモデルに指示するコマンドが埋め込まれていた。
意図が書式の中に埋もれるため、これらの攻撃は単純なパターンベースのフィルタをしばしば回避した。
攻撃者がAIコンテンツ制御を回避する方法
プロンプト漏えいにとどまらず、攻撃者は間接的手法でコンテンツ安全性制御を狙う傾向を強めた。
制限された出力を露骨に要求するのではなく、プロンプトは評価、要約、架空のシナリオ、変換として枠付けられた。
コンテンツを生成する理由をすり替えることで、攻撃者は分析や批評を装って、モデルに禁止された素材を再現させることが多かった。
この微妙さが検知を難しくする。特にペルソナの逸脱や文脈の曖昧さが絡むと、モデルは技術的にはポリシーに準拠しているように見えながら、有害なコンテンツを生成してしまう可能性がある。
攻撃者は悪用前にAIエージェントを探り入れる
第4四半期の活動の相当部分は、即時の悪用ではなく探索的なプロービング(探査)だった。
攻撃者は、感情的な合図、矛盾する指示、急な役割変更、断片的な書式を試し、モデルがどう反応するかを観察した。
この偵察フェーズにより、敵対者は拒否ロジックやガードレールの一貫性における弱点を特定できた。これは、エージェントのワークフローがより複雑になるほど価値が高まる情報である。
AIエージェントが新たな攻撃経路を可能にする仕組み
第4四半期は、モデルがエージェントとして動作して初めて可能になる攻撃が初めて登場した時期でもあった。
研究者は、接続されたドキュメントストアから機密データを抽出しようとする試み、プロンプト内に埋め込まれたスクリプト風の断片、エージェントが処理する外部ウェブページやファイル内に仕込まれた隠し指示を観測した。
これらは、悪意ある指示が直接のユーザー入力ではなく、信頼できない外部コンテンツを通じて到達する「間接プロンプトインジェクション」の初期例である。
注目すべきことに、これらの間接攻撃は成功までに必要な試行回数が少ないことが多く、2026年に向けて外部データソースが主要なリスクベクターであることを浮き彫りにしている。
AIエージェントのためのサイバーレジリエンスを構築する
AIシステムが単純なチャットインターフェースからエージェント的ワークフローへ進化するにつれ、持ち込まれるセキュリティ課題はより広範で複雑になる。
モデルがデータを取得し、ツールを呼び出し、外部入力に基づいて行動できるようになると、従来のプロンプトレベルの防御だけではもはや不十分だ。
AIエージェントを導入する組織は、これらのシステムをどう保護するかを再考し、あらゆるやり取りを拡大した攻撃対象領域の一部として扱う必要がある。
- プロンプト、取得ステップ、ツール呼び出し、出力を含む、エージェントの相互作用チェーン全体にセキュリティ制御を拡張する。
- エージェントが取り込んだり実行したりする前に、すべての外部コンテンツを検証・サニタイズし、信頼レベルを付与する。
- ツール実行、データアクセス、ワークフローステップに対して、最小権限アクセスと厳格なポリシーベースの制御を適用する。
- 操作や不正利用が発生した場合の影響範囲を限定するため、エージェントの実行環境を分離しサンドボックス化する。
- 監視により、予期しない役割変更、異常なツール使用、持続的な隠し指示などの異常をエージェントの挙動から検出する。
- エージェント的システムに合わせたレッドチーミング、ログ取得、対応プレイブックを含む、AI特化のインシデント対応およびテストプログラムを準備する。レッドチーミング、ログ取得、対応プレイブックを含める。
これらの制御を組み合わせることで、組織は、エージェント主導の攻撃がどこまで拡散し得るか、そしてどれほどの被害を与え得るかを制限し、サイバーレジリエンスを構築できる。
AIエージェントがより高機能になるにつれ、リスク低減は、イノベーションを可能にするのと同じくらい効果的に、不正利用を検知・封じ込め・復旧できるシステム設計にかかっている。
AIの複雑性が攻撃対象領域を拡大している
研究によれば、2025年第4四半期は1つの現実を明確にした。攻撃者の手法は、AI能力の進歩と同じ速度で進化している。
エージェント的システムが成熟し、より複雑なワークフローを担うようになるほど、その複雑性自体がリスクの源となり、従来のセキュリティ制御が防御するよう設計されていなかった新たな操作の経路を開いてしまう。
組織がこの拡大するAI主導の攻撃対象領域に直面する中、ゼロトラスト原則の採用は、暗黙の信頼を制限し、ますます複雑化するシステム全体でリスクを低減するための構造化された方法を提供する。