2026年4月に公開された「エージェント型AIシステムにおける障害モードの分類 v2.0」(Taxonomy of Failure Modes in Agentic AI Systems v2.0)により、この分野は単なる分類体系の更新にとどまらない成果を得ました。1年間にわたる実世界でのレッドチーム演習に基づく実践的なガイダンスが盛り込まれており、エージェント型AIシステムがいかに迅速に従来の攻撃対象領域を新たな高インパクトの攻撃ベクターへと変容させるかが明らかになっています。
これらの演習から得られた主要な知見、そして防御側にとっての核心的な教訓は、ヒューマン・イン・ザ・ループ(HitL)制御がクリック操作なしにエンドツーエンドで回避され、ゼロクリック攻撃チェーンを生み出し得るという事実です。
ゼロクリックによるHitL回避は単一の脆弱性ではなく、複合的な悪用パターンです。レッドチームは一見無害に見える行動を連鎖させました。具体的には、持続的なメモリへの埋め込みを目的としたクロスドメイン・プロンプト・インジェクション(XPIA)、各ステップの承認を回避するためのマルチステップ・セッションにわたる段階的なエスカレーション、ツールスキーマや権限モデルを把握するための機能情報の引き出しなどです。
そして最終的には、同意フローの意味論的な操作により、エージェント自身の推論がマルチステップの計画を個別に承認可能な項目へと分解・言い換えるよう仕向けられました。
各ステップは単独では問題なく見えるため、従来のステップごとの承認やモデルレベルの検知システムは、この一連の攻撃チェーンを検出できませんでした。
複数の演習において、攻撃者が必要としたのは細工されたウェブホスト上のドキュメント、画像、またはAPIレスポンスといった外部入力を送り込むことだけでした。あとはエージェントのパイプライン、メモリ、そしてプラグインのエコシステムが自動的に攻撃を完結させました。
MicrosoftのAIレッドチームが「障害モードの分類」を公開したのは2025年4月のことです。目的は、既存のフレームワークでは対処できない脅威の状況に対して、共通の語彙を提供することにありました。
v2.0の分類体系では、ゼロクリック攻撃チェーンが機能する根本的な理由を説明する7つの新たな障害モードが文書化されています。
「エージェント型サプライチェーン侵害」は、自然言語によるツール定義やプラグインレジストリが攻撃ベクターになる仕組みを示しています。「ゴールハイジャッキング」は、エージェントを完全に乗っ取ることなく最終目標を別の方向へ誘導する敵対的な指示を指します。「エージェント間トラスト・エスカレーション」は、オーケストレーターが委任エージェントからの未検証の主張を受け入れた際に権限が昇格する仕組みを説明しています。
ゼロクリックのエージェント型AI攻撃
「コンピュータ使用エージェント(CUA)への視覚的攻撃」と「セッションコンテキストの汚染」により、攻撃者は画像やセッション初期の入力に指示を隠し、後の意思決定に影響を与えることができます。
「MCP/プラグインの悪用」と「機能・アーキテクチャ情報の漏洩」がこのセットを完成させており、プロトコルへの信頼や内部情報の漏洩が安定した二次的な攻撃対象領域となっています。
12か月間の演習から浮かび上がった運用上のパターンは、防御側にとって2つの重要な示唆をもたらしています。第一に、モデルレベルの堅牢化と静的なプロンプト管理は必要ですが、それだけでは不十分です。
高インパクトな攻撃チェーンの多くは、ツール呼び出しプロトコル(MCP)、プラグインの動作、セッションの永続性、UXに依存したHitLフローといったシステムレベルのインタラクションを悪用していました。
第二に、検知には縦断的な行動分析が必要です。セッションコンテキストの汚染や段階的なエスカレーションは、複数のステップやセッションにわたってエージェントを観察して初めて顕在化します。リクエスト単位の異常検知では、操作の痕跡を示す時系列的な蓄積やプロバナンスのパターンを見逃してしまいます。
Microsoftが推奨する緩和策は、アーキテクチャとプロセスに重点を置いたものです。エージェント型システムの依存関係をソフトウェアサプライチェーンとして扱い、プロンプトテンプレート、プラグインマニフェスト、MCPサーバーのエンドポイントを含むSBOM(ソフトウェア部品表)を生成し、署名とプロバナンスの検証を義務付け、バージョンを固定することが求められます。
エージェント間のインタラクションにはゼロトラストを適用し、暗号的なアイデンティティ確認を必須とするとともに、オーケストレーターへの引き渡し時に自己申告によるロールの主張を拒否してください。
同意アーキテクチャの強化にあたっては、承認を提示する前に複合アクションを分解し、エージェントが生成したテキストではなく基盤となるツール呼び出しから承認プロンプトを要約し、元に戻せるかどうかによって承認をティア分けし、承認頻度の異常検知を追加して「承認疲れ」を検出するようにしてください。
セッションの完全性を守るためには、プロバナンスを追跡するコンテキストを実装し、信頼されたシステムコンテキストと信頼されていないコンテンツを分離し、外部データがセッションをまたいで持続できる量を制限してください。
技術的な付録、詳細なケーススタディ、推奨される緩和策のプレイブックについては、エージェント型AIシステムにおける障害モードの分類 v2.0の全文をご覧ください。
実践者にとって、すぐに取るべき行動は明確です。エージェント型サプライチェーンのインベントリとSBOMを作成すること、CUAの視覚的テストとセッション汚染テストを必須とするレッドチームのマトリクスにv2.0の7つの障害モードを追加すること、エージェントのアイデンティティを暗号的に検証すること、そしてHitLのUXを使いやすさの後付けとしてではなく、セキュリティ制御として扱うことです。
Microsoftのv2.0分類体系を裏付けるレッドチームの証拠(完全なホワイトペーパーと更新された分類体系に詳述)は、これらの対策を講じない場合、実装済みのエージェント型システムがゼロクリックのHitL回避に対して脆弱なままであり、理論上のリスクが本番規模の悪用へと転化されてしまうことを示しています。
翻訳元: https://gbhackers.com/zero-click-agentic-ai-attack/