MicrosoftのAIレッドチームが、エージェント型AIシステムにおける障害モード分類(Taxonomy of Failure Modes)のバージョン2.0を公開しました。この報告書では、AIエージェントがどのように悪用されているかについて、重大な変化が明らかにされています。
本更新は、1年間にわたる実際のレッドチーム活動と、オープンソースのエージェントフレームワークの急速な普及を背景に作成されており、ホワイトペーパーでは高度に流動的な脅威の状況が詳述されています。
今回の調査結果は、1年前には理論的なリスクに過ぎなかった脅威が、今や現実の攻撃対象領域となり、企業環境を積極的に脅かしていることを裏付けています。
このアップデートの緊急性は、脆弱なエージェント型エコシステムの急増にあります。例えば、OpenClawフレームワークでは、2026年1月のリリース直後に512件もの脆弱性が急速に蓄積されました。
その中には、WebSocketハイジャッキングを介したクリティカルなワンクリックリモートコード実行(RCE)の脆弱性CVE-2026-25253も含まれています。さらに、Model Context Protocol(MCP)では2025年だけで99件のCVEが公開されており、ツールポイズニングが現実の脅威となっていることが証明されました。
グラフィカルインターフェースを通じて動作するコンピューター操作エージェントも、これまで人間を標的としていた攻撃ベクターを新たに持ち込んでいます。
エージェント型サプライチェーンの侵害では、攻撃者がプラグインレジストリやサードパーティツールに自然言語の指示を注入し、悪意あるバイナリを使うことなくエージェントの動作を密かに改ざんします。
目標のハイジャック(Goal Hijacking)では、攻撃者が欺瞞的な指示を用いて、正規のタスクを実行しているように見せかけながら、エージェントの最終目標を別の方向に誘導します。
エージェント間の信頼エスカレーション(Inter-Agent Trust Escalation)では、侵害されたエージェントが自身の権限を水増ししたりIDを偽装したりして、マルチエージェント構成における他のエージェントを操作し、標準的な検証機構を回避します。
コンピューター操作エージェントへの視覚的攻撃(Computer Use Agent Visual Attack)では、隠しテキストや改ざんされたUI要素などの悪意あるビジュアルコンテンツを利用し、エージェントに敵対的な指示を実行させます。
セッションコンテキストの汚染(Session Context Contamination)では、攻撃者がマルチステップのセッション初期段階にバイアスのかかったデータを埋め込み、安全アラームを発動させることなく、後続のエージェントの判断を操作します。
MCPおよびプラグインの悪用(MCP and Plugin Abuse)には、ツールの説明文へのポイズニング、サーバーサイドへの命令注入、プロトコルレベルの信頼前提の悪用などが含まれます。
Microsoftのレッドチーム活動から得られた運用データによると、Human-in-the-Loop(HitL)の回避が最も頻繁に悪用される障害モードであることが浮き彫りになっています。
攻撃者は「同意疲れ(consent fatigue)」と段階的なエスカレーションを巧みに組み合わせ、ラテラルムーブメントやデータ窃取といった深刻な被害をもたらしています。
さらに懸念されるのは、こうした活動の多くが、エージェントの最初のトリガー以外に人間の操作を一切必要としないゼロクリックチェーンで実行されている点です。クロスドメインプロンプトインジェクション(XPIA)と永続的なメモリポイズニングも、初期アクセスの手段として高い信頼性を持つ攻撃ベクターとして台頭しています。
こうした最新のAI脅威に対抗するため、組織は直ちにセキュリティアーキテクチャを見直す必要があります。
セキュリティエンジニアは、自然言語によるツールの説明文をコードと同等に扱い、すべてのエージェント展開に対して包括的なソフトウェア部品表(SBOM)を作成することが求められます。
加えて、ゼロトラストのエージェント間アーキテクチャを確立し、ワークフロー上の位置関係ではなく暗号的な検証によってIDを確認することが不可欠です。
最後に、HitLコントロールの監査と強化により、複合的なアクション分解や厳格な異常検知を通じて、攻撃者が同意疲れを突くことを防ぐことができます。
翻訳元: https://cyberpress.org/agentic-ai-bypass-techniques/