ハッカーが悪意のあるウェブコンテンツを通じてAIエージェントをハイジャック可能、Google DeepMindが警告

Google DeepMindの研究者は、自律型AIシステムを狙う新しいサイバーセキュリティ脅威のクラスについて厳しい警告を発表しました。AIエージェントは、受動的なチャットボットから、積極的にウェブと相互作用するエンティティへと進化し続けています。

従来のサイバー攻撃とは異なり、これらの脅威は人間やオペレーティングシステムをターゲットとするのではなく、ウェブコンテンツとデジタル環境に直接埋め込まれています。

AIエージェントがブラウジング、データ収集、タスク実行を行う際に、その動作を操作するように特別に設計されています。

組織がクラウドインフラストラクチャの管理、トランザクションの自動化、脅威インテリジェンスの集約など、機密操作のためにAIエージェントを展開し始める中で、侵害されたエージェントに関連するリスクは急速に増加しています。

DeepMindの科学者Matija Franklinと同僚たちが主導した研究は、悪意のある行為者が、人間には無害に見えるが機械の解釈のために調整された隠れた指令を含む対抗的なウェブページを作成する方法について説明しています。

AIエージェントは人間とは異なる方法でウェブコンテンツを解析するため、攻撃者はメタデータ、フォーマッティングレイヤー、または標準的な検査では見えないまま動的にレンダリングされた要素に悪意のある手がかりを埋め込むことができます。

これらの脅威が正常に悪用されると、攻撃者はエージェントの動作を操作し、機密データを流出させたり、エンタープライズシステムへの間接的なアクセスを取得したりできる可能性があります。

高リスクのシナリオでは、侵害されたエージェントは、構成の変更、不正なトランザクションの承認、または悪意のあるデータの相互接続システム全体への伝播などの不正な操作を実行できる可能性があります。

DeepMindチームの2026年3月のペーパーは、この新しく出現した攻撃面を理解するための最初の体系的なフレームワークを提供します。

重要なことに、研究者は脅威が単一のAIモデルまたはベンダーに限定されないことを強調しています。

代わりに、機能するためにオープンウェブデータに依存する自律型エージェントのより広いエコシステムに影響を及ぼし、AI駆動型ワークフローを採用しているエンタープライズにとってシステムリスクとなっています。

これらの脅威をより良く分類するために、研究者はAIシステムの異なるコンポーネントを悪用する6つの異なるタイプのAIエージェントトラップを特定しました。

コンテンツインジェクショントラップは、人間が見えるコンテンツとマシン読み取り可能なデータ間の不一致を操作し、攻撃者が隠れた悪意のある指令をAIエージェントに直接供給することを可能にします。

セマンティック操作攻撃はエージェントの推論プロセスをターゲットにし、事実またはコンテキストを微妙に歪めるため、システムが不正または有害な結論に到達します。

認知状態トラップは長期間にわたって動作し、汚染されたデータへの繰り返しの露出を通じてエージェントのメモリまたは学習した動作を徐々に毒します。

行動制御トラップはより直接的で、エージェントの操作ロジックをハイジャックして、正当なタスクの装いの下で不正な操作をトリガーします。

システミックトラップはマルチエージェント環境を悪用し、侵害されたエージェントと侵害されていないエージェント間の相互作用がネットワーク全体に波及する障害をトリガーする可能性があります。

最後に、ヒューマンイン・ザ・ループトラップはAIシステムに対して人間が置く信頼を活用し、操作された出力を使用して人間の意思決定と承認プロセスに影響を与えます。

これらの調査結果は、現在のサイバーセキュリティ防御における重大なギャップを浮き彫りにしています。既存のツールは主に、フィッシング、マルウェア、ソーシャルエンジニアリング攻撃から人間ユーザーを保護するように設計されていますが、機械消費用に特別に作成された脅威を検出または軽減することはできません。

研究者は、AIエージェントのセキュリティ確保には防御戦略における根本的な転換が必要であることを強調しています。

これには、堅牢なコンテンツ検証メカニズムの開発、エージェント推論の回復力の改善、リアルタイムで対抗的な環境を識別できるシステムの設計が含まれます。

エンタープライズが自律型AIシステムの採用を加速させる中で、AI Agent Trapsの出現は、サイバー脅威における新しいフロンティアを示します。そこでは、攻撃者はもはや人間またはマシンだけではなく、それらを接続するロジック自体をターゲットとします。

翻訳元: https://cyberpress.org/hijack-ai-agents-via-malicious-web-content/

ソース: cyberpress.org