Google DeepMindが新たな脅威を警告—悪質なウェブコンテンツがAIエージェントを危険にさらす

人工知能が単純なチャットボットから積極的にウェブを閲覧する自律型エージェントへと進化する中、新しいサイバーセキュリティの脅威が出現しました。

Google DeepMindの研究者たちは、「AIエージェントトラップ」と呼ぶ重大な脆弱性を特定しました。

これらは、訪問するAIエージェントを操作、欺瞞、または悪用するために特別に作成された敵対的なウェブページとデジタル環境です。

AIエージェントは、クラウドデータベースの管理、旅行の予約、または脅威インテリジェンスの集約など、複雑なタスクを独立して実行するように設計されています。

これらのエージェントが未検証のウェブコンテンツと相互作用すると、ハッカーの主な標的となります。

悪質なウェブサイトがエージェントを正常にトラップした場合、攻撃者は理論的には機密の企業ネットワークにアクセスしたり、重要なデジタル取引を操作したりする可能性があります。

人間ユーザーまたはコンピュータオペレーティングシステムを標的とする従来のマルウェアとは異なり、AIエージェントトラップは情報環境そのものを標的とします。

自律型エージェントは、人間とはまったく異なる方法でウェブページを処理します。脅威アクターは、人間の目には見えないが機械解析システムには完全に読み取り可能な方法で悪意のある指示を隠すことができます。

Matija Franklinと数人の同僚を含むDeepMind研究チームは、この新しい攻撃面をマッピングするための最初の体系的なフレームワークを最近発表しました。

SSRN 2026年3月論文ハイライトは、この新興脅威が単一の生成モデルに限定されていないことを強調しています。代わりに、オープンウェブをデータとして依存する自律システムの全体的なエコシステムに深刻なリスクをもたらします。

AIトラップの6つのタイプ

研究者たちは、これらの攻撃をAIシステムのさまざまなコンポーネントを操作する6つの異なる脅威ベクトルに分類しました。

コンテンツインジェクショントラップは、人間の認識、機械解析、動的なウェブレンダリング間の違いを悪用して、訪問するエージェントに隠された悪意のあるデータを供給します。
セマンティック操作トラップは、エージェントの内部推論と事実検証プロセスを破壊し、虚偽または有害な情報を真実として受け入れるようにします。
認知状態トラップは、複数の相互作用を通じてエージェントの長期記憶、基盤となる知識ベース、および学習された行動ポリシーを徐々に毒します。
行動制御トラップは、エージェントの運用能力を乗っ取り、システムに攻撃者に代わって無許可のアクションを実行させます。
システミックトラップは、複数のエージェント間の相互作用を活用して、接続されたネットワーク全体に広範な段階的な障害をトリガーします。
ヒューマンインザループトラップは、侵害されたAIエージェントを使用して、その人間監督者の認知バイアスを悪用し、その人を危険なアクションの承認に騙します。

サイバーセキュリティ業界は、これらの自律システムが悪質なウェブインフラストラクチャに陥るのを防ぐため、迅速に適応する必要があります。

現在のセキュリティツールは、主に人間を対象としたフィッシングリンクとマルウェアをフィルタリングするように設計されており、AI重点の操作に対する防御に重大な盲点を残しています。

これら6つの攻撃方法を識別することにより、Google DeepMindはAI安全性のための新しい研究課題を促進することを目指しています。

自律ワークフローの将来を保護するには、見えないデジタルトラップに騙されることなく敵対的なデジタル環境を安全にナビゲートできるエージェントを構築する必要があります。