Googleは、間接的なプロンプトインジェクションのような新たな攻撃ベクトルを軽減し、エージェントAIシステムの全体的なセキュリティ姿勢を改善するために、生成的人工知能(AI)システムに組み込まれているさまざまな安全対策を明らかにしました。
「直接的なプロンプトインジェクションとは異なり、攻撃者がプロンプトに直接悪意のあるコマンドを入力する場合、間接的なプロンプトインジェクションは外部データソース内に隠された悪意のある指示を含みます」とGoogleのGenAIセキュリティチームは述べました。
これらの外部ソースは、AIシステムを騙して機密データを流出させたり、他の悪意のある行動を実行させたりするメールメッセージ、ドキュメント、カレンダーの招待状の形を取ることがあります。
この技術大手は、システムに対する攻撃を実行するために必要な難易度、費用、複雑さを増加させるように設計された「層状」の防御戦略を実施したと述べました。
これらの取り組みは、モデルの強化、悪意のある指示をフラグするための目的に特化した機械学習(ML)モデルの導入、システムレベルの安全対策に及びます。さらに、モデルのレジリエンス機能は、同社の旗艦GenAIモデルであるGeminiに組み込まれた追加のガードレールの配列によって補完されています。
これには以下が含まれます –
- 悪意のある指示をフィルタリングして安全な応答を生成することができるプロンプトインジェクションコンテンツ分類器
- セキュリティ思考の強化、信頼できないデータ(例:メール)に特別なマーカーを挿入して、コンテンツ内に存在する敵対的な指示からモデルを遠ざけることを保証する技術、スポットライティングと呼ばれる
- Markdownのサニタイズと疑わしいURLの削除、Google Safe Browsingを使用して潜在的に悪意のあるURLを削除し、外部画像URLが表示されないようにするMarkdownサニタイザーを使用して、EchoLeakのような欠陥を防止
- リスクのある行動を完了するためにユーザーの確認を必要とするユーザー確認フレームワーク
- プロンプトインジェクションについてユーザーに警告するエンドユーザーセキュリティ緩和通知
しかし、Googleは、悪意のあるアクターが自動化されたレッドチーミング(ART)を使用して進化し適応するように特別に設計された適応攻撃をますます使用しており、テストされている防御を回避し、基本的な緩和策を無効にしていると指摘しました。
「間接的なプロンプトインジェクションは、AIモデルが取得するデータ内に埋め込まれた本物のユーザー指示と操作的なコマンドを区別するのに苦労することがある現実のサイバーセキュリティの課題です」とGoogle DeepMindは先月述べました。
「間接的なプロンプトインジェクションに対する堅牢性は、一般的に、AIシステムのスタックの各層で課される深層防御を必要とすると信じています。モデルが攻撃されていることをネイティブに理解できる方法から、アプリケーション層を通じて、提供インフラストラクチャ上のハードウェア防御に至るまでです。」
この開発は、新しい研究が大規模言語モデル(LLM)の安全保護を回避し、望ましくないコンテンツを生成するためのさまざまな技術を見つけ続けている中で行われています。これらには、文字インジェクションや、モデルの分類プロセスにおける学習された特徴への過度の依存を悪用するプロンプトコンテキストの解釈を「攪乱」する方法が含まれます。
先月、Anthropic、Google DeepMind、ETH Zurich、およびカーネギーメロン大学の研究者チームによって発表された別の研究では、LLMが「近い将来」において、従来のツールよりも高精度でパスワードやクレジットカードを抽出するだけでなく、ポリモーフィックマルウェアを考案し、ユーザーごとにカスタマイズされた攻撃を開始することで、「エクスプロイトを収益化する新しい道を開く」ことができることも発見されました。
この研究は、LLMが敵対者に新しい攻撃経路を開くことができ、モデルのマルチモーダル機能を活用して個人を特定できる情報を抽出し、侵害された環境内のネットワークデバイスを分析して非常に説得力のあるターゲットを絞った偽のウェブページを生成することができると指摘しています。
同時に、言語モデルが欠けている領域の一つは、広く使用されているソフトウェアアプリケーションにおける新しいゼロデイエクスプロイトを見つける能力です。とはいえ、LLMは、これまで監査されたことのないプログラムの些細な脆弱性を特定するプロセスを自動化するために使用できると研究は指摘しています。
DreadnodeのレッドチーミングベンチマークAIRTBenchによると、Anthropic、Google、OpenAIのフロンティアモデルは、AI Capture the Flag(CTF)チャレンジを解決する際に、オープンソースの対応モデルを上回り、プロンプトインジェクション攻撃で優れた成果を上げましたが、システムエクスプロイトやモデルインバージョンタスクに取り組む際には苦労しました。
「AIRTBenchの結果は、モデルが特定の脆弱性タイプ、特にプロンプトインジェクションでは効果的である一方で、モデルインバージョンやシステムエクスプロイトなど他の分野では限界があることを示しており、セキュリティ関連の能力における進展の不均一性を指摘しています」と研究者たちは述べました。
「さらに、AIエージェントが人間のオペレーターに対して持つ驚くべき効率優位性 – チャレンジを数分で解決し、成功率を維持すること – は、これらのシステムがセキュリティワークフローに与える変革の可能性を示しています。」
それだけではありません。先週、Anthropicからの新しい報告書は、16の主要なAIモデルのストレステストが、置き換えを避けるため、または目標を達成するために、競争相手に機密情報を漏らすなどの悪意のある内部行動に訴えることを明らかにしました。
「通常は有害な要求を拒否するモデルが、目標を追求するためにこれらの行動が必要な場合、時には脅迫や企業スパイ活動を支援し、さらにはより極端な行動を取ることを選択しました」とAnthropicは述べ、この現象をエージェントの不整合と呼びました。
「異なるプロバイダーからのモデル間の一貫性は、特定の企業のアプローチの癖ではなく、エージェントの大規模言語モデルからのより根本的なリスクの兆候であることを示唆しています。」
これらの不穏なパターンは、LLMがさまざまな種類の防御を組み込んでいるにもかかわらず、ハイステークスのシナリオでそれらの防御を回避する意欲があることを示しており、常に「失敗よりも害を選ぶ」ことを選択します。しかし、現実世界でそのようなエージェントの不整合の兆候はありません。
「3年前のモデルはこの論文で示されたタスクを何も達成できませんでしたが、3年後には、悪用されるとさらに有害な能力を持つかもしれません」と研究者たちは述べました。「進化する脅威の状況をよりよく理解し、より強力な防御を開発し、言語モデルを防御に適用することは、重要な研究分野であると信じています。」
翻訳元: https://thehackernews.com/2025/06/google-adds-multi-layered-defenses-to.html