Chrome版Geminiに、その動作を監視する2つ目のAIエージェントが追加

Googleはブラウジングアシスタントにおけるプロンプトインジェクションのリスクを認め、その行動を精査する「ユーザーアラインメントクリティック」を導入

Googleは、Geminiを搭載したChromeのブラウジングエージェントがプロンプトインジェクション攻撃によって不正な操作を行うよう騙される可能性を認めたうえで、そのエージェントを監視する2つ目のAIモデルを導入している。

「エージェントの行動を、信頼できないコンテンツから隔離された別のモデルが精査する『ユーザーアラインメントクリティック』を導入します」と、同社はこの追加機能についてのブログ投稿で述べた。クリティックが、ある行動がユーザーの要求と一致していないと判断した場合、その行動はブロックされるとGoogleは説明している。

「すべてのエージェント型ブラウザが直面する新たな主要脅威は、間接的なプロンプトインジェクションです」とChromeセキュリティエンジニアのNathan Parker氏は投稿の中で記し、エージェントが処理する情報の中に、最初のプロンプトを改変しようとする指示が紛れ込む状況を説明した。

Geminiを搭載したブラウジングエージェントは、9月にローンチされ、現在プレビュー提供中であり、ユーザーがメール、銀行、企業システムにログインしている状態で、ウェブサイトをナビゲートし、ボタンをクリックし、フォームに入力することができる。ウェブページ、iframe、ユーザー生成コンテンツに隠された悪意ある指示は、「金融取引の開始や機密データの持ち出しといった、望まれない行動をエージェントに取らせる可能性がある」とParker氏は記している。

そこで登場するのがユーザーアラインメントクリティックだ。2つ目のモデルが、Chromeが実行する前に提案された各アクションをレビューし、Parker氏が「目標の乗っ取りとデータ流出の両方に対する、強力な追加防御レイヤー」と呼ぶ役割を果たす。

プロンプトインジェクションが防ぎにくい理由

プロンプトインジェクションは、この1年でAIシステムにおける最重要の脆弱性として浮上している。OWASPは2024年に評価した本番AI導入の73%でこの問題を確認しており、大規模言語モデルアプリケーションに対する脅威リストの中で、ナンバーワンリスクに位置付けている。

英国国家サイバーセキュリティセンター(NCSC)は、LLMが命令とデータを確実に区別できないため、プロンプトインジェクション攻撃は完全には緩和できない可能性があると日曜日に警告した。同機関はこれを、信頼されたシステムが信頼できない第三者の代わりに行動するよう騙される「混乱した代理人(confused deputy)」型の脆弱性だと説明している。

研究者たちはすでにその脅威を実証している。1月には、攻撃者が文書内に指示を埋め込み、エンタープライズAIシステムからビジネスインテリジェンスを漏えいさせ、自身の安全フィルターを無効化させることに成功した。セキュリティ企業AppOmniは、先月公表したレポートで、ServiceNowのAIエージェントがフォームフィールドに隠された指示によって操作され得ることを明らかにし、1つのエージェントが他のエージェントを勧誘して不正な行動を実行させるケースを示した。

Chromeにとっては、そのリスクは特に大きい。ブラウジングエージェントが侵害されれば、ログイン済みのあらゆるサイトでユーザーと同等の権限を持つことになり、通常はウェブサイト同士のデータアクセスを防ぐブラウザのサイト分離保護を迂回してしまう可能性がある。

Googleの2モデル防御

こうしたリスクに対処するため、Googleのソリューションは作業を2つのAIモデルに分割している。メインのGeminiモデルはウェブコンテンツを読み取り、どの行動を取るかを決定する。一方、ユーザーアラインメントクリティックは、悪意ある指示を含んでいる可能性のあるウェブコンテンツそのものではなく、提案された行動に関するメタデータだけを見る。

「このコンポーネントは、提案された行動に関するメタデータのみを参照し、フィルタリングされていない信頼できないウェブコンテンツは一切見ないように設計されています。これにより、ウェブから直接“毒”を盛られることがないようにしています」とParker氏はブログで述べている。クリティックが行動を却下した場合、プランニングモデルにフィードバックを返し、アプローチの再構築を促す。

このアーキテクチャは既存のセキュリティ研究に基づいており、ブログ投稿によれば、デュアルLLMパターンとして知られる手法や、Google DeepMindによるCaMeL研究を参考にしているという。

Googleはまた、「オリジンセット」と呼ぶ仕組みによって、エージェントがやり取りできるウェブサイトを制限している。このシステムは、エージェントが読み取り可能なサイトと、クリックや入力などのアクションを実行できるサイトのリストを保持する。信頼できないコンテンツから隔離されたゲーティング機能が、各タスクに関連するサイトを判定する。

同社は、この最初の実装は基本的なものだと認めている。「不要な摩擦を減らしつつセキュリティを向上させるため、ゲーティング機能やシステムの他の側面をチューニングしていきます」とParker氏は記している。

ユーザーアラインメントクリティックとオリジン制御に加え、ブログ投稿によると、Chromeはブラウジングエージェントが銀行や医療サイトへ移動する場合、Google パスワード マネージャーを通じて保存済みパスワードを使用する場合、あるいは購入手続きを完了する場合に、ユーザーの確認を必須とする。ブラウジングエージェントは保存されたパスワードへ直接アクセスすることはできない。

エージェントの動作と並行して、プロンプトインジェクションの試みを検出する分類器も動作している。Googleは自動化されたレッドチーミングシステムを構築し、悪意あるテストサイトを生成しているが、とくにソーシャルメディアや広告ネットワーク上のユーザー生成コンテンツを通じて行われる攻撃を優先的に検証している。

未解決の問題と向き合う

プロンプトインジェクションの課題は、Chromeに固有のものではない。OpenAIは、ChatGPTのエージェント機能にとって「フロンティアであり、困難な研究課題」だと位置付けており、攻撃者がこの手法に多大なリソースを投じると予想している。

Gartnerはさらに一歩踏み込み、企業に対しAIブラウザをシステムから締め出すよう助言している。同調査会社は、AI搭載ブラウジングエージェントが、プロンプトインジェクション攻撃によって企業データや認証情報を露出させる恐れがあると警告している。

NCSCも同様の立場を取り、組織はAIシステムが攻撃されることを前提とし、そのアクセス権限や特権を制限すべきだと促している。同機関は、問題の完全な技術的解決を期待するのではなく、設計によってリスクを管理するべきだと述べている。

ブログ投稿によると、Chromeのエージェント機能はオプションであり、現時点ではプレビュー段階にとどまっている。

この記事はもともと、Computerworldに掲載されたものです。

翻訳元: https://www.csoonline.com/article/4103346/gemini-for-chrome-gets-a-second-ai-agent-to-watch-over-it-2.html

ソース: csoonline.com