OpenAIは、ウェブを閲覧し、その中でほぼ人間のように—クリック、入力、そしてユーザーセッション内で手順を実行できる—組み込みの「エージェントモード」を備えたブラウザであるChatGPT Atlas向けに、セキュリティアップデートを公開しました。この更新は、社内の自動化されたペネトレーションテスト中に、そのようなエージェントを標的とする新しい種類の攻撃が発見されたことを受けたものです。これに対応して同社は防御メカニズムを強化し、実際の攻撃シナリオへの曝露によって意図的に堅牢化された、ブラウザエージェントモデルの新バージョンを展開しました。
問題の核心にあるのは、ブラウザベースのエージェントが必然的にユーザーと同じコンテンツ—メール、文書、招待状、SNS投稿、そしてウェブ上のほぼあらゆるページ—と相互作用するという事実です。こうしたアシスタントの能力が高まるほど、攻撃者にとって魅力的な標的になります。攻撃者がそれを軌道から外すことに成功すれば、その結果は、人間がブラウザでうっかりしてしまうこと—たとえば誤ったメールを送ったり、機密情報を漏えいしたり—と同様になり得ます。
この文脈で特に厄介な手法の一つがプロンプトインジェクションです。これは、エージェントが通常の動作の一部として読むテキストに悪意ある指示を直接埋め込み、ユーザーの依頼ではなく攻撃者の意図に従うよう強制することを狙います。重要なのは、これは従来のブラウザエクスプロイトやシステムの脆弱性ではないという点です。この攻撃はエージェントの振る舞いそのものを標的にし、正当なコンテンツを装ったもっともらしい命令で操作します。
例として、OpenAIは説明しているシナリオがあり、ほとんど滑稽に聞こえる一方で、リスクを鮮明に浮き彫りにします。自動化された「攻撃者」が、隠された指示を含むメールを受信箱に仕込みます。するとユーザーは、たとえば不在返信の下書きを作るといった日常的な作業をエージェントに依頼します。エージェントは最新の未読メッセージを開き、埋め込まれた命令を権威ある指示として解釈し、ユーザーの意思に反して、ユーザーの上司宛てに辞職メールを送ってしまいます。最新のアップデート以降、OpenAIによれば、エージェントはこうした操作の試みを検知し、行動を起こす前にユーザーへ警告できるようになったとのことです。
こうした手口を事後ではなく事前に発見するため、OpenAIは言語モデルに基づく社内の「AI対戦相手」を構築し、強化学習によってエージェントの弱点を探るよう訓練しました。平たく言えば、このシステムはさまざまな攻撃戦略を繰り返し試し、シミュレーションで結果を観察し、手法を洗練させて学習します—試行のたびに狡猾さを増していく執拗なテスターのようなものです。成功した攻撃チェーンは具体的な防御目標へと変換されます。モデルはこれらの新たな脅威でさらに訓練され、同時に追加の安全策や監視レイヤーが周囲で強化されます。
同時にOpenAIは、いかなる解決策も絶対的かつ恒久的な防御を提供できないことを率直に認めています。これはオンライン詐欺やソーシャルエンジニアリングが長年進化してきたのと同様の、継続的な軍拡競争です。そのため同社は社内の取り組みに加え、ユーザー側でもリスクを減らすよう助言しています。可能な限りログアウトした状態で運用すること、確認プロンプトを慎重に見直すこと、そして「あなたの判断でメールを適当に処理しておいて」のような過度に包括的な指示を避け、エージェントへの指示を正確に言語化することです。