OpenAIは、通常のオンラインコンテンツの中に悪意ある指示を隠す手法であるプロンプトインジェクションが、ウェブブラウザ内で動作してユーザーのためにタスクを実行するよう設計されたAIエージェントにとって、中心的なセキュリティリスクになりつつあると警告している。
同社は、社内の自動レッドチーミングによって、新たな種類のプロンプトインジェクション攻撃だと同社が説明するものが発見されたことを受け、ChatGPT Atlas向けに最近セキュリティアップデートを提供したと述べた。OpenAIによれば、このアップデートには、新たに敵対的学習を施したモデルと、それを取り巻く強化された安全策が含まれていた。
OpenAIによるAtlasの説明では、エージェントモードにおいてブラウザエージェントはウェブページを閲覧し、クリックやキーストロークを「あなたがするのと同じように」用いることで、人間が持つのと同じ文脈やデータを使って日常的なワークフロー全体で作業できるとしている。その利便性は同時にリスクも高める。メール、文書、ウェブサービスにアクセスできるツールは、質問に答えるだけのチャットボットよりも高価値な標的になり得る。
同社はブログ投稿で「ブラウザエージェントがあなたの作業をより多くこなせるようになるほど、敵対的攻撃にとってより価値の高い標的にもなる」と書いた。「そのためAIセキュリティはとりわけ重要になる。ChatGPT Atlasを公開するずっと以前から、私たちはこの新しい『ブラウザ内のエージェント』というパラダイムを特に狙う新たな脅威に対して、防御を継続的に構築し強化してきた。プロンプトインジェクションは、ChatGPT Atlasがあなたに代わって安全に動作できるようにするため、私たちが積極的に防御している最も重大なリスクの一つだ。」
OpenAIは、社外で弱点が表面化する前に見つけるため、大規模言語モデルを用いた自動攻撃者を構築し、強化学習で訓練したと述べた。目的は、特定の文字列を生成させる、あるいは単一の意図しないツール呼び出しを引き起こすといった単純な失敗ではなく、多数のステップにわたって展開する複雑で有害なワークフローをブラウザエージェントに実行させ得るプロンプトインジェクション戦略を発見することだった。
OpenAIはブログ投稿で、自動攻撃者が、悪意あるコンテンツに遭遇した場合に標的エージェントがどのように振る舞うかの「反事実的ロールアウト」を実行するシミュレーターにインジェクションを送ることで、インジェクションを反復改善できると詳述した。シミュレーターは被害者エージェントの推論と行動の完全なトレースを返し、攻撃者はそれをフィードバックとして用い、最終版に落ち着くまで複数ラウンドにわたって攻撃を洗練させる。
OpenAIは、エージェントの推論に内部からアクセスできることが、攻撃者に先んじるのに役立つ優位性を与えると述べた。
同社が説明したデモは、プロンプトインジェクションが日常業務の中でどのように表面化し得るかを示している。シナリオでは、自動攻撃者がユーザーの受信箱に悪意あるメールを仕込み、エージェントにユーザーの上司宛ての退職届を送るよう指示する内容を含める。後にユーザーがエージェントに不在返信の文面作成を依頼すると、ワークフローの途中でエージェントがその悪意あるメールに遭遇し、注入されたプロンプトを権威ある指示として扱ってしまい、求められた不在通知を書く代わりに退職メッセージを送信してしまう。
仮想の例ではあるが、この例は、エージェントにタスク処理を任せることでオンライン上のリスクの性質が変わることを示している。従来は人を説得して行動させようとするコンテンツが、すでに行動する権限を与えられたエージェントに命令しようとするコンテンツとして捉え直される。
OpenAIだけがプロンプトインジェクションを持続的な問題として扱っているわけではない。英国の国家サイバーセキュリティセンターは今月初めに警告し、生成AIアプリケーションに対するプロンプトインジェクション攻撃は完全には緩和できない可能性があるとして、組織に対しリスク低減と影響の限定に注力するよう助言した。
同社がプロンプトインジェクションに注目しているのは、サイバーセキュリティを含む新たなAI関連リスクを研究し計画することを目的としたシニア職「Head of Preparedness(備え担当責任者)」の採用を進めている時期でもある。
Xへの投稿で、CEOのサム・アルトマンは、AIモデルが「現実の課題」を提示し始めていると述べ、メンタルヘルスへの潜在的影響や、重大な脆弱性を見つけられるほどコンピュータセキュリティ面で十分に有能になりつつあるシステムを挙げた。OpenAIは2023年に備え(preparedness)チームを発表し、フィッシングのような差し迫った脅威から、より推測的な破滅的シナリオまでのリスクを検討してきた。それ以降、安全性重視のスタッフの間での指導部の交代や退職が注目を集めている。
「能力の成長を測定する強固な基盤はあるが、私たちは、そうした能力がどのように悪用され得るのか、そして製品の中でも世界の中でもその不利益をどう制限できるのかを、私たち全員が計り知れない恩恵を享受できる形で、より精緻に理解し測定する必要がある世界に入りつつある」とアルトマンは書いた。「これらの問いは難しく、前例もほとんどない。良さそうに聞こえる多くのアイデアにも、実際には厄介なエッジケースがある。」