OpenAIはプロンプトインジェクション攻撃と永遠に戦い続ける

OpenAI Will Forever Fight Prompt Injection Attacks

OpenAIは、ChatGPT Atlasのウェブブラウザをプロンプトインジェクション攻撃から守るために、何年にもわたる戦いに直面している。これは同社によれば、人間を狙うオンライン詐欺との軍拡競争のように、継続的な防御強化を必要とする脅威だという。

同社は、内部で自動化されたレッドチーミングによって新たな種類のプロンプトインジェクション攻撃を発見したことを受け、Atlas向けのセキュリティ更新をリリースした。

プロンプトインジェクション攻撃は、AIエージェントが処理するコンテンツに悪意ある指示を埋め込み、エージェント本来の意図した振る舞いを上書きして、代わりに攻撃者の命令に従わせる。ChatGPT Atlasのようなブラウザエージェントにとって、これは従来のウェブセキュリティ上のリスクとは異なる脅威を生み出す。

攻撃対象領域は広範だ。エージェントは、メール、添付ファイル、カレンダー招待、共有ドキュメント、フォーラム、SNS投稿、ウェブページなどに含まれる信頼できない指示に遭遇し得る。エージェントはブラウザ上でユーザーが行える多くの操作を実行できるため、攻撃によって機密メールの転送、送金、クラウドファイルの編集や削除など、その他の有害な行為につながる可能性がある。

OpenAIは、ブラウザエージェントに対するプロンプトインジェクション攻撃を発見するため、強化学習で訓練した自動攻撃システムを構築した。これは成功と失敗から学習する。推論プロセスの中でインジェクション攻撃を提案し、それをシミュレーターに送って被害者エージェントがどう反応するかを示させた。攻撃者はそのフィードバックを用い、最終化する前に複数回の反復を通じて攻撃を洗練させる。

この自動攻撃者は、OpenAIが新たな種類の攻撃と呼ぶもの、すなわち数十〜数百の手順にまたがる有害なワークフローを実行するようエージェントを誘導できる能力を発見した。これは、通常は特定の出力文字列を引き出したり、単発のツール呼び出しを引き起こしたりする、より単純なプロンプトインジェクション攻撃とは対照的だ。

一例として、自動攻撃者は、ユーザーの受信箱に悪意あるメールを置き、エージェントに対してユーザーの最高経営責任者宛てに辞表を送るよう指示する内容を含めた。その後ユーザーが、エージェントに不在返信の下書きを依頼すると、エージェントは通常のタスク実行中にその悪意あるメールに遭遇し、注入されたプロンプトを権威ある指示として扱い、求められていた不在返信ではなく辞表メッセージを送信してしまった。

OpenAIは、プロンプトインジェクションをエージェントセキュリティにおける未解決の課題と位置づけ、今後何年も取り組むことになると見込んでいる。「プロンプトインジェクションは、ウェブ上の詐欺やソーシャルエンジニアリングと同様、完全に『解決』されることはおそらくない」とOpenAIは記した。

ChatGPT Atlasのエージェントモードでは、ブラウザエージェントがウェブページを閲覧し、ユーザーのブラウザ内でクリックやキーストロークなどの操作を行える。この機能により、ChatGPTはユーザーと同じ文脈とデータを用いて日常的なワークフローに取り組める。ブラウザエージェントがより多くのタスクを扱うようになるほど、敵対的攻撃にとってより価値の高い標的となる。Atlas向けのセキュリティ更新には、敵対的学習を施したモデルと、強化された安全対策が含まれる。

プロンプトインジェクションという課題に直面しているのはOpenAIだけではない。英国の国家サイバーセキュリティセンターは12月初旬、生成AIアプリケーションに対するプロンプトインジェクション攻撃は完全には緩和できない可能性があると警告し、組織に対して攻撃を完全に止めようとするのではなく、リスクと影響の低減に注力するよう助言した。

翻訳元: https://www.databreachtoday.com/openai-will-forever-fight-prompt-injection-attacks-a-30380

ソース: databreachtoday.com