OpenAI、プロンプトインジェクション攻撃を阻止するためChatGPT Atlasのセキュリティを強化

OpenAIは、ブラウザベースのAIエージェントであるChatGPT Atlasに大規模なセキュリティ更新を展開し、プロンプトインジェクション攻撃に対する高度な防御を実装しました。

この更新では、敵対的学習を施したモデルと、強化された保護策を組み合わせ、ますます高度化する操作の試みに対してユーザーを守るよう設計されています。

プロンプトインジェクション攻撃は、Webブラウザ上で動作するAIエージェントにとって重大な脆弱性を意味します。

ソフトウェアの脆弱性やユーザーのミスを狙う従来のセキュリティ脅威とは異なり、プロンプトインジェクションはAIシステムそのものを直接悪用します。

攻撃者は、エージェントが処理するWebコンテンツに悪意ある指示を埋め込み、ユーザーの意図を上書きして意図しない行動を実行させます。

ChatGPT Atlasにとって、攻撃対象となる領域は特に広範です。エージェントは、メール、ドキュメント、ソーシャルメディア、そして任意のWebページにまたがる信頼できないコンテンツに遭遇します。

侵害された場合、機密情報の転送、資金移動の開始、ファイルの削除、または正当なユーザーが行い得る操作を模した無許可の通信送信などを行う可能性があります。

具体例として、攻撃者がメール内に悪意ある指示を仕込み、エージェントに会社の文書を攻撃者が管理するアドレスへ送信するよう求めることが考えられます。

ユーザーが未読メールの要約をエージェントに依頼すると、代わりに隠された指示に従ってしまい、機密データが漏えいする可能性があります。

自動レッドチーミングの革新

OpenAIの対応は、強化学習を活用した自動レッドチーミングを用いて、実環境で出現する前に攻撃を能動的に発見します。

同社は、強化学習を用いてエンドツーエンドで訓練されたLLMベースの自動攻撃者を開発し、成功と失敗から学習しながら攻撃の巧妙さを高められるようにしました。

このアプローチには大きな利点があります。自動攻撃者はインジェクション候補を提案し、それらを外部シミュレーターに送信し、防御側の挙動に関する推論トレースを受け取り、攻撃を確定する前に何度も反復できます。

この反復的なフィードバックループは、単純な合否信号よりも豊富な情報を提供し、テスト計算を大幅にスケールさせます。

注目すべきことに、OpenAIの社内攻撃者は、人間によるレッドチーミングキャンペーンや公開レポートには現れていなかった、数十ステップにわたって展開する高度で長期的なエクスプロイトを含む新しい攻撃戦略を発見しました。

この継続的な強化は、オンライン詐欺と同様にプロンプトインジェクションが、完全に解決される可能性が低い長期的課題であるという現実を反映しています。

しかしOpenAIは、自動発見のスケール拡大、緩和策の迅速な提供、対応ループの強化によって、現実世界のリスクを実質的に低減することを目指しています。

OpenAIはユーザーに対し、可能な場合はログイン状態でのアクセスを制限し、重要な操作に関する確認要求を慎重に見直し、広範なプロンプトではなく明確で限定的な指示を与えるよう助言しています。

これらの実践的な手順は、システムレベルの防御と相補的に機能し、プロンプトインジェクション悪用に対する多層的な保護を実現します。