OpenAI、プロンプトインジェクション攻撃に対してブラウザ版ChatGPT Atlasを強化

OpenAIは、プロンプトインジェクション攻撃に対抗するため、ブラウザベースのChatGPT Atlasエージェント向けにセキュリティアップデートを展開しました。

このアップデートでは、Webコンテンツに隠された悪意ある指示がユーザーの意図を上書きするのを防ぐために設計された、新たなモデルレベルおよびシステムレベルの防御策が導入されています。

プロンプトインジェクション攻撃についてOpenAIは、「攻撃者は…ユーザーの要求を無視するようエージェントをだまし、その代わりに機密性の高い税務書類を攻撃者が管理するメールアドレスへ転送させようとする悪意あるメールを送る可能性がある」と述べています。

AIエージェントにおけるプロンプトインジェクションの理解

プロンプトインジェクション攻撃は、AIエージェントが複数のソースからの自然言語の指示を解釈するという事実を悪用します。

攻撃者は、メール、文書、Webページなど一見無害に見えるコンテンツの中に敵対的な指示を隠し、ユーザーの元の要求を上書きしてエージェントの挙動を誘導しようとします。

ChatGPT Atlasは、メール送信、クラウドファイルへのアクセス、取引の完了など、ブラウザ上でユーザーが行えるのと同様の多くの操作を実行できるため、攻撃が成功した場合の潜在的な影響は重大です。

従来のWeb攻撃とは異なり、プロンプトインジェクションはソフトウェアの脆弱性やユーザーのミスに依存しないため、従来のセキュリティ制御では検知・緩和がより困難になります。

新たに出現する攻撃に先んじるため、OpenAIは強化学習によって駆動される自動レッドチーミングシステムを開発しました。

このシステムは、大規模言語モデルを自動攻撃者として用い、長く多段階のワークフローにわたって展開される高度なプロンプトインジェクション手法を発見できるよう訓練します。

システムが新たな成功攻撃のクラスを特定すると、直ちに迅速な対応ループが起動します。

OpenAIは、更新されたエージェントモデルを敵対的に学習させ、新たに発見された手法に耐性を持たせることで、レジリエンスをモデルに直接組み込みます。

攻撃のトレースは、エージェントを取り巻く監視、安全指示、システムレベルの防御策を強化するためにも使用されます。

プロンプトインジェクションのリスクを低減するには、AIエージェントを完全に自律したユーザーではなく、半信頼のアクターとして扱う必要があります。

モデルレベルの安全策に加えて、組織はエージェントの権限を制限し、信頼できない入力への露出を抑え、エージェントの挙動の可視性を高める運用上の統制を適用すべきです。

これらの統制を組み合わせることで、影響範囲（ブラスト半径）を抑え、エージェント主導のワークフロー全体におけるプロンプトインジェクションのリスクを低減できます。

プロンプトインジェクションは、AIシステムがより自律的になり、日常のワークフローにますます組み込まれていく中で、サイバーセキュリティにおけるより大きな転換を浮き彫りにしています。

エージェントが信頼できないコンテンツを解釈し、ユーザーに代わって現実世界の行動を取れるようになるにつれ、静的な権限や境界型の制御を前提とした従来のセキュリティモデルは効果が薄れていきます。

この進化により、動的な環境全体で動作するAI駆動システムに対して、信頼、検証、監督をどのように適用するかを組織が再考する必要があります。

これに対応して、多くの組織は暗黙の信頼を排除し、AI駆動のワークフロー全体で継続的な検証を強制するために、ゼロトラストの原則へと舵を切っています。