OpenAIは、プロンプトインジェクション攻撃に対抗するため、ブラウザベースのChatGPT Atlasエージェント向けにセキュリティアップデートを展開しました。
このアップデートでは、Webコンテンツに隠された悪意ある指示がユーザーの意図を上書きするのを防ぐために設計された、新たなモデルレベルおよびシステムレベルの防御策が導入されています。
プロンプトインジェクション攻撃についてOpenAIは、「攻撃者は…ユーザーの要求を無視するようエージェントをだまし、その代わりに機密性の高い税務書類を攻撃者が管理するメールアドレスへ転送させようとする悪意あるメールを送る可能性がある」と 述べています。
AIエージェントにおけるプロンプトインジェクションの理解
プロンプトインジェクション攻撃は、AIエージェントが複数のソースからの自然言語の指示を解釈するという事実を悪用します。
攻撃者は、メール、文書、Webページなど一見無害に見えるコンテンツの中に敵対的な指示を隠し、ユーザーの元の要求を上書きしてエージェントの挙動を誘導しようとします。
ChatGPT Atlasは、メール送信、クラウドファイルへのアクセス、取引の完了など、ブラウザ上でユーザーが行えるのと同様の多くの操作を実行できるため、攻撃が成功した場合の潜在的な影響は重大です。
従来のWeb攻撃とは異なり、プロンプトインジェクションはソフトウェアの脆弱性やユーザーのミスに依存しないため、従来のセキュリティ制御では検知・緩和がより困難になります。
OpenAIが自動レッドチーミングを活用する方法
新たに出現する攻撃に先んじるため、OpenAIは強化学習によって駆動される自動 レッドチーミング システムを開発しました。
このシステムは、大規模言語モデルを自動攻撃者として用い、長く多段階のワークフローにわたって展開される高度なプロンプトインジェクション手法を発見できるよう訓練します。
システムが新たな成功攻撃のクラスを特定すると、直ちに迅速な対応ループが起動します。
OpenAIは、更新されたエージェントモデルを敵対的に学習させ、新たに発見された手法に耐性を持たせることで、レジリエンスをモデルに直接組み込みます。
攻撃のトレースは、エージェントを取り巻く監視、安全指示、システムレベルの防御策を強化するためにも使用されます。
プロンプトインジェクションのリスクを軽減する方法
プロンプトインジェクションのリスクを低減するには、AIエージェントを完全に自律したユーザーではなく、半信頼のアクターとして扱う必要があります。
モデルレベルの安全策に加えて、組織はエージェントの権限を制限し、信頼できない入力への露出を抑え、エージェントの挙動の可視性を高める運用上の統制を適用すべきです。
- ログイン状態でのアクセスを制限し、エージェントの権限を制約することで、AIエージェントが各タスクに必要な最小限の権限で動作するようにします。
- 明示的で範囲を絞ったプロンプトを使用し、広範な指示を避けることで、信頼できないコンテンツを解釈する際にエージェントへ過度な裁量を与えないようにします。
- データ共有、金融取引、システム変更などの機微な操作には、段階的な確認や二次承認を必須にする。
- タスクごとに、特定のWebサイト、ツール、リソースへのエージェントアクセスを制約することで、信頼できない、または不要な入力への露出を減らします。
- 監視とログ記録によりエージェントの挙動を把握し、意図の逸脱、異常な操作、ユーザーの元の要求からの乖離を検知する。
- AIエージェントを中核システムから隔離し、実行制限やレート制御を適用することで、プロンプトインジェクションが発生した場合の影響範囲を縮小します。
これらの統制を組み合わせることで、影響範囲(ブラスト半径)を抑え、エージェント主導のワークフロー全体におけるプロンプトインジェクションのリスクを低減できます。
AIエージェントがもたらすセキュリティの転換
プロンプトインジェクションは、AIシステムがより自律的になり、日常のワークフローにますます組み込まれていく中で、サイバーセキュリティにおけるより大きな転換を浮き彫りにしています。
エージェントが信頼できないコンテンツを解釈し、ユーザーに代わって現実世界の行動を取れるようになるにつれ、静的な権限や境界型の制御を前提とした従来のセキュリティモデルは効果が薄れていきます。
この進化により、動的な環境全体で動作するAI駆動システムに対して、信頼、検証、監督をどのように適用するかを組織が再考する必要があります。
これに対応して、多くの組織は暗黙の信頼を排除し、AI駆動のワークフロー全体で継続的な検証を強制するために、ゼロトラストの原則へと舵を切っています。