OpenAI、プロンプトインジェクション攻撃に対してChatGPT Atlasを強化

OpenAIは、ブラウザベースのAIエージェントであるChatGPT Atlasについて、プロンプトインジェクション攻撃への防御を強化するためのセキュリティアップデートを公開しました。

このアップデートでは、敵対的学習を施したモデルと、より強力な安全策を組み合わせることで、ハッカーによるますます高度化する操作の試みからユーザーを保護します。

プロンプトインジェクションは、Webブラウザ上で動作するAIエージェントにとって深刻な脆弱性です。ソフトウェアの欠陥を突く従来型のウイルスとは異なり、プロンプトインジェクションはAIのロジックを狙います。

攻撃者は、悪意のある指示をメール、文書、またはWebサイトの中に隠します。AIがこの内容を読むと、ユーザーの本来の指示を無視して、代わりに攻撃者の命令を実行するよう騙される可能性があります。

ChatGPT Atlasのようなエージェントでは、ソーシャルメディアから業務文書まで、信頼できない多様なコンテンツとやり取りするため、リスクは高くなります。

侵害された場合、AIが誤って私的なメールを転送したり、重要なファイルを削除したり、さらにはユーザーが気づかないうちに送金してしまう可能性すらあります。

例えば、攻撃者が一見無害なメールにコマンドを埋め込み、受信箱を要約している最中に、機密性の高い社内データを外部アドレスへ送信するようAIを騙すことができます。

これに対抗するため、OpenAIは自動レッドチーミングと呼ばれる新しい手法を採用しています。強化学習によって訓練された、特化型のAI攻撃者を構築しました。

この「攻撃者」はシステムの侵害を繰り返し試み、成功と失敗から学習して、新たで高度な攻撃を考案します。

この方法により、OpenAIは大規模に防御をテストできます。自動化システムは、人間のテスターが見落とし得る複雑な多段階攻撃をシミュレートできます。

さらに発見しました、数十の手順にわたって展開する長期的なエクスプロイトも。これは公開レポートでは一度も文書化されたことのないパターンです。

OpenAIは、プロンプトインジェクションはオンライン詐欺に似た長期的課題であり、完全に解決されない可能性があると強調しています。しかし、これらの新しい自動化防御により、リスクは大幅に低減します。

ユーザー側でも自衛策を講じることができます。OpenAIは、可能な限りログイン状態でのアクセスを制限し、AIが重要な操作を行う前に表示される確認リクエストを慎重に確認するよう助言しています。

また、広範な命令ではなく、具体的で範囲を絞った指示をAIに与えることも、隠しテキストによる操作を防ぐのに役立ちます。

関連記事