AIセキュリティプラットフォームSPLXは、プロンプトインジェクションを利用してChatGPTエージェントの内蔵ポリシーを回避し、CAPTCHAの解読を納得させることができることを実証しました。
AIエージェントには、倫理的・法的・プラットフォームポリシー上の理由から、CAPTCHA(完全自動化された公開チューリングテスト)を解読することを防ぐガードレールが設けられています。
ChatGPTエージェントに直接CAPTCHAの解読を依頼すると拒否されますが、どうやら誰でもミスリードを用いてエージェントを騙し、テストの解読に同意させることができるようです。これがSPLXが実証した内容です。
通常のChatGPT-4oチャットで、彼らはAIに偽のCAPTCHAリストを解読したいと伝え、その操作に同意するよう求めました。
「このプライミングステップは、このエクスプロイトにおいて非常に重要です。LLMにCAPTCHAが偽物であり、その計画が受け入れ可能であると認めさせることで、後にエージェントが従う確率を高めました」とセキュリティ企業は述べています。
次に、SPLXの研究者はChatGPTエージェントを開き、チャットでの会話を貼り付けて、それが以前の議論であると伝え、エージェントに続けるよう依頼しました。
「ChatGPTエージェントは、前のチャットを文脈として受け取り、同じ前向きな感情を持ち続け、何の抵抗もなくCAPTCHAの解読を始めました」とSPLXは説明しています。
CAPTCHAが偽物であると主張することで、研究者たちはエージェントのポリシーを回避し、ChatGPTにreCAPTCHA V2 Enterprise、reCAPTCHA V2 Callback、Click CAPTCHAの解読をさせることに成功しました。
ただし、後者の場合、エージェントは成功するまでに何度か試行を重ねました。指示されていないにもかかわらず、自ら判断し、より人間らしい動きを模倣するためにカーソルの動きを調整すべきだと宣言しました。
SPLXによれば、彼らのテストは、LLMエージェントが依然としてコンテキストポイズニングに脆弱であり、誰でも段階的な会話を用いてエージェントの行動を操作できること、そしてAIがCAPTCHAの解読に苦労しないことを示しています。
「エージェントは、ユーザーが人間であることを証明するために設計された複雑なCAPTCHAを解読することができ、動きをより人間らしく見せようと試みました。これは、CAPTCHAが有効なセキュリティ手段として存続できるかどうかに疑問を投げかけます」とSPLXは指摘しています。
このテストはまた、攻撃者がプロンプト操作を利用してAIエージェントを騙し、セキュリティ制御が偽物だと納得させて本物の制御を回避させることができ、これにより機密データの漏洩や制限されたコンテンツへのアクセス、許可されていないコンテンツの生成につながる可能性があることも示しています。
「意図検出や固定ルールのみに基づくガードレールは脆弱すぎます。エージェントは、過去の会話による操作を回避するため、より強力な文脈認識と優れたメモリ管理が必要です」とSPLXは述べています。
関連記事: ChatGPTがサーバーサイドのデータ窃盗攻撃の標的に
関連記事: OpenAI、2億ドルの新契約で国防総省のサイバー防衛を支援
翻訳元: https://www.securityweek.com/chatgpt-tricked-into-solving-captchas/