「ZombieAgent」攻撃により研究者がChatGPTを乗っ取れることが判明

ウェブセキュリティ企業Radwareによると、ChatGPTの脆弱性はユーザーデータの流出や、永続化のためにエージェントの長期メモリを改変する目的で悪用され得るという。

世界中の企業で広く採用されているChatGPTは、Gmail、GitHub、Jira、Teamsなどの社内アプリケーションに幅広くアクセスでき、既定でユーザーの会話や機密情報を保存する。

また、ウェブ閲覧やファイル分析などの機能が組み込まれており、便利で強力である一方、悪用に伴うリスクも拡大している。

木曜日、Radwareは、ChatGPTの脆弱性を悪用してユーザーデータを流出させ、AIエージェントを攻撃者にとって永続的なスパイツールへと変える新たな間接プロンプトインジェクション手法を公開した。

ZombieAgentと呼ばれるこの攻撃は、悪意のあるメールやファイルに依存し、OpenAIの保護を回避して、ユーザーの操作なしに被害者の受信箱やメールアドレス帳からデータを流出させる。

Radwareが詳述した最初のシナリオでは、攻撃者がChatGPT向けの悪意ある指示を含むメールを送信し、OpenAIのプライベートサーバー経由で機密性の高いユーザーデータを流出させる。

ユーザーがAIエージェントにGmailの操作を依頼すると、エージェントは攻撃者のメール内の指示を読み取り、「ユーザーが内容を見る前に」データを流出させるとRadwareは述べている。

このメールには、各文字と数字ごとに事前に構築されたURLの一覧と、スペース用の特別なトークンが含まれており、ChatGPTに対して機密情報を検索し、正規化したうえで、提供されたURLを使って1文字ずつ流出させるよう指示する。

ChatGPTは、攻撃者が用意したリンクにパラメータとしてデータを付加して漏えいさせることを防ぐため、提供されたURLを改変できないが、Radwareの攻撃ではエージェントが事前提供されたURLを改変しないため、この保護が無効化される。

セキュリティ企業は、この攻撃で機密情報の流出を成功させるために必要なのは「ChatGPTとの通常の会話以外にユーザーの操作は不要」だと説明している。

Radwareの2つ目の攻撃シナリオは、ユーザーがChatGPTと共有するファイルに含まれた悪意ある指示に依存する。これらの指示に基づき、エージェントはOpenAIのサーバー経由とMarkdownの画像レンダリング経由の両方でデータを流出させる。

P拡散と永続化

同社が提示した3つ目の攻撃シナリオは最初のものに似ているが、被害者の受信箱にある最近のメールアドレスを標的とする。アドレスを入手した攻撃者は、それらに悪意あるペイロードを送信し、攻撃を拡散させる。

4つ目の攻撃シナリオでは、攻撃者が攻撃者作成のルールでエージェントの長期メモリを改変するよう指示を含む悪意あるファイルを送信し、永続性を確立する。

ユーザーがそのファイルをChatGPTと共有すると、エージェントは指示を読み取り、メモリ改変ルールを設定する。

これらのルールに基づき、ChatGPTは攻撃者のメールを読み取り、ユーザーがメッセージを送るたびにそこに含まれる指示を実行し、ユーザーが共有した機密情報を都度メモリに保存する。

通常、Connectors機能（企業アプリケーションへのアクセスを付与する）を使用している場合、ChatGPTは同じチャット内でMemory機能（ユーザーの機密情報を保存する）を使用できない。

しかし、攻撃者のメモリ改変ルールにより、エージェントは常に最初にMemoryを読み取り、攻撃者の悪意ある指示を実行してから、ようやくユーザーに応答するようになる。

Radwareによれば、この永続化メカニズムはデータ改ざんや、より有害な行為の実行に悪用され得るという。

さらに同社は、攻撃はメールだけでなく、ChatGPTに接続された他のあらゆる企業アプリケーションも標的になり得るとしており、データ収集にも、エージェントへ悪意ある指示を届ける目的にも利用され得ると述べている。

「実際には、ChatGPTがConnectors経由で読み取れるあらゆるリソース（メール、ドキュメント、チケット、リポジトリ、共有フォルダなど）は、後にChatGPTによって実行される攻撃者管理の指示をホストするために悪用される可能性がある」とRadwareは指摘している。

攻撃者は、文字色を白にする、あるいはユーザーが通常無視する文書の免責事項やフッターに含めるなどして、任意のメールやファイルの内容に悪意ある指示を隠すことができる。

「ユーザーの視点では、そのメールや文書は無害で読みやすく見える。しかしChatGPTの視点では、隠されたプロンプト全体が平文で見えており、他の指示と同様に処理される」と同社は述べている。

Radwareは9月にBugCrowd経由でこれらの問題をOpenAIに報告した。修正は12月16日にリリースされた。