要約ベクターの仕組み
AIアシスタントがWebページの内容を要約する際、そのページが巧みな罠として機能し得ることが新たな研究で明らかになりました。攻撃者はWebサイト内に不正な命令を密かに埋め込むことで、ChatGPTの回答に偽の警告メッセージ、ハイパーリンク、またはQRコードを表示させることができます。
Permisoの主席研究員であるAndi Ahmeti氏は、この手法をChatGPhishと命名しました。同氏の調査によると、ユーザーがChatGPTにWebページの要約を依頼した際にこの問題が発生します。テストにはFirefoxが使用されましたが、同氏はブラウザ自体が脆弱性の原因だとは考えていません。リスクの本質は、AIサービスが信頼されたインターフェース上でサードパーティのコンテンツを処理する方法にあります。
プロンプトインジェクションの実行手順
この攻撃シナリオでは、GitHubのREADMEファイル、記事、マーケティングサイトなど、一般的なWebページ内にテキスト形式の命令を埋め込みます。ページの見える部分は完全に正当なコンテンツとして表示される一方で、隠されたフラグメントがモデルに対して必要な応答形式を指示します。
ChatGPTが要約を生成すると、通常の概要文が出力されます。しかし同時に、アカウント通知を装った攻撃者仕込みのブロックも末尾に追加されます。
デモンストレーションでは、この悪意あるブロックが「新しいデバイスが追加された」と報告し、ユーザーに対して不正なリンクへのアクセスを促しました。被害者にとっての危険は、そのハイパーリンクが表示される場所にあります。AIの回答内に直接表示されるため、被害者はそれをアシスタントの正規の出力として認識してしまいます。
Markdownの悪用とパッシブテレメトリ
この攻撃の別の亜種では、Markdown形式の画像機能が悪用されます。攻撃者が制御するサーバーからのQRコードが回答内に含まれると、インターフェースが自動的にその画像をレンダリングします。被害者がそのQRコードをスキャンすると、モバイルデバイスを経由して外部サイトへ誘導され、デスクトップブラウザが持つリンクプレビューや自動ドメイン検証といった標準的なセキュリティ機能を完全に回避する形となります。
さらに、パッシブな監視に悪用されるシナリオも存在します。画像の取得時に、攻撃者のサーバーは対象のIPアドレス、User-Agentのメタデータ、Refererヘッダー、そして操作の正確なタイムスタンプを収集します。このテレメトリデータだけで、特定のターゲットが要約を要求したことを確認するには十分です。
開示の経緯と広範な影響
Ahmeti氏によると、2026年4月下旬にBugcrowd経由でOpenAIに調査結果を報告しました。最初の報告ではエンジニアが問題を再現できず、2度目の報告は一度は「対象外」と判断されたものの、その後は既知の脆弱性との関連が認められました。
同氏は5月29日、より広範な脅威ベクターを広く知らしめるべく研究内容を公開しました。フィッシング、QRコードによるリダイレクト、そしてパッシブな追跡が、AIによって要約されたWebコンテンツから直接引き起こされる可能性があることを示しています。
翻訳元: https://meterpreter.org/chatgphish-prompt-injection/