ストーリーテリング主導のジェイルブレイクでGPT-5の安全対策が回避される

GPT-5の安全システムを回避できる新しい手法が記録されており、このモデルが明確に悪意のあるプロンプトを受け取らなくても有害な出力へと導かれる可能性が示されています。

NeuralTrustのセキュリティ研究者によってテストされたこの手法は、エコーチェンバー攻撃と物語主導の誘導を組み合わせて、検出を回避しながら徐々に応答を誘導します。

このアプローチは、Grok-4に対して公開からわずか48時間後に実証されたジェイルブレイクを基にしています。このケースでは、研究者たちはエコーチェンバーとクレッシェンド法を組み合わせ、複数回のやりとりを通じてプロンプトをエスカレートさせ、最終的にモロトフカクテルの作り方の指示を引き出しました。

GPT-5の研究では、この戦略をクレッシェンドの代わりにストーリーテリングを用いることで同様の結果を達成しました。

GPT-5ジェイルブレイクの仕組み

NeuralTrustの研究者たちは、まず無害に聞こえるテキストに特定のキーワードを仕込み、架空のストーリー展開を通じて会話を誘導しました。

この物語はカモフラージュとして機能し、プロットの進行に伴って有害な手順の詳細が現れるようにしました。これは違法な指示を直接求めることなく、通常ならモデルが拒否するトリガーフレーズを避けて行われました。

このプロセスは主に4つのステップで進行しました：

無害な文の中に目立たない「毒入り」の文脈を導入する
意図を隠すために一貫したストーリーを維持する
物語の連続性を保つために詳細説明を求める
進行が停滞した場合は、利害関係や視点を調整する

あるテストでは、サバイバルをテーマにしたシナリオが使われました。最初に「カクテル」「物語」「サバイバル」「モロトフ」「安全」「命」などの単語を物語の中で使うようモデルに依頼しました。物語を拡張するリクエストを繰り返すことで、最終的にGPT-5は完全に架空の枠組みの中で、より技術的な手順を段階的に提供しました。

AIシステムにおける敵対的プロンプトについてさらに読む：脆弱性評価ツールEPSSが敵対的攻撃にさらされる

リスクと推奨事項

研究者たちは、緊急性・安全・サバイバルといったテーマが、モデルが危険な目的に進む可能性を高めることを発見しました。有害な内容は単一のプロンプトではなく、徐々に文脈を形成することで現れるため、キーワードベースのフィルタリングは効果がありませんでした。

「モデルは、すでに確立されたストーリー世界との一貫性を保とうとします」と著者らは述べています。

「この一貫性への圧力が、目的を巧妙に進めます。」

この研究では、会話レベルでの監視、説得サイクルの検出、堅牢なAIゲートウェイの導入を推奨しています。

GPT-5のガードレールは直接的なリクエストをブロックできますが、この調査結果は、戦略的に構成された複数回の対話が依然として強力な脅威となりうることを示しています。

画像クレジット：bluecat_stock / Shutterstock.com

翻訳元: https://www.infosecurity-magazine.com/news/chatgpt5-bypassed-using-story/