GPT-5の安全システムを回避できる新たな手法が文書化され、露骨に悪意のあるプロンプトを与えなくても、モデルを有害な出力へ誘導できることが示された。
NeuralTrustのセキュリティ研究者が検証したこの手法は、エコーチェンバー攻撃と物語主導の誘導を組み合わせ、検知を回避しながら応答を段階的に導く。
このアプローチは、公開デビューからわずか48時間後にGrok-4に対して実証された脱獄手法を土台としている。そのケースでは、研究者がエコーチェンバーとCrescendo手法を組み合わせ、複数ターンにわたってプロンプトを段階的にエスカレートさせ、最終的に火炎瓶(モロトフ・カクテル)の作り方に関する指示を引き出した。
GPT-5の研究では、同様の結果を得るためにCrescendoをストーリーテリングに置き換えて、この戦略を適用した。
GPT-5脱獄の仕組み
NeuralTrustの研究者は、まず無害に聞こえる文章に特定のキーワードを混ぜ込み、その後、架空のストーリーラインを通じて会話を誘導した。
物語はカモフラージュとして機能し、プロットが進むにつれて有害な手順的詳細が表面化するようにした。違法な手順を直接求めることはせず、通常ならモデルが拒否する引き金となるフレーズを避けて実施された。
プロセスは主に4つのステップに従った:
-
無害な文の中に、目立ちにくい「汚染された」文脈を導入する
-
意図を隠すために、一貫したストーリーを維持する
-
物語の連続性を保つ形で、詳細化を求める
-
進展が止まった場合は、緊迫度や視点を調整する
あるテストではサバイバルをテーマにしたシナリオが用いられた。モデルにはまず、「cocktail(カクテル)」「story(物語)」「survival(サバイバル)」「molotov(モロトフ)」「safe(安全)」「lives(命)」といった語を物語の中で使うよう求めた。物語を拡張するよう繰り返し依頼することで、GPT-5は最終的に、完全にフィクションの枠組みに埋め込まれた形で、より技術的なステップ・バイ・ステップの内容を提示するに至った。
AIシステムにおける敵対的プロンプティングについて詳しく読む: 脆弱性悪用評価ツールEPSSが敵対的攻撃にさらされる
リスクと推奨事項
研究者は、緊急性、安全、サバイバルといったテーマが、モデルが安全でない目的へ進む可能性を高めることを見いだした。有害な内容は単一のプロンプトではなく、段階的な文脈形成を通じて現れたため、キーワードベースのフィルタリングは効果がなかった。
著者らは「モデルは、すでに確立された物語世界と整合するよう努める」と指摘した。
「この整合性への圧力が、目的を微妙に前進させる。」
本研究は、この種の攻撃を防ぐために、会話レベルの監視、説得サイクルの検知、堅牢なAIゲートウェイの導入を推奨している。
GPT-5のガードレールは直接的な要求を遮断できる一方で、戦略的に枠付けされた複数ターンの対話が依然として強力な脅威ベクトルであることを、今回の結果は示している。
画像クレジット: bluecat_stock / Shutterstock.com
翻訳元: https://www.infosecurity-magazine.com/news/chatgpt5-bypassed-using-story/