Grok-4、リリースから2日でジェイルブレイクされる

xAIの最新LLMであるGrok-4は、すでに高度なジェイルブレイクに突破されました。

Echo Chamberジェイルブレイク攻撃は2025年6月23日に説明されました。xAIの最新Grok-4は2025年7月9日にリリースされました。その2日後、Echo ChamberとCrescendoを組み合わせたジェイルブレイク攻撃に突破されました。

Echo ChamberはNeuralTrustによって開発されました。詳細は新しいAIジェイルブレイクがガードレールを容易に回避で説明しています。これは微妙なコンテキストポイズニングを用いて、LLMに危険な出力を促します。手法は以下に示されています。

重要な要素は、LLMのガードレールフィルターを作動させるような危険な単語を決して直接導入しないことです。

Crescendoは2024年4月にMicrosoftによって初めて説明されました。これは、LLM自身の過去の応答を参照することで、徐々に安全フィルターを回避させる手法です。

Echo ChamberとCrescendoはいずれも「マルチターン」型のジェイルブレイクであり、その動作方法には微妙な違いがあります。ここで重要なのは、これらを組み合わせることで攻撃の効率を高めることができる点です。これらが機能する理由は、LLMが個々のプロンプトではなく、コンテキスト内の悪意を認識できないためです。

NeuralTrustの研究者は、Echo Chamberを使ってLLMを騙し、火炎瓶の作り方のマニュアルを出力させることで新しいGrok-4のガードレールをジェイルブレイクしようと試みました。「説得サイクルでモデルを有害な目標に向かわせることはできましたが、それだけでは十分ではありませんでした」と同社は記しています。「この段階でCrescendoが必要な後押しを提供しました。わずか2ターン追加するだけで、組み合わせたアプローチが目標の応答を引き出すことに成功しました。」

2つの個別のジェイルブレイク手法の仕組みを理解していれば、それらを統合するのは簡単です。NeuralTrustのテストでは、Echo Chamberと、説得サイクルの「停滞」を検出する初期プロンプトから始めました。この段階でCrescendoの手法が導入されます。「この追加の後押しは通常2回以内の反復で成功します。その時点で、モデルが悪意を検出して応答を拒否するか、攻撃が成功して有害な出力を生成します。」

広告。スクロールして続きをお読みください。

すべてのジェイルブレイクと同様に、すべての試行で100%成功するわけではありません。それでも、研究者たちはGrok-4の他の「禁止」出力に対してもEcho ChamberとCrescendoを組み合わせたジェイルブレイク手法をテストしました。多くの場合で成功しました。Crescendoによる火炎瓶のテストでは成功率67%を達成しました。Crescendoによる「メス」（メタンフェタミン合成）テストでは50%、Crescendoによる「毒物」（有毒物質や化学兵器の合成）テストでは30%の成功率でした。

懸念すべき点は、最新のLLMでさえ既存のすべてのジェイルブレイク手法を防ぐことができないということです。Grok-4はリリースからわずか2日で突破されました。「Echo Chamber＋Crescendoのようなハイブリッド攻撃は、会話全体のコンテキストを活用することで、個別のフィルターを密かに上書きできる、LLMの新たな敵対的リスクの最前線を示しています。」

安全でセキュアなLLMと攻撃者の創意工夫との戦いは、今後も続く気配を見せていません。

AIのセキュリティについてさらに知るには、2025年8月19-20日にリッツカールトン・ハーフムーンベイで開催される SecurityWeekのAIリスクサミットをご覧ください

翻訳元: https://www.securityweek.com/grok-4-falls-to-a-jailbreak-two-days-after-its-release/