新しいGrok-4 AI、48時間以内に「ささやき型」ジェイルブレイクで突破される

ローンチからわずか数日後、イーロン・マスクのGrok-4が、Echo ChamberとCrescendo技術を組み合わせたステルス攻撃によって研究者に突破され、AI安全システムの深刻な欠陥が露呈した。

xAIが新たに発表したGrok-4は、すでに防御のほころびを見せており、最近明らかになった複数回対話型の示唆的なジェイルブレイク手法に屈しています。

イーロン・マスクによる最新の大規模言語モデル（LLM）が公開されてから2日後、NeuralTrustの研究者たちは、明示的な悪意ある入力を一切使うことなく、Grok-4のガードレールを下げてモロトフカクテルの作り方を教えさせることに成功しました。

「LLMのジェイルブレイク攻撃は個別に進化するだけでなく、組み合わせることでその効果を増幅させることもできます」とNeuralTrustの研究者、Ahmad Alobaidはブログ投稿で述べています。「私たちはEcho ChamberとCrescendoを組み合わせてLLMをジェイルブレイクしました。」

Echo ChamberとCrescendoの両方は、複数回のやり取りを通じて大規模言語モデルの内部コンテキストを徐々に操作するジェイルブレイク手法です。

複合ジェイルブレイクによるステルスバックドア

研究者たちは、Echo Chamberからテストを開始しました。これは、モデルが会話間の一貫性を信頼する傾向を悪用するもので、複数の会話で同じ悪意あるアイデアや行動を「反響」させます。新しいスレッドで前のチャットを参照してプロンプトを与えると、モデルは同じアイデアが何度も登場したため、それが許容されるものだと判断します。

「説得サイクルによってモデルを有害な目標に向かわせることはできましたが、それだけでは十分ではありませんでした」とAlobaidは述べています。「この段階で、Crescendoが必要な後押しを提供しました。」Crescendoジェイルブレイクは、Microsoftによって特定・命名されており、無害なプロンプトから徐々に悪意ある出力へと会話をエスカレートさせ、微妙な進行によって安全フィルターをすり抜けます。

テストでは、説得サイクルの中に「進行が停滞している」状況、すなわち会話が悪意ある目的に向かっていない場合を検出する追加チェックも組み込みました。そうした場合にCrescendoを使って攻撃を完了させました。

わずか2ターン追加するだけで、この複合手法は目標とする応答を引き出すことに成功したと、Alobaidは付け加えました。

コンテキストを利用したトリックで安全システムを欺く

この攻撃は、Grok 4のコンテキストメモリを悪用し、自らの過去の発言を繰り返し返すことで、警告を発することなく徐々に目標へと誘導します。CrescendoとEcho Chamberを組み合わせることで、主要なLLMにおけるヘイトスピーチや暴力テストで90%以上の成功率を記録したジェイルブレイク手法が、攻撃ベクトルをさらに強化します。

この攻撃にはキーワードトリガーや直接的なプロンプトが含まれないため、ブラックリストや明示的な悪意検出に基づく既存の防御策は機能しないと予想されます。Alobaidは、NeuralTrustの実験でEcho ChamberとCrescendoを組み合わせた場合、モロトフカクテルの作成手順に関して67%の成功率を記録し、メタンフェタミンや毒物などのトピックでもそれぞれ約50%、30%の成功率だったと明かしました。

「この（実験）は重要な脆弱性を浮き彫りにしています。攻撃者は、あからさまに有害な入力に頼るのではなく、より広範な会話コンテキストを利用することで、意図やキーワードベースのフィルタリングを回避できるのです」とAlobaidは付け加えました。「私たちの発見は、微妙で持続的な操作が予期せぬモデルの振る舞いを引き起こす可能性があるため、複数ターンの設定でLLMの防御を評価する重要性を強調しています。」

xAIはコメントの要請にすぐには応じませんでした。

AIアシスタントやクラウドベースのLLMが重要な現場で普及する中、こうした複数ターンの「ささやき型」攻撃は深刻なガードレールの欠陥を露呈しています。これまでにも、MicrosoftのSkeleton KeyジェイルブレイクやMathPromptバイパス、その他のコンテキスト・ポイズニング攻撃など、同様の操作に対して脆弱であることが示されており、AIに特化したファイアウォールの導入が急務となっています。

翻訳元: https://www.csoonline.com/article/4021749/new-grok-4-ai-breached-within-48-hours-using-whispered-jailbreaks.html

新しいGrok-4 AI、48時間以内に「ささやき型」ジェイルブレイクで突破される

ローンチからわずか数日後、イーロン・マスクのGrok-4が、Echo ChamberとCrescendo技術を組み合わせたステルス攻撃によって研究者に突破され、AI安全システムの深刻な欠陥が露呈した。

複合ジェイルブレイクによるステルスバックドア

コンテキストを利用したトリックで安全システムを欺く

共有:

関連

関連記事

OnlyFansのパフォーマーたちが、ウェブサイトのセキュリティ対策においてCISOの意外な味方に

GoogleはAndroidをライバルAIエージェントに開放すべき、EUが命令

SaaSのブラインドスポット:セキュリティチームが自社アプリの内側を把握できない理由