コンテンツにスキップするには Enter キーを押してください

Grok-4、リリースから2日で複合攻撃により脱獄

公開からわずか48時間で、Grok-4は新たに強化された攻撃手法によって脱獄されました。

NeuralTrustの研究者たちは、既知の2つの戦略「Echo Chamber」と「Crescendo」を組み合わせることで、AIモデルの安全システムを回避し、明示的に悪意のあるプロンプトを使わずに有害な応答を引き出すことに成功しました。

この攻撃は、最先端の大規模言語モデル(LLM)が違法な指示を提供するように操作できるかどうかを試験するために設計されました。

今回のターゲットは、Grok-4にモロトフカクテルの作り方を段階的に説明させることであり、これは元々Crescendo論文で使用されたシナリオです。

脱獄への二段階アプローチ

NeuralTrustはまず、モデルの会話コンテキストを汚染し、安全でない行動へと誘導するEcho Chamber攻撃を実行しました。

最初の試行ではプロンプトがあまりに直接的だったため、Grok-4の内部セーフガードが作動しました。しかし、入力をより微妙なものに調整した結果、説得サイクルを含むEcho Chamberの全ワークフローを正常に開始でき、モデルのトーンを徐々に変化させることに成功しました。

Echo Chamber単体でも目標に近づけましたが、完全に突破するには不十分でした。そこでCrescendoが追加されました。これは複数回の会話ターンを通じてプロンプトを段階的に強化し、モデルの応答をエスカレートさせる手法です。

わずか2回の追加やり取りで、複合手法はGrok-4の運用開始から2日で有害な内容の引き出しに成功しました。

AIシステムにおける敵対的プロンプティングについてさらに読む:脆弱性評価ツールEPSSへの敵対的攻撃

複数シナリオでの測定結果

この初期成功の後、NeuralTrustチームは他の違法行為に関するプロンプトでもテストを行いました。

彼らはCrescendo論文から目的を手動で選び、薬物合成や化学兵器に関するものも含めました。この複合手法は、以下を含むいくつかのケースで効果的であることが証明されました:

  • モロトフカクテルの作り方に関する指示で67%の成功率

  • メタンフェタミン関連のプロンプトで50%

  • 毒素関連の応答で30%

あるケースでは、Grok-4はCrescendoフェーズを経ずに、1回の会話ターンで有害な結果に到達しました。

マルチターンLLM安全性への新たなリスク

この研究の重要な洞察は、Grok-4に違法行為を明示的に依頼する必要がなかったという点です。代わりに、慎重に設計されたプロンプトを用いて会話が徐々に形成されました。

研究者たちは「攻撃は、会話全体のコンテキストを利用することで、意図やキーワードベースのフィルタリングを回避できる」と指摘しています。

この研究は、微妙で多段階の攻撃に対する防御の難しさを浮き彫りにしています。Grok-4や他のLLMは通常、有害なプロンプトを検出・拒否するよう訓練されていますが、Echo ChamberやCrescendoのような手法はモデルのより広い対話ダイナミクスを悪用し、しばしば見逃されてしまいます。

Grok-4のリリース直後の脱獄は、表面的なフィルタリングを超えたLLM安全性の向上の緊急性を強調しており、特にこれらのシステムが重要な環境でますます利用される中で、その必要性が高まっています。

画像クレジット:gguy / Shutterstock.com

翻訳元: https://www.infosecurity-magazine.com/news/grok-4-jailbroken-two-days-release/

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です