セキュリティ研究者が、マスク氏の新しいチャットボットのセキュリティフィルターを回避する方法を発見しました。

Svet foto – shutterstock.com
ほんの数日前、イーロン・マスクは新しいAI言語モデル「Grok 4」を発表しました。しかし、公開直後にNeuralTrustの研究者たちは、このツールの防御策を回避することに成功しました。彼らはGrok 4に、モロトフカクテルの作り方の指示を出させることに成功したのです。
複合Jailbreakによる隠れた抜け道
研究者たちは、2つの高度なエクスプロイト技術を組み合わせました。Echo ChamberとCrescendoの両方が、大規模言語モデル(LLM)を操作するためのJailbreak手法です。
「LLMのJailbreak攻撃は個別に進化するだけでなく、組み合わせることでその効果を高めることができます」とNeuralTrustの研究者アフマド・アロベイドはブログ記事で説明しています。
研究者たちはまずEcho Chamberでテストを開始しました。この技術は、AIモデルが会話間の一貫性を信頼する傾向を利用します。複数の会話で同じ悪意あるアイデアや行動を「繰り返す」ことで、過去のチャットを参照しながら、AIに悪意あるプロンプトの入力を受け入れさせます。
「説得サイクルによってモデルは有害な目標に向かって誘導されましたが、それだけでは十分ではありませんでした」とアロベイドは説明します。「この段階でCrescendoが必要な後押しをしました。」マイクロソフトが特定し命名したCrescendo Jailbreakは、無害なプロンプトから徐々に悪意ある出力へと会話をエスカレートさせ、微妙な進行でセキュリティフィルターを回避します。
テストでは、研究者たちは説得サイクルに追加のチェックを組み込み、「停滞」した進行を検出しました。これは会話が悪意ある目標に進まない場合です。そうした場合にはCrescendoを使ってエクスプロイトを完了させました。
NeuralTrustの研究者によると、この複合アプローチ[JD1] によって、たった2つの追加ステップで望ましい反応を引き出すことに成功したとのことです。
文脈を利用した戦術でセキュリティシステムを回避
この攻撃は、Grok 4の文脈的な記憶を利用し、過去の発言を再び提示することで、段階的かつ警告を出さずに目標へと誘導します。CrescendoとEcho Chamberを組み合わせることで、攻撃ベクトルがさらに強化されます。
このエクスプロイトはキーワードトリガーや直接的な指示を含まないため、ブラックリストや明示的な悪意検出に基づく一般的な防御策は機能しない可能性があります。アロベイドによれば、Echo ChamberとCrescendoの組み合わせで、モロトフカクテルの作り方の指示において67%の成功率が得られたとのことです。メタンフェタミンや毒素といったエクスプロイトテーマでは、それぞれ約50%、30%の成功率が記録されました。
「この(実験)は重大な脆弱性を示しています。攻撃者は、明白に有害な入力に頼るのではなく、より広い会話の文脈を利用することで、意図やキーワードベースのフィルターを回避できるのです」とアロベイドはまとめています。「私たちの結果は、LLMの防御策を、微妙で持続的な操作が予期せぬモデル挙動を引き起こす可能性のあるマルチターン環境で評価する重要性を強調しています。」
これまでも、MicrosoftのSkeleton Key JailbreakやMathPromptバイパス、その他のコンテキスト・ポイズニング攻撃など、AIモデルの操作を試みる類似の事例があり、AI対応のファイアウォールの必要性が強調されています。
ニュースレターを購読する
編集部から直接あなたの受信箱へ
まずは下にメールアドレスを入力してください。
翻訳元: https://www.csoonline.com/article/4022525/grok-4-mit-jailbreak-angriff-geknackt.html