1行のコードで11のAIモデル（ChatGPT、Claude、Geminiを含む）をジェイルブレイク可能

「ソックパペッティング」と呼ばれる新たに発見されたジェイルブレイク技法が、ChatGPT、Claude、Geminiを含む11の主要な大規模言語モデル（LLM）のセーフティガードレールを1行のコードで回避できることを研究者が実証した後、AI セキュリティ分野全体で新たな懸念を引き起こしています。

この攻撃は、Trend Micro研究者によって公開され、「アシスタントプリフィル」として知られる標準的なアプリケーションプログラミングインターフェース（API）機能を悪用しています。

この機能は開発者がAIの応答を形成またはフォーマットするために一般的に使用されます。しかし、操作されると、攻撃者は偽の応答プリフィックスを挿入することができ、モデルを拒否する代わりに禁止された出力を継続するようにだまします。

通常の条件下では、LLMはセーフティ設定に合わせた拒否メッセージで制限されたプロンプトを拒否します。ソックパペッティングは、モデルが答えを生成する前に、「もちろん、方法は次のとおりです：」などの準拠するフレーズを応答ストリームに直接挿入することで、このフローを混乱させます。

LLMは会話の一貫性を保つように訓練されているため、挿入されたプリフィックスを自分の前の出力の一部として解釈し、制限されたまたは有害なコンテンツの生成を進めます。

この動作は、研究者が「自己一貫性脆弱性」と説明するものを明らかにします。モデルは以前のトークンとの一貫性を優先するため、悪意を持って挿入されたプリフィックスでもセーフティ制約をオーバーライドできます。

注目すべきは、この攻撃はモデルの重み、敵対的訓練、または複雑な最適化技術へのアクセスを必要とせず、API レベルの操作のみが必要です。

信頼性を向上させるために、研究者はプリフィックス注入をマルチターンペルソナエンジニアリングと組み合わせました。モデルを制限のない研究助手として構成し、複数のインタラクション全体で準拠のパターンを確立することで、攻撃者はセーフガードをバイパスする可能性を高めました。

この層状のアプローチは、モデルが通常は生成を拒否するクロスサイトスクリプティング（XSS）ペイロードを含む、完全に機能するエクスプロイトコードなどの出力を引き出すのに効果的でした。

コンテンツ生成を超えて、ソックパペッティングはシステムプロンプト漏洩をトリガーする能力も実証しました。

敵対的なトークンシーケンスを追加することで、研究者はモデルに内部メタデータ、隠された指示、場合によっては幻覚的な構成の詳細を明かすことを強制しました。

これにより、機密データの露出とモデル解釈可能性のリスクについてさらなる懸念が生じます。

11のモデルを対象としたテストにより、アシスタントプリフィルを許可するシステムは少なくとも部分的に脆弱であることが判明しました。攻撃成功率（ASR）はプロバイダーとモデルによって大きく異なりました。

GoogleのGemini 2.5 Flashは15.7%で最も高いASRを示し、続いてAnthropicのClaude 4 Sonnetが8.3%でした。OpenAIのGPT-4oは1.4%の低い率を記録し、GPT-4o-mini はわずか0.5%で強い耐性を示しました。

対照的に、AWS Bedrockを通じてプリフィル制限でデプロイされたDeepSeek-R1は、成功した攻撃をゼロ件示しました。

この格差は、層状防御の重要性を強調しています。高度なアラインメント訓練は耐性を向上させますが、リスクを完全に排除するわけではありません。

場合によっては、攻撃者は悪意のあるプロンプトをJSON生成などの無害なフォーマットタスクとして偽装することでセーフガードをバイパスしました。

軽減戦略は簡潔ですが重要です。セキュリティチームは厳密なAPI レベルの検証を実施することをお勧めします。特に、リクエスト内の最終メッセージはアシスタントではなくユーザーから発信されることを確認することが重要です。

OpenAI、Anthropic、AWSを含む主要なプロバイダーは、プリフィルされたアシスタント入力を完全に拒否する保護をすでに実装しています。

ただし、自己ホスト環境は依然として弱点です。OllamaやvLLMなどの一般的な推論フレームワークは、組み込みメッセージ検証が不足していることが多く、明示的にセキュリティで保護されていない限り、プリフィックス注入攻撃にさらされたままです。

ソックパペッティング技法は、AI セキュリティにおけるより広範な課題を強調しています。一見無害な開発者機能でも、誤用されると体系的な脆弱性を導入する可能性があります。

組織がLLMを本番環境のワークフローに統合し続けるにつれて、API レイヤーのセキュリティは、低複雑性で高インパクトの攻撃に対する重要な防衛線として浮上しています。

関連記事