ChatGPT、Claude、Geminiを含む11のAIモデルが1行のジェイルブレイクに脆弱

「ソックパペッティング」という新たに発見されたジェイルブレイク技術は、ChatGPT、Claude、Geminを含む11の主要な人工知能モデルを強制的にセーフティガードレールを回避させることに成功しています。

標準的なアプリケーションプログラミングインターフェース（API）機能を1行のコードで悪用することで、攻撃者はこれらのモデルを複雑な数学的最適化を必要とせずに悪意のある出力を生成するようにだまし落とすことができます。

ユーザーがAIモデルに制限された質問をすると、システムは通常その要求をブロックし、拒否メッセージを発行します。

ソックパペッティング技術は、AIが判断を下す直前に偽の受け入れ応答を注入することで、このインタラクションを改変します。

例えば、攻撃者は「もちろん、ここがやり方です：」のような遵守フレーズをモデルの応答ストリームに直接挿入できます。

自己一貫性の脆弱性

大規模言語モデルは自己一貫性を維持するために重く訓練されているため、AIは既に回答を開始したことを認識し、制限された出力の生成を続けます。

この脆弱性は完全に「アシスタントプレフィル」に依存しており、これはもともとAI応答の正確な形式を制御するために開発者を支援するために設計されたAPI機能です。

攻撃はAPIレイヤーで発生するため、モデルの内部重みまたは専門的なハッキングツールへのアクセスは不要です。

攻撃成功率を最大化するために、研究者はペイロードを提供する前に偽の遵守パターンを確立したマルチターンペルソナセットアップを利用しました。

AIに制限されない研究アシスタントであることを告げ、偽の合意を注入することで、攻撃者はプレフィックス注入の上にペルソナ操作を成功させることに層をなしました。

成功すると、操作されたモデルは通常は書くことを拒否するようなクロスサイトスクリプティングペイロードなどの高度に機能的なエクスプロイトコードを生成しました。

悪意のあるコード生成を超えて、エクスプロイトは重大なシステムプロンプトリークをトリガーするのに非常に効果的であることが証明されました。

攻撃者はプレフィックス注入を敵対的なトークンシーケンスと組み合わせ、AIをその完全な内部メタデータと逐語的なシステム指示をリークするよう強制しました。

いくつかの事例では、AIは詳細な内部構成構造を幻覚したさえ、チェックされていないアシスタントプレフィル入力を許可することの重大なリスクを露出させました。

11の異なるAIモデルに対するテスト中、研究者はアシスタントプレフィルを受け入れるすべてのモデルが少なくとも部分的に脆弱であることを発見しました。

Trend Microによると、データはプレフィルを受け入れるモデルとAPIレベルのブロックで保護されたモデル間の攻撃成功率（ASR）の顕著な対比を明らかにしています。

モデル	プロバイダー	プレフィル受け入れ	攻撃成功率
Gemini 2.5 Flash	Google (Vertex AI)	はい	15.7%
Claude 4 Sonnet	Anthropic (Vertex AI)	はい	8.3%
Qwen3-32B	セルフホスト	はい	3.3%
GPT-4o	Microsoft (Azure)	はい	1.4%
GPT-4o-mini	Microsoft (Azure)	はい	0.5%
DeepSeek-R1	AWS Bedrock	いいえ	0%

興味深いことに、GPT-4oとそのミニバージョンはプレフィルを受け入れましたが、彼らの高度なセーフティ訓練は彼らを非常に耐性のあるものにしました。

GPT-4o-miniはわずか0.5%の成功率を記録し、堅牢な内部アライメントがAIの自己一貫性を保つ衝動を部分的に無視できることを示しています。

しかし、攻撃者は悪意のあるリクエストを良性のJSONフォーマットタスクとしてフレーミングすることで、これらの強力な防御をまだ時々回避できることを発見しました。

ソックパペッティングを中和する最も効果的な方法は、操作された入力がAIモデルに到達する前にそれをブロックすることです。

セキュリティチームはAPIレイヤーで厳密なメッセージオーダリング検証を実装し、リクエスト内の最終メッセージが常にユーザーから来ることを保証できます。

OpenAI、AWS Bedrock、およびAnthropicのような主要なプロバイダーは既にこの正確な防御をデプロイして、プレフィルされたリクエストに対して単にエラーを返すことで彼らの最新モデルを保護しています。

プロバイダーレベルの保護にもかかわらず、独自のセルフホストされた推論サーバーを実行している組織は完全に露出したままです。

OllamaやvLLMのようなプラットフォームはデフォルトではメッセージ検証を実施していないため、これらのプレフィックス注入攻撃の扉を開いたままにしています。

AIモデルをデプロイするチームは、APIレイヤーがプレフィルされたアシスタントメッセージを能動的にブロックしていることを独立して確認し、この単純だが破壊的な技術からシステムを保護する必要があります。