Claude Fable 5のジェイルブレイク成功——スタックエクスプロイト生成が可能に

Anthropicが誇る最先端AIモデルが、リリースからわずか数時間でジェイルブレイクされました。その安全アーキテクチャの実効性に、深刻な疑問が投げかけられています。

Anthropicは2026年6月9日、初めて一般公開されるMythosクラスのモデルとして「Claude Fable 5」をリリースしました。コーディング、研究、複雑なタスク実行における画期的な進化を遂げたモデルと位置付けています。

従来のClaudeとは異なり、Fable 5には専用のクラシファイアー層が搭載されています。これはサイバーセキュリティ、生物学、化学、蒸留といったハイリスク領域に関するクエリを監視・遮断する独立したAIシステムで、フラグが立ったリクエストはより能力の低いOpus 4.8モデルへ振り替える仕組みになっています。

Anthropicは、1,000時間以上にわたる社内レッドチーミングでもリリース前に汎用的なジェイルブレイクは発見されず、外部のレッドチーミング組織も同様の結果だったと説明していました。

しかし、その自信はすぐに打ち砕かれました。著名なAIジェイルブレイカーであるPliny the Liberator(ハンドルネーム:elder_plinius)は、モデルのリリース直後にFable 5の安全クラシファイアーの回避に成功したと宣言し、「ANTHROPIC: PWNED — FABLE-5: LIBERATED」と投稿しました。

Plinyは単一のエクスプロイトに頼るのではなく、複数のエージェントを組み合わせた協調攻撃戦略を展開しました。各セッションで確認された手法は以下の通りです。

なかでも最も効果的だった手法が「分解と再構成」です。メタンフェタミンの合成経路など有害な出力を直接要求するのではなく、先駆体プロセスとして知られるBirch還元法や還元的アミノ化など、一見無害に見えるサブトピックを個別に照会することで、詳細な技術情報を引き出しました。

個々には無害に見えるこれらの断片的情報を組み合わせることで、実用可能な合成知識として再構築できてしまいます。

公開されたスクリーンショットには、OSED(Offensive Security Exploit Developer)試験対策という名目で生成された詳細なスタックバッファオーバーフローのエクスプロイトコードや、Birch還元化学の完全なステップバイステップの解説が確認されています。

Plinyはさらに、Fable 5のシステムプロンプトを公開し、安全ガードレールを「権威主義的」と批判しました。悪意ある攻撃者より正当なセキュリティ研究者を遮断することの方が多いと指摘しています。

この一件は、AIセキュリティコミュニティで長年続く議論に再び火をつけています。AnthropicはすべてのFable 5トラフィックに対して30日間のデータ保持を義務付けており、かつてゼロ保持契約を結んでいた企業にも例外なく適用されます。こうした措置は正規ユーザーに不利益をもたらす一方、攻撃者はクラシファイアーの更新よりも素早く適応していると主張する研究者も少なくありません。

翻訳元: https://cyberpress.org/claude-fable-5-jailbreak/

ソース: cyberpress.org