AnthropicがClaude Fable 5 AIのジェイルブレイク疑惑を否定

Anthropicは、同社が最近リリースしたClaude Fable 5 AIモデルにプロンプトベースのジェイルブレイクが存在するという疑惑を否定し、モデルの展開を支える高度な分類システムの堅牢性と、広範なレッドチーミング活動の成果を強調しました。

Claude Fable 5は火曜日に一般提供が開始されました。Anthropicは同モデルを、サイバーセキュリティなどハイリスクな領域での使用を制限するセーフガードを備えた強力なMythosクラスAIモデルとして紹介しており、Mythosはとりわけサイバーセキュリティ分野で高い能力を発揮することが実証されています。 

エクスプロイト開発への悪用が懸念されるサイバーセキュリティ、および生物兵器・化学兵器の開発に利用される恐れがある生物学などのセンシティブな領域では、モデルは自動的により能力の低いClaude Opus 4.8にフォールバックする仕組みになっています。

Anthropicは、Fable 5が容易にジェイルブレイクされないよう、広範な内部・外部のレッドチーミングを実施したと述べています。

しかし、リリース直後に、AIジェイルブレイクで知られるPliny the Liberatorというオンラインネームを持つ人物が、Fable 5の制限的な安全レイヤーを回避して同モデルを「解放」したと主張しました。

このハッカーはX上の投稿で、高度なマルチエージェントプロンプティング手法を駆使し、サイバーセキュリティ、化学、心理的操作、爆発物など、センシティブなトピックに関する有用な情報を引き出すことに成功したと述べています。

Pliny the Liberatorはその主張を裏付けるために複数のスクリーンショットを公開したほか、Fable 5の内部システムプロンプトとされるものも公開しました。このプロンプトには、モデルのパーソナリティ、安全分類器、フォールバック動作、トーンガイドライン、拒否ロジックを定義した指示が含まれているとされています。

SecurityWeekの取材に対し、Anthropicのスポークスパーソンは、このAI研究者の投稿はFable 5の安全システムのジェイルブレイクを実証するものではないと述べました。 

同社は、真のジェイルブレイクとは、コアセーフガードを回避したうえで、生物兵器の開発や高度なサイバー攻撃といったハイリスクな活動に対して実質的な支援を提供できることを指すと説明しています。 

今回実証されたアプローチは、会話上の拒否にもかかわらずモデルに応答を続けさせるよう誘導するものに過ぎず、これはほぼすべての大規模言語モデルに共通する、よく知られた従来からの制限であると同社は述べています。

Anthropicは、最も危険なリスクに対する最も強固な防御は、モデル本体とは独立して動作する独立した分類システムによって実施されていると強調しています。すなわち、モデルの拒否応答を克服したとしても、これらの重要なセーフガードは無効化されないということです。 

同社は、研究者が共有した事例を検証した結果、一部の出力はそもそもFable 5が生成したものではなく、Fable 5による出力については、既存の公開情報のみを含むものであり、現実の危害に対して実質的な優位性をもたらすものではないと判断したとしています。

 また、最近の使用状況を広範に調査した結果、セーフガードが突破されて真に危険なコンテンツが生成されたという証拠は見つからなかったと、Anthropicは述べています。

翻訳元: https://www.securityweek.com/anthropic-disputes-fable-5-ai-jailbreak/

ソース: securityweek.com