Anthropicの「Fable 5」と「Mythos 5」、新たなセキュリティガードレールを備えて復活

Anthropicの最新フロンティア大規模言語モデル（LLM）であるClaude Mythos 5とClaude Fable 5が、追加のセキュリティ制限を伴って再び利用可能になりました。

6月30日、米国政府が両モデルに輸出規制を課しAnthropicが世界的な配布を停止してからわずか19日後に、この決定は解除されました。

ただし今後は、米国政府が提起したAIの安全性・セキュリティ上の懸念に対応するため、追加の制限が設けられることになります。

Fable 5、米国政府承認の新たな安全対策を搭載

Fable 5はMythos 5と同じ基盤フロンティアAIモデルを搭載した汎用アクセス向けLLMで、Mythos 5自体はClaude Mythos Previewからのアップグレード版です。現在、Claude Platform、Claude.ai、Claude Code、Claude Cowork全体でグローバルに利用可能となっています。

Pro、Max、Team、および一部のEnterprisプランに加入しているプレミアムユーザーについては、7月7日まで週間利用上限の最大50%までこのモデルが含まれ、その後は利用クレジット経由での提供となります。

Anthropicはまた、AWS、Google Cloud、Microsoft Foundryでもこの汎用アクセスモデルの提供を展開しています。

同社は、輸出規制指令の発端となったAmazonの報告書を確認済みであるとしています。この報告書で研究者たちは、Fable 5に脆弱性を特定させ、あるケースではエクスプロイトまで提供させる、つまりモデルに組み込まれた安全対策を回避させるプロンプト手法（ジェイルブレイク）を発見していました。

Anthropicは、この報告された手法について「Mythosレベル特有のサイバー能力を露呈させるものではなかった」としつつも、「報告書に記載された挙動を標的にしてブロックする、改良された安全性分類器」を搭載した新バージョンのFable 5をリリースするとしています。

分類器（クラシファイア）とは、LLMとのやり取りの最中に、モデルが潜在的に有害なタスクを求められていないか、あるいは潜在的に有害な出力を生成しようとしていないかを検知し、そうしたリクエストへの応答をブロックする小規模な自動AIシステムです。

Anthropicによれば、この新しい分類器はAmazonの研究者が特定したジェイルブレイクを「99%を超えるケースでブロックする」としています。

「ごくわずかなケース」では、潜在的に有害なユーザーリクエストに対して情報を提供してしまう可能性もあるとしていますが、Anthropicは「サイバー攻撃者を助けるほど詳細な内容にはならない」と主張しています。

Illustration of Anthropic’s cybersecurity safety classifiers. Source: Anthropic

「このモデルの安全対策は、低リスクで日常的な防御目的のサイバー能力をすべてブロックするようには設計されておらず、潜在的に有害なものだけを対象としています」と同社は述べています。

Fable 5へのリクエストがブロックされた場合、ユーザーにはOpus 4.8にリダイレクトされた旨が通知されます。

「この新しい分類器には、日常的なコーディングやデバッグ作業において、無害なリクエストをより頻繁にフラグ付けしてしまうというコストも伴います」とAnthropicは認めています。同社は今後も、真の悪用と正当なリクエストをより正確に見分け、誤検知を減らすために安全対策の改良を続けるとしています。

Anthropicによると、米国商務省のAI基準・イノベーションセンター（CAISI）の研究者がこの新しい安全対策をテストし、「並外れて強力」だと評したとのことです。

Anthropic、政府・業界と連携しAIセキュリティの強化を加速

6月30日にFable 5とMythos 5への輸出規制を解除する前、米国政府は重要インフラの運用・防御を担う一部の米国組織に対してMythos 5の再展開を承認していました。

「私たちはGlasswingプログラムにおけるより幅広い国内外のパートナーへのアクセス拡大に向けて、引き続き政府と調整を進めています」とAnthropicは述べています。

同社はまた、展開前のテストや評価を含め、AIセキュリティの強化加速に向けて米国政府と協力していることも明らかにしました。

その一方で、このAI企業はAmazon、Microsoft、GoogleをはじめとするGlasswingパートナーと協力し、AIのジェイルブレイクの深刻度を評価するための合意フレームワークの策定に取り組んできました。これには「ユニバーサル・ジェイルブレイク」とは何かという標準的な定義の確立や、AI開発企業がこれにどう対応すべきかという指針も含まれます。

Illustration of the effect of Anthropic’s safety classifiers on LLM jailbreaks. Source: Anthropic

最後に、このAI企業は新たなHackerOneプログラムを立ち上げました。セキュリティ研究者がFable 5で発見した潜在的なサイバージェイルブレイクをレビューのために提出できるものです。

画像提供: wutianzeri / RixAiArt / Shutterstock.com

翻訳元: https://www.infosecurity-magazine.com/news/anthropic-fable-mythos-back/

Anthropicの「Fable 5」と「Mythos 5」、新たなセキュリティガードレールを備えて復活

Fable 5、米国政府承認の新たな安全対策を搭載

Anthropic、政府・業界と連携しAIセキュリティの強化を加速

共有:

関連

関連記事

マイクロソフト、耐量子暗号化への移行タイムラインを前倒し

保険大手Aflac、数百万人に影響するデータ侵害を公表

日産、Oracleゼロデイ脆弱性を悪用した従業員データ侵害を公表