AnthropicがサイバーリスクへのセーフガードをMythosクラスのFable 5モデルに搭載してリリース

Claude Fable 5は、これまで制限されていたMythosクラスのAI性能を一般ユーザーに提供しつつ、悪用防止のための自動ガードレールを搭載しています。ただし、初期テストでは、そのセーフガードがAnthropicの説明よりも広範なサイバーセキュリティ領域をカバーしている可能性が示唆されています。

Anthropicは、これまで制限されていたMythosアーキテクチャをベースとした新しい強力なAIモデルを2つ発表しました。一般向けに広く提供される「Claude Fable 5」と、サイバーセキュリティおよびインフラ関連パートナーの小規模グループに限定提供される「Claude Mythos 5」です。

AnthropicはFable 5を、同社がこれまでに一般公開した中で最も高性能なモデルと位置付けています。ソフトウェアエンジニアリング、科学研究、画像認識、複雑な知識労働タスクにおいて、従来のClaudeモデルを上回る性能を発揮します。タスクが長く複雑になるほどその優位性は増し、ユーザーはより少ない監視や詳細な指示でより大規模なプロジェクトをシステムに任せることができるとAnthropicは述べています。

Anthropicのプロダクトマネジメント・研究・ラボ担当責任者であるDianne Penn氏によれば、目標はMythosレベルの知性を、これまでテクノロジーを制限してきたリスクをユーザーにさらすことなく広く提供することだったといいます。「この水準の知性を、一般ユーザーに安全な形で提供できるようにしたかった」とPenn氏はウォール・ストリート・ジャーナル紙に語っています

Anthropicの説明よりも広範な可能性があるセーフガード

AnthropicがMythosを4月にリリースした際、脆弱性発見や攻撃的サイバーセキュリティなどの分野におけるモデルの能力がリスクをもたらすとして、アクセスを約50の受領者に制限することを正当化しました。そのわずか1週間前には、Mythosへのアクセスを150組織に拡大すると発表したばかりでした。

今回Anthropicは、より広範なリリースを支えるに十分なセーフガードを開発したと述べています。これらのセーフガードは、サイバーセキュリティ、生物学、化学、モデル蒸留関連のクエリなど特定カテゴリのリクエストを、性能の低い方のClaude Opus 4.8に振り分けることで機能します。このフォールバックが発生するのはセッションの5%未満だとAnthropicは説明しており、通常の利用では大多数のユーザーが実質的にフルのMythosクラスモデルと対話できることを意味します。

セキュリティ研究者による初期テストでは、サイバーセーフガードがAnthropicの説明よりも広範囲に機能している可能性が示唆されています。SANSインスティテュートのチーフAIオフィサー兼リサーチチーフであるRob T. Lee氏はCSOに対し、インシデントレスポンス、検知、基本的なフォレンジックワークフローを含む日常的なサイバーセキュリティタスクが、初期テスト中にFable 5からOpus 4.8へ自動的にルーティングされたと語っています。この観察が広範なテストでも裏付けられるとすれば、Anthropicの分類器が良性と悪意あるサイバー活動を区別しようとするのではなく、サイバーセキュリティ関連のリクエストを幅広く識別していることを示唆している可能性があります。

同社はこのセーフガードを、意図的に保守的な設計としていると説明しています。良性のリクエストがOpus 4.8にルーティングされるという誤検知が発生することもありますが、システムの改善を続ける間は利便性よりも安全性を優先することを選択したとAnthropicは述べています。

Anthropicの最新発表の多くは、セーフガードが必要だと考える理由の説明に充てられています。同社は、MythosクラスのシステムがAIによる悪意ある行為者への実質的な支援を可能にするという閾値を超えたと主張しています。主に情報提供にとどまっていた初期のAIシステムとは異なり、高度なモデルは攻撃的なサイバーセキュリティ活動を含む複雑なワークフローの一部を実行する能力をますます高めているとAnthropicは述べています。

こうしたリスクに対処するため、Anthropicは潜在的に危険なリクエストを識別するためのAI駆動の分類器を複数開発しました。攻撃的なサイバー操作、高度な生物学研究、化学関連のリスク、または競合システムへの利用を目的としたモデルの能力抽出を試みるリクエストが検出された場合、そのリクエストはOpus 4.8にリダイレクトされます。広範な社内外のテストを行ったにもかかわらず、セーフガードを一貫してバイパスできるような広く有効なジェイルブレイクは発見されなかったとAnthropicは述べています。

コーディング・分析・自律作業における性能向上をアピール

Fable 5の発表では、Anthropicが特に大きな進歩を遂げたと考えるソフトウェアエンジニアリングにも焦点を当てています。テスト中、例えばStripeはFable 5を使用して、5,000万行のRubyリポジトリにわたるコードベース全体の移行を1日で完了したと報告されています。これは手動で行った場合、2ヶ月以上のエンジニアリング工数が必要だったとStripeが推定したタスクです。

Anthropicはまた、このモデルがソフトウェアが動作するかどうかだけでなく、本番環境で期待される基準を満たすかどうかを測定するコーディング評価で最先端の結果を達成したとも述べています。

同社はさらに、財務分析、文書推論、グラフ解釈、視覚タスクにおける改善点も強調しています。Fable 5は複雑な科学的図表から情報を正確に抽出したり、スクリーンショットからWebアプリケーションのソースコードを再構成するなど、高度な視覚的推論タスクを実行できるとAnthropicは述べています。

サイバー防衛者向けのアクセス拡大

一部の限定ユーザー向けに、AnthropicはClaude Mythos 5も導入します。このモデルはFable 5と同一ですが、特定のセーフガードが取り除かれています。Project Glasswingを通じて、サイバーセキュリティ組織と重要インフラプロバイダーは、サイバー関連の制限が解除されたバージョンのシステムへのアクセスを得ることになります。Anthropicは米国政府との協議のもとで策定された、より幅広い信頼できるアクセスプログラムを通じてアクセスを段階的に拡大する計画です。

同社によれば、Mythos 5は現在利用可能なあらゆるモデルの中で最強のサイバーセキュリティ能力を持つとしています。AnthropicはこれまでもMythosクラスのシステムがソフトウェアの脆弱性発見、エクスプロイト開発支援、複雑な多段階のサイバーセキュリティタスクの実行が可能であることを強調してきました。まさにこれらの能力こそが、同社が以前のバージョンのテクノロジーへのアクセスを制限するきっかけとなったものです。

この動きは、AI業界全体の広範なトレンドを反映しています。ベンダー各社は、最も危険な能力を広く公開することなく、ますます強力なシステムを商業化する方法を模索しています。AIデベロッパーたちはここ1年、防衛者、研究者、企業に多大な利益をもたらす可能性がある一方で悪用の機会も生み出しかねない能力を持つモデルをどのように展開するかという問題に取り組んできました。

AIは基本を代替しない

セキュリティリーダーにとって、この発表はますます高性能化するAIシステムに組織がいかに迅速に適応できるかという重要な問いを提起しています。課題はもはや単に高度なモデルへのアクセスを得ることではなく、測定可能な成果をもたらす形でセキュリティ運用に統合することです。

セーフガードの精度に関する問いは、個々のワークフローを超えた問題です。組織がこれらのモデルを実際に効果的に運用できるかどうかという核心に触れるものです。Ciscoのシニアバイスプレジデントかつチーフセキュリティ・トラストオフィサーであるAnthony Grieco氏は、組織はますます強力なモデルへのアクセスを得ることだけでなく、強固なセキュリティの基本を維持しながら効果的に展開することにも注力すべきだと述べました。

「フロンティアAI開発のペースは、セキュリティの状況をリアルタイムで変化させており、防衛側は状況が落ち着くのを待つ余裕はありません」とGrieco氏はCSOへの声明で述べています。「モデルがClaude Mythos 5であれ、Claude Fable 5であれ、GPT-5.5-Cyberであれ、次の突破口となるものであれ、課題はもはや高度なAIへのアクセスだけではなく、適切なハーネス、インフラ、エージェンティックロジックによってスピードを明確さと行動に変換するために組織がどのように運用するかです。」

同時にGrieco氏は、AIを基本的なセキュリティプラクティスの代替として捉えることに対して警鐘を鳴らしました。

「AIは防衛者ができることの上限を引き上げますが、セキュリティのレジリエンスは依然として、そうした利益が真の防御に変換されるかどうかを決定する基盤です」と同氏は述べています。AIモデルがソフトウェアエンジニアリング、分析、セキュリティ運用を加速させる中でも、組織はパッチ適用、多要素認証、ネットワークセグメンテーション、ゼロトラストアーキテクチャといった基本事項を実行し続ける必要があります。

翻訳元: https://www.csoonline.com/article/4183094/anthropic-releases-mythos-class-fable-5-model-with-safeguards-for-cyber-risks.html

ソース: csoonline.com