Claude Fable 5はMythosのセキュリティ状況を変えない

AnthropicのClaude Fable 5およびMythos 5モデルのリリースにより、最先端の機能がより多くの人々の手に届くようになりましたが、セキュリティの状況は概ね変わっていないと専門家は指摘しています。「慌てずに、備えよ」というのがその要諦です。

Anthropicは今週、Claudeモデルの最新バージョンとなるMythos 5とFable 5をリリースしました。Claude Mythos 5は、Claude Mythos Previewの後継にあたります。これは4月に少数の組織パートナーに提供されたフロンティアモデルです。Anthropicは、Mythosが非常に高い能力を持つとして、数十年来の人気ソフトウェアにおける重大な脆弱性を発見できると述べています。

こうした潜在的な危険性から、同社はサイバーセキュリティパートナーに先行アクセスを提供し、脅威アクターによる悪用リスクを抑えるための補完的取り組み「Project Glasswing」を立ち上げました。Glasswingのもとでも、アクセスは制限・監視されていました。

Mythosは発表から2カ月が経った現在も注目を集め続けています。クラウドセキュリティアライアンス(CSA)は、モデル発表の翌週にレポートを公開しました。多数のサイバーセキュリティの著名人が執筆したこのレポートは、MythosのようなAIモデルによる将来的な悪用リスクを抑えるため、組織は今から備える必要があると警告しています。また最近では、米国のドナルド・トランプ大統領が、連邦政府にフロンティアAIモデルへの早期アクセスを付与するための任意のフレームワークを定める大統領令に署名しました

サイバーセキュリティの枠を超えて、Anthropicはこれらの最新モデルが生物学、コーディング、学際的推論、コンピューター操作など多岐にわたる分野で最先端の能力を持つと主張しています。 

Mythos 5はMythos Previewの実質的なアップグレード版であり、前身モデルと同様の特性をより強化した形で引き継いでいます。引き続き、米国政府を含む少数(ただし拡大中)の信頼できるパートナーに提供されます。Fable 5はMythosと同一のモデルながら、「一般利用に向けて安全に調整されたもの」とAnthropicは声明の中で述べています

Claude Fable 5の改ざん防止ガードレール

Fableにはいくつかのセーフガードが搭載されています。サイバーセキュリティなど特定のトピックを問い合わせた場合、ユーザーはAnthropicの旧モデルであるClaude Opus 4.8からの応答を受け取ることがあります。誤検知が生じることもありますが、Anthropicによればこの切り替えが発生するのは全体の5%未満とのことです。Fable 5がモデルを切り替えた場合は、ユーザーに通知されます。

これは、同社が新たに導入した安全性分類器(Safety Classifier)の成果です。この独立したAIシステムが悪用を検知し、メインモデルがユーザーに対して有害な出力を生成するのを防ぎます。分類器の導入自体は今回が初めてではありませんが、今回のものは「これまでの取り組みを拡張し、カバレッジを強化したもの」とAnthropicは説明しています。

「Mythosクラスのモデルは、ソフトウェアの脆弱性の発見と悪用に優れています。そのため、サイバー攻撃を大幅に容易かつ低コストで実行できるようにする可能性があります。またMythosクラスのモデルは、エージェント型ハッキングにおいても高い能力を示しています」とAnthropicは述べています。「エージェント型ハッキング能力がサイバー攻撃の高度化につながるのを防ぐため、サイバーセキュリティ分類器を脆弱性の悪用のみならず、より広義の攻撃的サイバータスク全般をカバーするよう設計しました。」

アプリケーション検知・対応(ADR)ベンダーMiggoのCEO、ダニエル・シェクター氏はDark Readingに対し、Anthropicのレートリミットアプローチはうまいやり方だが「スピードバンプにすぎず、壁ではない」と語っています。

「根本的な能力は既に存在しており、他のモデルもそれを模倣するでしょう。オープンソース版も続いて登場するはずです。ジェイルブレイク対策が大規模に機能し続けるという前提にセキュリティプログラムを賭けるのは誤った選択です」と同氏は述べています。「私の見方では、Anthropicは防御側に機会の窓を与えようとしています。単により多くの脆弱性を発見・修正するためだけでなく、このようなモデルへの防御が実際にどのようなものになるかを理解するための機会です。」

同社は、新モデルがジェイルブレイクの防止において卓越した性能を発揮すると主張しています。社内外のレッドチームによるテストにおいて、1,000時間を超えるペネトレーションテストでも「ユニバーサルジェイルブレイク」は実現できなかったとブログ記事は述べています。「私たちが依頼した外部レッドチーム組織も、長文エージェント型タスクにおけるユニバーサルジェイルブレイクを今のところ発見できていません。ただし英国のAIセキュリティ研究所は、初期テストの短い期間内に一定の進展を見せています」とブログには記されています。

ジェイルブレイクの試みを100%防ぐことは不可能かもしれませんが、同社の目標は、攻撃者が大規模に利用する前に阻止できるよう、ジェイルブレイクを十分に遅く、コストのかかるものにすることだと述べています。AIソフトウェア開発ベンダーHarnessのフィールドCTO、アダム・アレラノ氏の言葉を借りれば、「Anthropicの戦略は、本質的にできる限り困難な状況を作り出すことです。」

Mythosの脅威は4月時点から変化なし

SANSインスティテュートのチーフAIオフィサー、ロブ・T・リー氏は、Mythosクラスのモデルが既に悪意ある者の手に渡っているという前提で行動していると述べています。 

「同等の能力を持つフロンティアモデルはすでに他の研究機関で稼働しており、そうした組織の人物が実際に使用しています」とDark Readingに語っています。「Glasswingのもとでもアクセスは制限・監視されていました。しかし、それらの組織には数千人の従業員がいます。そのうちの誰かが犯罪グループにアクセス権を渡すよう誘導される可能性もあり、あるいは既に組織内に北朝鮮(DPRK)の工作員が潜入しているかもしれません。それが起きたというデータはありません。しかし、何かが制限されていると信じるたびに、実は想定より早く敵対者の手に渡っていたことが後から判明しています。」

リー氏はまた、分類器のラベリングがFable 5での防御的な調査も妨げると強調しています。「デジタルフォレンジックのスキルを構築しようとしたところ、Opus 4.8に切り替えられてしまいました。悪意ある行為者を止める巧妙な方法かどうかはともかく、次世代のツールを構築する人々から新たな防御能力を遠ざけることになっています。」

4月のCSAレポートで著者らは、増加する攻撃件数、大量のパッチ適用の必要性、短縮されるパッチ適用時間を見越してリスク計算を見直し、セキュリティプログラムのリソースを再配分することで、Mythosによるエクスプロイトの嵐に備えるよう防御側に呼びかけていました。 

具体的には、セグメンテーション、エグレスフィルタリング、多要素認証、多層防御といった基本的な対策に注力することが求められます。さらに著者らは、堅固な依存関係管理の優先、LLMを活用した自動セキュリティ評価の実施、そして攻撃者に後れを取らないためにAIエージェントをサイバーセキュリティの現場に導入することの重要性も主張しています。

CSAのチーフアナリスト、リッチ・モーグル氏はDark Readingに対し、Mythosに関する限り、一般的なセキュリティ担当者にとっての状況は変わっていないと語っています。「これは想定通りであり、私たちがガイダンスを策定する際に用いたシナリオそのものです」と同氏は述べています。「今すぐ始めて、取り組みを進めてください。ただし、Fableのリリースによって前日より安全性が低下したわけではありません。」

翻訳元: https://www.darkreading.com/vulnerabilities-threats/claude-fable-5-doesnt-change-mythos-security-story

ソース: darkreading.com