AnthropicのAI新モデル——「首輪付きのMythos」として公開へ

今年初め、AnthropicのAI新モデル「Claude Mythos」は有害な用途に使われる能力が非常に高く、一般公開はできないとAnthropicの幹部たちは述べていました。

同社は火曜日、Mythosを改変したバージョンを一般向けに提供すると発表しました。ハッキングや生物兵器研究において他を圧倒するそのパフォーマンスを抑制する「新たなガードレール」を設けるとしています。

AnthropicによればClaude Fable 5はMythosと「同一の基盤モデル」ですが、サイバーセキュリティや生物学などの特定トピックに関する回答は、すでに公開済みの旧モデル「Claude Opus」から生成されるとのことです。

「これほど高性能なモデルを公開するにはリスクが伴います。適切な安全策を講じなければ、サイバーセキュリティ分野におけるFable 5の能力は深刻な被害を引き起こすために悪用される恐れがあります」と同社はCyberScoopに事前送付した発表草稿の中で述べています。「そのため、限られた特定トピックへのクエリを次世代の高性能モデルであるClaude Opus 4.8に振り向けるガードレールを設けてモデルを公開しました」

Anthropicはまた、ジェイルブレイクなどの一般的なモデル脆弱性について、内部・外部双方のレッドチームテストをFable 5に実施したと述べています。これらのテストでは既知の「普遍的な」ジェイルブレイク手法は発見されなかったとしていますが、部分的なジェイルブレイク手法が見つかったかどうかについては言及していません。

同社はFable 5の広範な一般公開後もこの状況が変わらないと見込んでいますが、サイバーセキュリティ研究者たちが旧AIモデルのジェイルブレイク方法を繰り返し発見してきた事実は注目に値します。

「Mythosレベルの能力から得られる優位性は、例えばサイバー攻撃で金銭的利益を得ようとする者など、多くの攻撃者にとって魅力的です。そのため、安全策を回避しようとする強い動機が生まれることが予想されます」と同社は記しています。

Anthropicは、FableおよびMythosモデルのデータ保持ポリシーを変更し、自社プラットフォームおよびサードパーティサービスの双方において、すべてのユーザートラフィックを30日間保持するようにしました。この30日間という期間は、AI企業が公開前にフロンティアモデルを政府と共有するための自発的な枠組みを定めたホワイトハウスの大統領令と一致しています。同社によれば、保持されたデータは新たなClaudeモデルの訓練や「安全性以外の目的」に使用されることはないとしています。

ほとんどの組織は、AIをITやサイバーセキュリティのエコシステムに導入すべきかをまだ検討している段階です。しかしMythosのようなモデルは、脆弱性のスキャン、エクスプロイトの連鎖、被害者ネットワークからのデータ窃取をわずか数分でこなせます。ハッキングの自動化はAI登場以前から存在していましたが、MythosやOpenAIのDaybreakといったフロンティアモデルを使えば、技術レベルの低いサイバー犯罪者でも甚大な被害を引き起こせると専門家たちは指摘しています

Mythosを公開しない理由としてAnthropicは安全で信頼性の高いAI開発への取り組みを挙げていますが、多くの組織がアクセスを強く求めており、サイバーセキュリティなど各分野における高度な機能は、議会公聴会や国家安全保障関連の論文、ホワイトハウスの大統領令でも議論の的となっています。

Fable 5という限定バージョンの公開は、こうした二つの要求の間で折り合いをつけようとする試みです。Anthropicは今後、モデルに関するベンチマークや関連資料を公開するとしています。

Fable 5でできること

Fableに組み込まれた制限により、悪意のある要求だけでなく正当な要求にも応えにくくなる可能性があると、Anthropicは認めています。

「安全性を最優先としたため、ガードレールは意図的に慎重な設定にしており、理想的な水準よりもまだ厳しい状態です。例えば、無害なリクエストが誤って分類器を反応させてしまうことがあります」と同社は記しています。「これが一部のユーザーにとって不満につながることは認識しており、公開後にガードレールを更新・改良しながら誤検知の削減を目指します」

Fable 5がサイバーセキュリティと生物学の回答をすべてClaude Opus 4.8から生成する場合でも、独自性はないものの印象的なデュアルユースのサイバーセキュリティ能力をユーザーに提供することになります。

Opus 4.8向けに公開されたシステムカードによれば、同モデルはサイバーセキュリティ分野において4.7などの旧モデルをわずかに上回るものの、「Mythos Previewと比べると全般的にはるかに能力が劣る」とされています。

Opus 4.8はエンドツーエンドの完全なエクスプロイト記述能力と、攻撃者が任意のコードを実行できるエクスプロイトプリミティブの構築能力についてテストを受けました。熟練度の平均スコアは16点満点中わずか5点で、約10点を記録したMythos Previewには遠く及びません。

安全ガードレールがない状態では、Opus 4.8は実際のオープンソースソフトウェアプロジェクトにおける既知の脆弱性の約80%を、弱点の概要説明を与えられた際に再現できます。Anthropicの非公開の安全策を適用することで、この成功率は1%まで低下するとシステムカードは述べています。

人気ブラウザFirefoxに対するエクスプロイト開発能力を評価した別のテストでは、ガードレールなしの状態でモデルが完全に機能するエクスプロイトを8.8%の確率で、部分的に機能するエクスプロイトを68.8%の確率で特定できることも明らかになりました。

同社はまた、Mythosのプレビュー版へのアクセスを付与された官民企業コンソーシアム「Project Glasswing」のメンバーは、最新の完全モデルであるClaude Mythos 5にアップグレードして作業を継続できると述べています。Mythos 5へのアクセスは、連邦政府機関を含む「より体系的な信頼アクセスプログラム」を通じて段階的に拡大される予定です。

翻訳元: https://cyberscoop.com/anthropic-claude-fable-5-release-mythos-guardrails/

ソース: cyberscoop.com