Anthropic社は、Fable 5およびMythos 5モデルについて、ジェイルブレイク対策を目的とした新たなガードレールと分類器を備えた形で商務省と合意に達したことを受け、両モデルを再び一般提供すると発表しました。
Anthropic社は火曜日に投稿したブログで、海外企業や個人への販売を妨げていた輸出規制が、ホワイトハウスおよび商務省との数週間にわたる交渉の末に解除されたことを明らかにしました。同社は米国内ユーザー向けのモデルアクセスも復旧させています。
この輸出規制は、Fableのサイバーセキュリティ能力がジェイルブレイクされたとするAmazon社の脅威インテリジェンスレポートを受けて、トランプ政権が警戒を強めたことをきっかけに導入されたものです。
X(旧Twitter)上では、ハワード・ラトニック商務長官が規制解除を確認する投稿をしています。
ラトニック長官は「この2週間、米国政府全体での足並みをそろえ、AI分野における米国の主導的地位を強化するため、Anthropic社と緊密に連携してFable 5の分析と承認を進めてきました」と述べています。
政権がこの輸出規制を課したのは、Fable 5のリリースによってモデルがジェイルブレイクされ、悪用されればオープンなインターネットに深刻な被害をもたらしかねないとAnthropic社が指摘するサイバーセキュリティなどの機能に、ユーザーがアクセスできるようになることを懸念したためです。Amazon社のレポートは、こうしたジェイルブレイクが目前に迫っているとの見方を政権関係者に抱かせるものでした。
しかし今回の政権の判断で奇妙な点の一つは、Amazon社のレポートで示された機能が、関係者の見解によれば決して最先端のものではないという点です。コードをスキャンし、脆弱性の悪用方法をユーザー向けに解説することは、既存のモデルでもすでに可能とされています。
Anthropic社もこの点を認めており、追加検証の結果、ChatGPT 5.5、Claude Opus 4.8、Kimi K2.7といった同等またはそれ以下の性能のモデルでも、Amazon社のレポートでFableが特定したのと同じ脆弱性を検出できることが判明したと説明しています。さらに、既存モデルのうち6つ程度は、Fableと同じ概念実証(PoC)コードを生成できたとしています。
重要な点として、Anthropic社はサイバーセキュリティおよび生物学関連分野に対するモデルの制限に影響を及ぼすジェイルブレイクはこれまで確認されていないと改めて強調しつつも、今回の事例については「境界事例(ボーダーラインケース)」だったとしています。実際、一部のサイバーセキュリティ専門家からは、Fable 5の既存の安全ガードレールが、悪意ある利用だけでなく通常の防御的なサイバーセキュリティ業務まで多く阻害しているとの公の不満も出ています。
ブログは続けて次のように述べています。「重要なのは、今回報告された手法によって、Mythos特有の固有なサイバー能力が明らかになったわけではないという点です。この挙動は、Fable 5の安全対策における境界事例を反映したものでした。……危険性が低いと考えられるものの、念には念を入れて安全対策によりブロックされているタスクも一部存在します。今回報告された手法は、そうした挙動の一つへのアクセスを可能にしましたが、それは通常の防御的なサイバーセキュリティ業務にとどまるものでした」
Anthropic社によると、Amazon社のレポートで指摘された挙動を標的として検知・ブロックし、発生時にはユーザーへ通知する新たな安全分類器を訓練したとのことです。この新たな安全対策は、連邦政府のAI標準・イノベーションセンター(Center for AI Standards and Innovation)によるストレステストも受けています。新しい分類器はこうした手法を「99.9%」の確率でブロックするとしていますが、Anthropic社は、リスクの低い通常のサイバー防御機能まですべてブロックすることは想定しておらず、あくまで最も有害な手法を対象にしていると説明しています。
今回の対策強化により、Fable 5を防御的なサイバーセキュリティ用途に使うことは、むしろこれまで以上に難しくなる可能性があります。同社が見込む影響の一つとして、通常のコーディングやデバッグ作業に関する「無害」なリクエストであっても、システムによってフラグが立てられるケースが増えることが挙げられます。
翻訳元: https://cyberscoop.com/us-lifting-export-control-restrictions-anthropic-mythos-fable/