テストがClaudeミストスの攻撃能力と限界を明らかに

AnthropicのデスパレてんClaude Mythos Previewは、完全に自動化されたサイバー攻撃に悪用される可能性があるでしょうか?

英国政府のAI Security Institute(AISI)はCTFチャレンジとマルチステップ攻撃シナリオに正常に対応する能力をテストしました。その結果、サイバーセキュリティ能力は以前利用可能なモデルを上回る一方で、強化されたネットワークに対して信頼性の高い自律攻撃を実行できないことが判明しました。

Image

Claude Mythos Previewとは何か?

Anthropicは今月初めにClaude Mythos Previewを一般公開し、このLLMはオペレーティングシステム、ソフトウェア、ウェブアプリケーション、暗号化ライブラリにおける見落とされやすく検出困難なバグと脆弱性の発見に極めて優れていると述べました。

その有効性を考慮すると、悪意のある者がそれを利用してゼロデイ脆弱性を発見し、新規および既知だが未修正の弱点に対するエクスプロイトを開発する可能性があるため、このモデルは公開されません。

代わりに、AnthropicはProject Glasswingを立ち上げました。これは大手テクノロジー、サイバーセキュリティ、金融企業にモデルへの早期アクセスを提供する限定的なプログラムです。Linux Foundationと重要なソフトウェアインフラストラクチャを構築・保守する40の組織がこれに参加しており、比較可能なAIツールが広く普及する前に、世界で最も重要なソフトウェアの保護に取り組んでいます。

Claude Mythos:サイバー攻撃能力と現在の限界

Claude Mythos Previewがサイバーセキュリティに何を意味するかについては、オンライン・オフラインで激しく議論されています。AI Security Instituteが実施したテスト結果は、サイバーセキュリティ防御者がまもなく直面する可能性のある危険についてさらなる洞察を提供します。

AISI研究者によると、このモデルはターゲットシステムの弱点を特定および悪用することを目的とするCapture-the-Flag(CTF)チャレンジを解くことが得意です。

「2025年4月以前にモデルが完了できなかったエキスパートレベルのタスクでは、Mythos Previewは73%の確率で成功します」と彼らは述べました。

より複雑な攻撃に関しては、効果は低くなります。

「現実世界のサイバー攻撃では、複数のホストとネットワークセグメント全体で数十のステップを連鎖させる必要があります。人間の専門家が完了するのに多くの時間、日数、または週がかかる継続的な作業です」とAISIは指摘しました。

「これを測定するための最初のステップとして、『The Last Ones』(TLO)を構築しました。初期偵察から完全なネットワーク制御までの32ステップの企業ネットワーク攻撃シミュレーションで、人間が完了するのに約20時間が必要であると推定しています。Claude Mythos Previewは10回の試行中3回、TLOを最初から最後まで解くことに成功した最初のモデルです。」

ただし、10回の試行中3回の成功は物語の一部に過ぎません。テスト環境は、研究者自身の認める通り、大多数の現実のネットワークより簡単なターゲットでした。アクティブな防御者がなく、防御ツールもなく、アラートをトリガーすることの結果もありませんでした。

「つまり、Mythos Previewが十分に防御されたシステムを攻撃できるかどうかについて、確実に断定することはできません」と研究者は述べました。

それでも、誰かが最初のアクセスを得た場合(つまり、攻撃者が初期アクセスを確立した場合)、このモデルは小規模で防御が不十分なシステムに対する攻撃を自律的にナビゲートできます。

「これはセキュリティ更新の定期的な適用、堅牢なアクセス制御、セキュリティ設定、包括的なログなどのサイバーセキュリティ基本原則の重要性を強調しています」と彼らは述べ、サイバー防御者がAIを自分たちの利点のために活用する方法についてのUK National Cyber Security Centreの助言に組織を導きました。

AI支援防御に関するアドバイス

Anthropicの研究者は防御者に対して、利用可能なAIモデルを使用して防御を強化することをアドバイスしました。脆弱性の発見、クラウド環境のミスコンフィギュレーション分析、レガシーシステムからより安全なシステムへの移行加速、インシデント対応の自動化など、様々な用途に活用すべきです。

Mythos Previewが自律的にn-dayエクスプロイトを作成する能力は、パッチサイクルの短縮も必要になることを意味します。「ソフトウェアユーザーと管理者は、パッチ適用強制ウィンドウを厳しくし、可能な限りオートアップデートを有効にし、CVE修正を含む依存関係アップデートを定期メンテナンスではなく緊急として扱うことにより、セキュリティ更新のデプロイに要する時間を短縮する必要があります」とAnthropicは警告しました

Cloud Security Allianceが最近発表した論文は、サイバーセキュリティ専門家と広いサイバーセキュリティコミュニティの協力によって執筆されており、Chief Information Security Officersに対して、組織のセキュリティプログラムをこの新たな脅威環境に適応させる方法についてより具体的なガイダンスを提供しています

翻訳元: https://www.helpnetsecurity.com/2026/04/14/claude-mythos-test-attack-capabilities-limits/

ソース: helpnetsecurity.com