研究者:AIが自律型サイバー機能のすべてのベンチマークを突破したと述べる

最も高度な2つの人工知能モデル—AnthropicのClaude Mythos PreviewとOpenAIのGPT-5.5—は、英国のAI Security Institute (AISI)とPalo Alto Networksが水曜日に発表した別個の調査結果によると、AIシステムが自律型サイバーセキュリティタスクを完了する既に加速しているペースを大幅に上回りました。

英国政府に代わってフロンティアAIモデルの展開前評価を実施するAISIは、Claude Mythos PreviewとGPT-5.5の両方が、2024年後半から追跡してきた倍増トレンドを大幅に上回ったと述べました。結果が孤立した能力の飛躍を表すのか、新しい、より速い軌跡の始まりを表すのかは不明なままです。

AISIは今年初めに、フロンティアモデルの80%信頼度サイバータイムホライズン—タスクが人間の専門家にかかる時間の長さの尺度で、AIの自律性のプロキシとして使用される—が約5か月ごとに倍増していると推定しました。それ自体は、研究所が2025年11月に推定した8か月の倍増時間のおおよそ半分でした。現在、Mythos PreviewとGPT-5.5は、研究所が測定したトレンドラインを上回りました。

“フロンティアAIの自律型サイバーおよびソフトウェア機能は急速に進展しています:フロンティアモデルが自律的に完了できるサイバータスクの長さは、年単位ではなく月単位で倍増しました。”とAISIは書きました

能力の飛躍の最も明確な証拠はAISIのサイバーレンジから来ました。小規模で無防備なエンタープライズネットワークに対するマルチステージ攻撃の構造化シミュレーションです。Claude Mythos Previewの新しいチェックポイントは、研究所の両方のレンジを完了した最初のモデルになりました。32ステップのシミュレートされた企業ネットワーク攻撃である「The Last Ones」を10回中6回で解決し、以前はどのモデルでも未解決だった「Cooling Tower」を10回中3回で完了しました。GPT-5.5は「The Last Ones」を10回中3回で解決しました。

Palo Alto Networksは独自のテストを通じて同様の結論に達しました。同社は、AnthropicのProject GlasswingのローンチパートナーとしてClaude Mythosのテストを4月に開始し、その後OpenAIのTrusted Access for Cyberプログラムの一部としてClaude Opus 4.7とOpenAIのGPT-5.5-Cyberをテストしたと述べました。

“最新のモデルは、脆弱性を見つけ、それらをほぼリアルタイムで重大なエクスプロイトパスに変更することが並外れて得意です。”Palo Alto Networksは書きました。

同社は130以上の製品全体のAIモデルスキャンを通じて特定された、75の問題を表す26のCVEをカバーするセキュリティアドバイザリーをリリースしました—典型的な月間量の5未満のCVEと比較して—。SaaS製品のすべての重要な脆弱性にはパッチが適用されており、顧客が運用するすべての製品にはパッチが利用可能です。

AISIはそのデータの限界に注意を払うことに慎重でした。推定値は比較的少数のモデルに基づいており、テストスイートの最も難しいタスクは最も少ない量の人間の比較データを持っています。それでも、研究所は全体的なトレンドが保つと述べました:分析から単一のモデルをドロップしても、針をほぼ動かさず、推定倍増時間をいずれかの方向で1か月未満だけシフトします。AIがソフトウェアタスクをどの程度速く処理するかを追跡する非営利団体のMETRからの別の研究は、ほぼ同じ数字—2024年後半以降の約4か月の倍増時間—に到達しました。

“単一のベンチマーク結果は、AI機能の正確な尺度として読まれるべきではありません。”とAISIは書きました。”それでも、変化と急速な成長の方向は、我々が調べたモデル、方法論的選択、および独立したデータ全体で一貫していました。”

Palo Alto Networksは、これらのモデルが使用量の増加を続けるにつれて、エンタープライズの4つの直接的な優先事項を概説しました:第1に、攻撃者がする前にコードおよびアプリケーションの脆弱性を見つけて修正します。第2に、攻撃面を縮小し、AIを使用してセキュリティの誤構成を発見します。第3に、機械学習を使用して脅威をリアルタイムで検出するために、すべてのシステム全体に検出および応答ツールをデプロイします。第4に、AI駆動型の攻撃がすぐにその速度で展開される可能性があるため、数分以内に対応するのに十分な速さでセキュリティ操作を構築します。

AISIは、モデル機能が引き続き進展するにつれて、実世界の条件をより良く反映するために、新しいサイバーレンジおよびアクティブなサイバー防御の追加を含む、より厳しい評価を開発していると述べました。

翻訳元: https://cyberscoop.com/ai-autonomous-cyber-capability-benchmarks-broken-gpt5-claude-mythos/

ソース: cyberscoop.com