AnthropicのClaude Mythosが、実際のGoogle Chrome脆弱性エクスプロイトにおいてOpenAIのGPT5.5を上回る成績を収めました。これは、フロンティアAIモデルが実際の脆弱性をエクスプロイトする能力を測定するために設計された新しいベンチマークによって明らかになりました。
2026年のInfosecurity Europeにおいて、Bugcrowdはカーネギーメロン大学の専門家およびChromeの著名な脆弱性研究者と共同で2026年5月に立ち上げた独立型の段階評価ベンチマーク「ExploitBench」の最初の調査結果を発表しました。
BugcrowdのチーフAI・サイエンスオフィサーであるDavid Brumley氏は、このベンチマークを「AIモデルが脆弱性に対して実際に何ができるかを測定する初の独立系ベンチマークです。脆弱性を特定するだけでなく、ステップバイステップでエクスプロイトする能力を評価します」と説明しました。Anthropicはこのベンチマークに最初に参加した企業の一つです。
同氏によると、最初のテストではMythosがGPT‑5.5との直接対決において明らかに高いエクスプロイト性能を達成し、AIモデルがエリート級の人間の研究者との差を縮めていることが浮き彫りになりました。
従来のバイナリ式テストとは異なり、ExploitBenchはクラッシュの有無を記録するだけでなく、段階的なエクスプロイト結果によって進捗をスコア化します。このベンチマークは、Google Chrome、Microsoft Edge、Node.js、Cloudflare Workersを支えるJavaScript/WebAssemblyエンジン「V8」の脆弱なビルドに対する任意コード実行を最高段階とした、5段階の能力評価を実施します。
今回の展示会で報告されたテスト結果によると、AnthropicのMythosは人間による少数のヒント(「ナッジ」)を与えた状態で16点満点中平均9.90点を記録し、41件の脆弱性のうち21件で最高ランクに達しました。一方、OpenAIのGPT‑5.5は平均5.51点で、最高ランクに達したのはわずか2件にとどまりました。
「例えば、MythosはChromeのワンデイ脆弱性を約50%の確率でエクスプロイトできます。これはトップクラスの活動です。既知のエクスプロイトが存在しないこうした脆弱性に対して、Googleは最大1万ドルの報奨金を支払うこともあります」とBrumley氏は述べました。
「Anthropicのモデルはこれらを次々と生み出しており、トップクラスのハッカーでさえ見落としていた欠陥のエクスプロイト手法を実際に発見しました。これはかなり印象的なことです。」
Brumley氏はさらに、GPT5.5の性能は現時点ではMythosより若干低いものの、OpenAIのモデルはより広く利用可能であるため、より多くの人々がエクスプロイト開発に活用できる機会が生まれると付け加えました。
信頼性の高いエクスプロイトに迫るAIモデル、専門家は慎重な見方
フロンティア大規模言語モデル(LLM)はすでに大規模な脆弱性発見を加速できることを示してきましたが、その発見が信頼性の高い実用的なエクスプロイトへとつながるかどうかは、ExploitBench登場まで未解決の問いでした。
「クラッシュするかどうかだけでなく、エクスプロイトの段階を測定しています」とBrumley氏はInfosecurityに語り、表面的なシグナルではなく実際のエクスプロイト能力を評価する上でこの新しいベンチマークが重要である理由を説明しました。
この区別は非常に重要です。ゼロデイ欠陥を確実にエクスプロイトできるモデルは、脅威アクターが脆弱性を武器化するための障壁を下げるからです。
BugcrowdのCEOであるDave Gerry氏も、自動化とAIはすでに攻撃者のワークフローに組み込まれており、発見された欠陥が能動的なエクスプロイトに転換されるスピードが増していると警告しました。
とはいえ、ExploitBenchがAIを活用して脆弱性をエクスプロイトする可能性を示した最初の実験の一つであることは確かですが、Brumley氏はチームの最初の調査結果は特定の種類の脆弱性のみを反映したものであり、結果を過度に一般化すべきではないと慎重な見方を示しました。
「ここでは過大な宣伝はしたくありません。私たちは非常に高度なターゲットアプリケーションを測定しました。Chromeは数十万行のコードで構成されており、長年にわたって監査されてきました。そこでエクスプロイトを発見することの価値は十分に分かっています。ただし、Webアプリケーションの脆弱性をエクスプロイトしようとする場合に同じ結果が得られるとは限りません。」
VulnCheckの製品エンジニアリング担当バイスプレジデントであるMichael Price氏はInfosecurityの取材に対し、AIモデルは向上しているものの、大規模なエクスプロイトを確実に実行する完全な能力にはまだ達していないと述べました。
英国AI安全機関によるMythosの能力に関する最近のレポートを引用したPrice氏は、最も大きな進歩はモデルの計画能力、すなわちステップバイステップの計画を立て、必要に応じて再計画し、多段階の行動を実行する能力にあると説明しました。この能力の向上は、定義上、攻撃的なキャンペーンにとってモデルをより有用なものにしています。
同氏はこの改善が攻撃的ポテンシャルを高めると指摘しつつも、慎重な見解を示しました。「モデルは向上していますが、実際にはまだそれほど優れているわけではありません」と同氏は述べました。
「毎月または四半期ごとに1%程度改善し、おそらく2〜4年のうちに本当に優れたものになると思います」とPrice氏は付け加えました。
AI主導の修正を大規模展開へ
Brumley氏とGerry氏はともに、ExploitBenchはモデルの能力を測定・向上させるためのBugcrowdの強化学習(RL)環境と並行してリリースされたと強調しました。
「ExploitBenchを公開したのは、実際のエクスプロイトタスクにおけるモデルの現状を明確にするためです」とBrumley氏は説明しました。
Gerry氏は、ベンチマークとトレーニング環境は補完的な関係にあり、一方は測定を推進し、もう一方は業界のモデルパートナーとの標的型RLトレーニングを通じた改善を推進すると付け加えました。
最後に、両社のリーダーは、防御側が攻撃側のスピードに対抗するために自動修正と優先順位付けを導入するよう訴えました。
Gerry氏はInfosecurityに対し、縮まり続ける「ゼロデイクロック」とAI支援による脆弱性発見の急増を受け、組織はAI主導の修正を大規模に開発しなければならないと述べました。
同氏は、修正パイプラインを見直してチケットキューからほぼリアルタイムのワークフローへと移行させる必要があると述べ、「実際にエクスプロイトを可能にする脆弱性を自動的に優先して対処できなければ、より多くのバグをより速く発見することはノイズを増幅させるだけです」と語りました。
Brumley氏もその緊迫感を共有し、防御側は攻撃者に悪用される前に最も重要な脆弱性を優先して修正するためのコンテキスト型インテリジェンスが必要だと述べました。
同氏はさらに、欠陥を発見するだけでなく、安全な範囲で修正を推奨・開始し、人間の開発者が最もリスクの高い作業に集中できるよう大規模に対応するモデルのトレーニングが必要だと付け加えました。
「今後数か月以内に、特定の脆弱性が各組織に与える影響についてインテリジェンスを提供するツールに関して発表を行う予定です」と同氏は述べました。
翻訳元: https://www.infosecurity-magazine.com/news/mythos-gpt-chrome-exploits/