XBOWによるAnthropicのMythos Preview攻撃的セキュリティ評価レポート

数週間前、早期能力評価のためMythos Previewへのアーリーアクセスをいただきました。以下では、評価の方法・判明した内容・その意味するところを詳しく解説します。

約3ヶ月前、Anthropicから招待を受け、能力に大きな転換点をもたらすと考えられる新モデルの評価に協力することになりました。そこで私たちは、このモデルを徹底的なセキュリティ試験にかけました。ベンチマーク、ワークフロー、対話的な利用、そして各種統合環境での検証です。

本日ようやく、Mythos Previewの評価方法・判明した内容・その意味するところについて詳細をお伝えできます。

結論を先にお伝えすると、このモデルは大きな前進です。特にソースコードが利用可能な場合、脆弱性候補の発見能力において従来モデルを大幅に上回っています。技術的な精度の高さ、コードに対する優れた推論力、そしてネイティブコード解析やリバースエンジニアリングといった複雑な領域での高い将来性が際立っています。

私たちの総評は次のとおりです。Mythos Previewは、有力な脆弱性候補の生成と技術的に精密な解析を行うための強力なツールです。特にセキュリティ視点でのソースコード解析に優れています。ただし魔法ではありません。モデルはあくまで「頭脳」であり、「身体」を持たない存在です。

ソースコード監査はほぼ頭脳だけで完結する作業ですが、XBOWが手がけるような実サイトへのペネトレーションテストには、頭脳の力に匹敵するスキルと制御力を持つ「身体」が必要です。

テスト手法

最初に行ったのは、社内のさまざまな部門から10名の専門家を集め、多角的な視点からモデルを評価できるチームを編成することです。すべてのモデルは、Opus 4.7およびGPT 5.5の評価に使用してきたものと同じ内部ベンチマークシステムで検証しています。このシステムでは、過去に脆弱性が発見されたオープンソースアプリケーションを脆弱なバージョンで固定し、そこに私たちのエージェントを実行します。

今回はさらに評価範囲を拡大し、以下の観点からも分析しました。

脅威モデリング、脆弱性検証、安全性に関するモデルの判断力
ソースコードの読み取りと実際のシステムとの対話能力の比較
通常の評価では対象としていないエクスプロイトの発見能力（例：ネイティブアプリの脆弱性）

用語について補足します。「Mythos」という言葉は、生のモデルそのものを指す場合があります。今回の評価では、Mythos PreviewをClaude Code上で使用する場合と、APIを通じてXBOWのエージェントエンジンとして生のモデルで使用する場合の両方を検証しました。オーケストレーション・ツール・プロンプト・実サイトへのアクセス有無が結果に大きく影響するため、両者を分けて評価しています。

評価結果

Mythos Previewを対話的に試したテスターたちは、非常に強い印象を受けていました。「これまで見てきたどのモデルよりも、『とにかく何か見つけてきて』と言いたくなる感覚に近い」というコメントもありました。自社のソースコードを与えてみると、脆弱性が見つかりました。幸い深刻なものではありませんでしたが、いくつかは修正が必要な項目でした。

オープンソースソフトウェアでも試したところ、最初の1週間が終わる頃には、開示が必要な新たな脆弱性をかなりの数発見していました。

ベンチマークでMythos Previewを評価したテスターたちも非常に好印象を持っていましたが、その感動はやや異なる性質のものでした。「データとして」感動した、ということです。また、彼らの結果からは、モデルが圧倒的に強い領域と、わずかな進歩にとどまる領域の差も明確に浮かび上がりました。

Mythos Previewのベンチマーク性能

Mythos Preview評価後の主な知見は以下のとおりです。

ソースコード監査において極めて高い性能
エクスプロイトの検証では良好だが、やや力不足
判断力にはばらつきあり。過度に字義通りで保守的になる傾向があり、発見内容の実用的な重要性を誇張しがち
ネイティブコードの脆弱性発見とリバースエンジニアリングで高い実力を発揮

次世代の脆弱性発見能力

Mythos Previewは、XBOWのWebエクスプロイトベンチマークにおいて、プロバイダーを問わずすべての既存モデルを大幅に上回る性能を示しました。

このベンチマークは、モデルが実際のWebサイト環境で検証済みかつ実用的な脆弱性を発見できるかを測定するものです。シェルまたはXBOWの攻撃ツール群を使用した標準コマンドによるPythonスクリプトなど、80回の「アクション」を経て脆弱性を実証する方法（PoC||GTFO）が見つかった場合にのみ、合格としてカウントされます。

注：Opus 4.7はこのチャートに含めていません。このモデルは私たちのシステムと独自の方法で連携するため、この特定の指標が適切でないためです。詳細はこちらの記事をご参照ください。

当時の最新モデルであったOpus 4.6と比較すると、大幅な改善が見られました。

偽陰性の件数が42%減少
両モデルにサイトのソースコードを提供した条件では、さらに55%の減少

これは、何度も繰り返されるテーマの最初の事例となりました。Mythos Previewはコードを書く能力でも優れていますが、コードを読む能力においてはさらに卓越しています。

下図は、許容アクション数（実行スクリプト数）を変数として、Mythos Preview・Opus 4.6・GPT 5.5の合格率を示したものです。Mythos PreviewはOpus 4.6より大幅に少ないイテレーションで脆弱性を発見しますが、GPT-5.5との差はそれほど顕著ではありません。

2つの考慮点を加えると、さらに明確になります。

モデルは細かいステップを多数踏むか、大きなステップを少数踏むかを選べます（詳細はこちら）。このことはあまり重要ではないはずです。アクション数の予算ではなく、出力トークンの予算で考えてみましょう。
平均合格率（脆弱性を発見できる確率）ではなく、発見のオッズ（モデルが正しく発見できると賭ける確率の比率）で見ると、より示唆に富んでいます。計算上はヒット率をミス率で割った値です。

これらの観点から見ると、状況は格段に明確になります。トークン単位で比較した際、Mythos Previewは前例のない精度で脆弱性に迫ります。

XBOW Benchmark: Finding Web Vulns in OSS with fixed token budget

実サイトでの検証という難関

Mythos Previewはソースコードの推論に優れていますが、今回の評価で改めて実証された実践的な真実があります。それは、悪用可能な問題の多くはアプリケーションのソースコードで明確な欠陥として現れないということです。設定・依存関係・デプロイの選択・あるいは安全なコンポーネント同士の組み合わせ方から生じることがほとんどです。

たとえば、ある依存関係単体は安全かもしれません。ソースコード単体も安全かもしれません。しかし、そのソースコードが依存関係を安全でない方法で使用することで脆弱性が生まれます。Gary McCrawがかつて有名な言葉で述べたように、「コードを眺める」だけでは大多数の欠陥を見つけることはできません。

これは私たちにとって特に重要な問題です。XBOWは攻撃者の視点でライブサイトを対象としたペネトレーションテストを実施しています。一方で、たとえばProject Glasswingが活用するようなMythos Previewは、開発者の視点でのソースコード監査に秀でています。

実際のライブサイトとの対話は非常に強力ですが、そこには全く新しい繊細な次元が加わります。Mythos Previewはこのバランスを変えることができるのでしょうか？

私たちのWebベンチマークセットの収集方法上、コードだけから脆弱性を特定することが実際に可能です。そこで公平な問いが生まれます。これらのベンチマークにおいて、Mythos Previewは実サイトとの対話なしでエクスプロイトを発見できるのでしょうか？

驚くべきことに、脆弱性が純粋にコード内に存在するこれらのベンチマークでも、実サイトへのアクセスを除去することはソースコードへのアクセスを除去するよりも性能に大きな悪影響を与えることがわかりました。多くの点で、ライブサイトへのアクセスはソースコードへのアクセスより重要です。これはまさにXBOWの価値提案そのものです。最前線のモデルに対して、実際のアプリケーション動作と安全かつ体系的に対話し、どの発見が実際に悪用可能かを証明する手段を提供しています。

Mythos Previewを搭載したXBOWの結果を以下に示します。

「モデルはコードから興味深いものを見つけられるか？」という問いへの確かな答えが得られました。その答えは、たとえ「何か」が「すべて」と同じでないとしても、ますます「Yes」に近づいています。

しかしそれでも、「これらの発見のうち、実際に悪用可能で再現性があり、安全にテストでき、修正する価値があるものはどれか？」という問いは依然として残ります。

その答えは、Mythos Previewの強力なソースコード解析と、XBOWが持つ実サイトを安全かつオーケストレーションされた検証済みの方法で分析する能力を組み合わせることにあります。

注目すべきは、Mythos Previewも実サイトへのアクセスを遮断されると大きく性能が落ちますが、他のモデルはさらに大きく落ちるという点です。Mythosの最大の強みがソースコードの読解にあることを改めて裏付けています。

Exploit finding ablation - Mythos Preview vs GPT-5.5

最良の結果は、もちろん常に実サイトとソースコードへのアクセスを組み合わせた場合です。

これにより、XBOWがMythos Previewをオーケストレーションする際の理想的な検出パターンが実現します。ソースコードを解析して手がかりを発見し、実サイトを探索してその弱点がデプロイ環境にどう反映されているかを把握し、そこからエクスプロイトを作成するという流れです。

その他の知見

判断力・リバースエンジニアリング・ネイティブアプリの評価・視覚的精度についても調査しました。

判断力の評価結果にはばらつき

Mythos Previewの判断力に関する評価結果は、発見能力と比べてより混在したものとなりました。コマンドの安全性・脅威モデリング・トレースのトリアージにわたって、しばしば慎重かつ精密な判断を示しましたが、一方で字義通りかつ保守的すぎる傾向も見られました。多くの前モデルよりも偽陽性をより適切に排除できましたが、証拠がその基準を形式的に満たさない場合や、意図されたルールが書かれたルールより広い範囲をカバーする場合には、真陽性を見逃すことがありました。

これによりMythos Previewは有用ではありますが、自律的には機能しません。強力な推論を信頼できるセキュリティ成果に変えるためには、精密なプロンプト・明確な脅威モデル・検証インフラが必要です。

やや驚いたのが、コマンド安全性ベンチマークにおけるMythos Previewの性能です。このベンチマークでは、特定のスクリプトが対象サイトに影響を与えずに安全に実行できるかどうかをモデルに判断させます。判断の境界に近いケースを大量に手動でラベル付けしたところ、Haiku 4.5は90.1%の精度を達成しました。

Haiku 4.5向けにプロンプトを最適化しているため、より公平な比較対象はOpus 4.6です。Opus 4.6の精度は81.2%でしたが、Mythos Previewはわずか77.8%にとどまりました。

詳細な推論を調べてみると、Mythos Previewの判断には一理あることが多くありました。厳密にはルールの字義に反しないケースがあっても、精神には反していました。Opus 4.6はルールの精神を優先しましたが、Mythosは字義を優先したのです。

ネイティブコードとリバースエンジニアリングでの高い実力

Webアプリケーションを超えた分野でも、ネイティブコードの脆弱性発見とリバースエンジニアリングにおいて顕著な強みを示しました。

Chromium関連のテストでは、従来のベースラインより少ない偽陽性でより多くの実際のバグを発見しました。V8サンドボックスの調査では、従来のアプローチが多数の発見を上げながら真陽性を一件も出せなかった微妙な脅威モデルで、真陽性を特定することに成功しました。また、自身の結果と競合モデルの発見物の両方をトリアージする能力も実証されました。

リバースエンジニアリングの結果は特に印象的でした。単純なパターンマッチングを超えた対応が必要な、珍しいファームウェアや組み込みシステムの文脈、アーキテクチャ、オペレーティングシステムの組み合わせに対しても、論理的に推論することができました。

実用的なワークフローに十分な水準のブラウザ操作と視覚的精度

XBOWのワークフローでは、モデルがブラウザインターフェース経由で実際のWebサイトと対話することが求められます。その場面では視覚的精度が重要で、正しいUI要素を識別し、正しい場所をクリックする必要があります。

評価対象モデルは、XBOWの視覚的精度品質保証テストで非常に優れた性能を発揮し、Sonnet 4.6とほぼ同等で、Opus 4.6を大幅に上回りました。正確な座標を求めた場合、完全にピクセル単位の精度があるわけではありませんでしたが、正しいブラウザ操作を選択するという実用的な面では有効に機能しました。

なお、Opus 4.7もこのベンチマークで優れた結果を示しました。本当の注目点は「Mythos Previewが優秀」ということではなく、むしろこういったことかもしれません。これは、最近のAnthropicモデルが劣化し始めていた特定の領域で、Anthropicがその劣化を察知し、逆転させたということです。

実力と代償

Mythos Previewは単なる新モデルではありません。真のタイタンです。

しかしタイタンは巨大であり、巨大であることはコストを意味します。どれだけの確信を得るために、どれだけのコストをかけられますか？同じ予算を別の方法に使えば、より良い結果が得られるのでしょうか？

執筆時点では、Mythos Previewはまだ公開APIで利用できませんが、Anthropicは言及しています。Opusモデルの5倍のコストになるとのことで、すでにトークン単価で見て高価な選択肢に位置しています。そこで当然の疑問が生じます。

別のモデルを搭載したエージェントにより多くの時間を与えれば、より低コストでより高い精度が得られるのではないでしょうか？

結果は「Yes」でした。推定実行コストで正規化すると、状況は明確です。Mythos Previewはひどく非効率というわけではありませんが（少なくとも高い精度を求める場合は）、当社のベンチマークではコストパフォーマンスの面でトップクラスとは言えません。

この知見は類似する比較結果とも一致しています。たとえば、Point Estimateの分析によるAI Security InstituteのMythos PreviewとGPT-5.5のベンチマーク比較でも同様の傾向が見られます。Mythos Previewは強力ですが、本当の選択肢は「エージェントにMythos Previewを少し使わせるためにコストを払うか」「GPT-5.5を必要なだけ長く使わせるか」です。どちらが良いかはユースケースによって異なりますが、多くの場合は後者が有利です。

XBOWの評価が示すのは、最前線のモデルが脆弱性発見において大きな前進を遂げたということです。Mythos Previewは特にソースコードからの脆弱性候補の発見に優れており、Web・ネイティブコード・リバースエンジニアリングの各タスクで印象的な能力を発揮しています。

しかし、その潜在能力を最大限に引き出すためには、適切なハーネスに搭載し、適切なツールを装備する必要があります。それでもなお、矢筒の中の一本として活用すべきです。タスクによっては、Mythos Previewに一度試させるよりも、別のモデルに何度か試させる方が賢明な場合もあります。

このような考慮こそが、XBOWが単一のモデルに縛られることなく、複数のモデルを保有し続ける理由の一つです。

XBOWの強力な脆弱性検証能力を実際にご体験いただくには、デモのお申し込みはこちらからお問い合わせください。

翻訳元: https://www.bleepingcomputer.com/news/security/xbow-tests-anthropics-mythos-preview-for-offensive-security/