Mythosは脆弱性発見で強力であることが証明されたが、他の分野ではそれほど説得力がない

Mythosはソフトウェア脆弱性の検出において主張通り強力であるように見えるが、他の分野での機能はより複雑である。

Anthropicの Mythos AIモデルは4月初旬の発表以来話題になっており、主に他のAIモデルよりも大幅に多くの脆弱性を発見する能力があることで知られています。自律型オフェンシブセキュリティ企業であるXBOWは、このことと他のMythos機能の有効性を確認するために、独自のAIテストアーセナルをMythos Previewに向けています。

Anthropicの主な主張は確認されました。「Mythos Previewはプロバイダーに関わらず、すべての既存モデルより大きな前進を示します」と報告されています。 

20年前にGary McGrawがコメントしたように、運用上の欠陥はソースコードのバグとアーキテクチャ設計の欠陥の相互作用で発生します。「コードを見つめるだけでは設計の欠陥は見つけられません。より高いレベルの理解が必要です」と彼は述べました。XBOWはコードへのアクセスだけの場合とコードがライブ環境で動作している場合の両方に対してMythosをテストしました。モデルは「ライブ+ソース」でテストするときに問題を見つけるのに優れていますが、ソースコードだけに対してはそれほどではないことがわかりました。

これはMythosがソースコードを調査する力を損なうものではありませんが、XBOWは、どのAIモデルでも何か興味深いものを見つけることができるが、その「何か」は「すべて」と同じではないと指摘しています。

他のXBOWテストでは、判断、リバースエンジニアリング、ネイティブアプリの評価、および視覚的敏捷性の観点からMythos機能を調査しました。 

判断において、前任者よりも偽陽性をより良く拒否しましたが、「証拠が正式にその基準を満たさないときは、時々真の陽性を失いました。」Mythosは最適な結果を得るには正確なプロンプトが必要です。 

モデルはネイティブコード脆弱性の発見とリバースエンジニアリングの両方において実質的な強力さを示しています。

リバースエンジニアリングテストで、XBOWはMythosが「独自の結果と競合他社のモデル検出の両方をトリアージできる」と結論付け、モデルは異常なファームウェアと組込みシステムコンテキストを通じて推論できることを示しました。

XBOWの視覚的敏捷性テストは、ブラウザインターフェースを通じてライブWebサイトと相互作用するモデルの能力を調査します。つまり、正しいUI要素を識別して正しい場所をクリックする能力です。「正確な座標を求められたときはピクセル完全に正確ではありませんでしたが、正しいブラウザアクションを選択するのに実用的に効果的でした」とXBOWは述べています。

しかし、Mythosの力に圧倒されたユーザーが簡単に見落とす可能性のある1つの統計があります。「Mythos PreviewはただのNewモデルではなく、真の巨人です。しかし巨人は大きく、大きいということは高価であることを意味します。」 

本稿作成時点では、具体的なコストは利用できませんが、Anthropicはそれがオーパスモデルの5倍高くなると述べています。これにより、XBOWはより安価なモデルにより多くの時間を与えてより低いコストでより多くの精度を得ることが可能かどうかを疑問に思いました。

結論はイエスでした。「推定実行コストで正規化すると、画像はかなり明らかです。Mythos Previewは、少なくとも高精度を望む場合は非常に非効率ではありませんが、当社のベンチマークでもベストインクラスではありません。」固定トークン予算でWebの脆弱性を見つけるために、MythosはOpus 4.6を上回りますが、GPT 5.5に上回られます。

これらの調査結果のどれも、元の基本的な主張を損なうものではありません。Mythosは他のモデルよりもコードの脆弱性を見つけることが得意です。しかし全体的に、XBOWのテストからの主要な要点は次のとおりです:

  • Mythosはソースコード監査に非常に強力です。 
  • エクスプロイトの検証に良いですが、それほど強力ではありません。 
  • その判断は混在しています。それは非常に文字通りで保守的である可能性があり、また検出結果の実用的な関連性を誇張する傾向があります。 
  • ネイティブコード脆弱性の発見とリバースエンジニアリングに強いです。 

「Mythos Previewは候補脆弱性を見つけることに強く、特にソースコードから、およびウェブ、ネイティブコード、およびリバースエンジニアリングタスク全体で印象的な能力を示します」とXBOWは結論付けています。

翻訳元: https://www.securityweek.com/mythos-proves-potent-in-vulnerability-discovery-less-convincing-elsewhere/

ソース: securityweek.com