商用AIモデルが脆弱性研究で急速な進展を示す

非公開のフロンティアAIモデル（Anthropicの「Claude Mythos」など）が主要なオペレーティングシステム全体で数千のゼロデイ脆弱性を特定できることが実証されていますが、商用モデルもソフトウェアバグの発見において進展を示しています。

Forescoutの Verde Labs によると、わずか1年前は55%のAIモデルが基本的な脆弱性研究に失敗し、93%がエクスプロイト開発タスクに失敗していました。

しかし進展があり、2026年には同サイバーセキュリティ企業は、テストされたすべてのモデルが脆弱性研究タスクを完了でき、半数が自律的に動作するエクスプロイトを生成できると述べています。

研究の一環として、商用、オープンソース、アンダーグラウンドを含む50のAIモデルがテストされました。

Forescoutがテストした最も有能なモデル（Claude Opus 4.6とKimi K2.5）は、複雑なプロンプトなしに脆弱性を発見・悪用でき、経験不足の攻撃者もアクセス可能になっています。

「これらは人間能力を超える広く入手可能なAIモデルです」とForescoutのセキュリティインテリジェンス担当副社長のRik Ferguson氏は述べました。しかし彼は、これはMythosの規模、速度、品質には達していないかもしれないと認めています。

テスト中、Forescoutは単一プロンプト、RAPTORエージェントフレームワーク、および同社独自の拡張機能を使用して、広くデプロイされているOpenNDSの4つの新しいゼロデイ脆弱性を発見したと述べました。

RAPTORはサイバーセキュリティの研究、オフェンス、ディフェンスのために設計されたオープンソースのエージェントAIフレームワークです。

Ferguson氏は、発見された脆弱性の1つは、Verde Labsがすでに手動で分析したが特定していなかったコード内にあったと説明しました。

AIが未知の脆弱性発見のハードルを低下させる

商用モデルはForescoutのテストで最良のパフォーマンスを発揮しましたが、費用が高いままであると同社は認めています。例えば、Claude Opus 4.6は100万出力トークンあたり最大$25の費用がかかります。

一方、DeepSeek 3.2などのオープンソース代替案はコストのほんの一部で基本的なタスクを処理でき、すべてのテストタスクの費用は$0.70未満です。

比較すると、Claude Mythosは参加者に対して100万入力/出力トークンあたり$25/$125で利用可能になります。

タスクの複雑さとコストに基づいて異なるモデルを使用することは、ディフェンダーと攻撃者の両方にとって実践的な戦略として浮上しています。

Forescoutは、その研究がオープンモデルで新しい脆弱性を発見でき、Project Glasswingなどの大規模な取り組みが重大ソフトウェアで数千のゼロデイを明らかにできるなら、組織は自分たちの環境にAIが発見するであろう未知の脆弱性が含まれていることを想定すべきだと指摘しました。