新たな研究、GPT-5.2はゼロデイエクスプロイトを大規模に信頼性高く開発できると主張

最近の技術研究は、高度な言語モデル、とりわけGPT-5.2が、これまで未知だった脆弱性に対して機能するエクスプロイトを体系的に開発できることを示し、攻撃的サイバー作戦の産業化に関する重大な問いを提起している。

GPT-5.2は、QuickJSのJavaScriptインタプリタにおけるゼロデイ脆弱性を標的とした6つの異なるエクスプロイトシナリオすべてで成功率100%を達成した。同時に、Opus 4.5は2つのシナリオを除いて成功した。

実験では、AIエージェントに対し、アドレス空間配置のランダム化（ASLR）、非実行メモリ、細粒度の制御フロー完全性、ハードウェア強制のシャドースタックといった現実的な制約下で、未発見のQuickJS脆弱性に対するエクスプロイトを開発する課題が与えられた。

各モデルにつき30百万トークンの予算で10回実行した結果、エージェントは目的の異なる40件以上の動作するエクスプロイトを生成した。目的には、シェルの起動、任意ファイル書き込み、そしてコマンド＆コントロールのコールバックが含まれる。

GPT-5.2は、seccompサンドボックス化やOS機能の削減を含む最大限の保護下でディスクへファイルを書き込むという、最も制約の厳しい課題に取り組む際に、特に高度な能力を示した。

モデルはglibcのexitハンドラ機構を通じた新規の7関数からなるエクスプロイトチェーンを開発し、ハードウェアのシャドースタック保護を回避し、ROPベースの手法を打ち破った。

この解法には50百万トークンが必要で、計算に約3時間を要し、エージェント1回の実行あたりおよそ50ドルのコストがかかった。ほとんどの課題は、比較的控えめな費用で1時間以内に解決される。

Opus 4.5の30百万トークン実行は約30米ドルであり、信頼性の高いエクスプロイト生成が大規模でも経済的に実行可能であることを示している。

研究は最も重要な含意として、攻撃的サイバー能力は近い将来、熟練人材ではなくトークンのスループットによって制約される可能性があると指摘している。

実際の産業化には、2つの重要な要素が必要である。適切な環境内で解空間を体系的に探索できるエージェントと、人手を介さない自動検証メカニズムである。

エクスプロイト開発に関しては、制御された環境と決定論的な検証が実現可能であるため、両条件は満たされているように見える。しかし、重要な注意点にも目を向ける必要がある。

QuickJSは、ChromeやFirefoxの本番用JavaScriptインタプリタと比べて、規模も複雑さも一桁小さい標的である。結果は、現行モデルがこれらの問題を解けることを強く示唆する一方で、より大きな標的についての決定的な結論は依然として推測の域を出ない。

さらに、生成されたエクスプロイトは、セキュリティ機構に対する新規の破り方を提示するというより、既存の保護における既知のギャップを活用している。ただし、エクスプロイトチェーン全体としては独創性を示している。

研究者らは、ラテラルムーブメント、永続化、データ流出といった侵入後のハッキング作業は、別種の課題を提示すると仮説を立てている。

これらの作戦はオフラインの解空間探索だけに全面的に依存することはできず、特定の行動が作戦全体の終了につながるような敵対的環境の中でエージェントが動作しなければならない。

完全自動化されたSite Reliability Engineeringプラットフォームが存在しないことは、こうした適応的タスクが依然として現行能力の範囲外にある可能性を示唆する。しかし、証拠は限定的で、部分的に推測にとどまる。

産業化されたハッキングの公的な確認は依然として存在しないが、最先端のAIモデルを攻撃のオーケストレーションに活用する脅威アクターの事例は文書化されている。

研究は、AI評価チームが、LinuxカーネルやFirefoxのような標的に対する現実世界のゼロデイ評価を優先し、CTFベースや合成脆弱性の評価を超えて、意味のある能力評価を提供すべきだと提言している。

sean.heelanによれば、この研究は、サイバーセキュリティ研究者が、最も難しいエクスプロイト問題に対して現行モデルを積極的にテストし、最大限のトークンを割り当て、成功・失敗にかかわらず結果を公表すべきだと主張している。

実際の標的に対するモデルの真の能力を理解することは、現在のセキュリティ評価における重大な欠落であり、その影響は脆弱性研究、脅威評価、防御の優先順位付けにまで及ぶ。

防御コミュニティにとって、エクスプロイト自動化の産業化までのタイムラインは、従来想定されていたよりも大幅に短い可能性があり、直ちに戦略的検討を要する。

関連記事