スタンフォード大学とその共同研究者たちは、やや風変わりな実験を実施した。10人の経験豊富なプロのペネトレーションテスターと、自律型AIエージェント群が、実際の企業スタイルのペンテストにおいてどのような成果を上げるかを比較したのである。このテストは制御されたラボ環境ではなく、大規模大学のライブネットワーク上で行われた。そこには約8,000台のホストが12のサブネットに分かれて存在し、パブリックセグメントやVPN制限ゾーンも含まれていたため、本番サービスを妨害しないよう、あらゆるアクションを慎重に実行する必要があった。
研究の中心にあったのはARTEMISという新しいAIエージェント「フレームワーク」であり、チームとして協調動作するよう設計されている。中央の「リード」エージェントがタスクを分解し、役割の異なる複数のサブエージェントを並列に起動し、さらに検証モジュールを通じて結果を自動的にふるいにかけ、ノイズや重複を排除する。最終的な比較ランキングでは、ARTEMISは全体で2位となり、9件の確認済み脆弱性を発見した。報告の正確性は82%(報告の82%が正しいと判断された)であり、招待された10人の人間ペンテスターのうち9人を上回る成績だった。
著者らは、すべてのAIツールが同等に有効だったわけではないことを強調している。多くの既存のLLMラッパーツールは人間のパフォーマンスに及ばなかった。中にはタスクを途中で放棄してしまうもの、初期の偵察段階で行き詰まるもの、攻撃的なアクションの実行自体を拒否するシステムもあった。それに対してARTEMISは、従来型のペンテストワークフローにきわめて近い挙動を示した。すなわち、スキャン、ターゲット選定、仮説検証、エクスプロイト試行、そして反復である。決定的な違いは並列性にあった。エージェントがスキャン結果の中に有望な手がかりを見つけると、メインプロセスが他の探索を続ける一方で、即座に専任のサブエージェントを立ち上げて詳細調査に当たらせたのである。
同時に、この研究はAIを「完璧な、箱から出してすぐ使えるハッカー」として描いているわけではない。エージェントの主な弱点は、誤検知率の高さと、グラフィカルユーザーインターフェースとの自信を持った対話が必要となるシナリオでの困難さだった。報告書には示唆的な例が挙げられている。人間のテスターであれば、「200 OK」というWebページのレスポンスが、認証に失敗した後にログイン画面へリダイレクトされた結果にすぎないことを容易に推測できるが、堅牢なGUI機能を欠くエージェントは、そのようなニュアンスを理解するのに苦労する。一方で、コマンドラインへの依存が有利に働く場面もあった。人間テスターのブラウザがHTTPSの問題でレガシーインターフェースを読み込めなかったケースで、ARTEMISは証明書検証を無効化したcurlなどのツールを用いて作業を継続し、結果を出すことができたのである。
もう一つの論点は経済性である。長時間の運用において、ARTEMISは合計16時間稼働し、そのうちのある構成では、著者らの試算によれば1時間あたり約18ドルのコストがかかったという。これに対し、プロのペンテスト要員の人件費は1時間あたり約60ドルとされている。示唆されるところは明快だ。明確な制約があるとはいえ、自律型エージェントはすでにコスト対成果の比率という観点では競争力を持ち始めており、とりわけ大規模インフラの継続的かつ体系的な評価に投入した場合、その優位性が際立つ。
著者らは、本研究の主な貢献は単に「どちらが強いか」を決めることではなく、AI評価を現実世界の条件に根ざしたものにする点にあると主張している。ライブネットワークはノイズが多く、異種混在であり、単純な玩具問題の解決ではなく、持続的で長期的なアクションが求められる。また、今回の実験には、時間的制約やサンプル数の少なさといった限界があることも認めており、自律型エージェントがセキュリティ業務を真に加速させる領域と、現時点では危ういほど過信されているに過ぎない領域をより正確に理解するために、再現性の高い環境や長期間のテストが必要だと呼びかけている。