人工知能は脆弱性の発見や対処を迅速化する可能性を示していますが、現在利用可能な汎用の大規模言語モデル(LLM)は、実際に動作するエクスプロイトの作成には部分的にしか役立ちません。最新の研究によると、ペネトレーションテスターや攻撃的リサーチャーを支援するには、特化型のシステムが依然として最も効果的です。
50種類の大規模言語モデル(LLM)の攻撃的セキュリティ能力を調査したところ、OpenAIのChatGPTやGoogleのGeminiなど多くの主要LLMは、単純な脆弱性やエクスプロイトの発見には優れていたものの、ほとんどは大きな効果を発揮しませんでした。全体として、非専門的なLLMはセキュリティの非専門家による一部の脆弱性調査やエクスプロイト開発には使えますが、攻撃的セキュリティに特化したAIの方が専門家の利用には適していると、サイバーセキュリティ企業Forescout Technologiesの上級セキュリティリサーチャーであり本報告書の著者であるミケーレ・カンポバッソ氏は述べています。
実際、カンポバッソ氏によれば、一般的なLLMを脆弱性調査に使う可能性が高い層—技術に詳しいが深いセキュリティ知識のない犯罪志向者—にとっては、LLMの自信に満ちた口調が、解決に近づいていると誤信させる可能性が高いとのことです。
「この実験は、洗練されていない攻撃者、つまり最小限の労力で何かを成し遂げようとする機会主義的な攻撃者に焦点を当てています」と彼は述べ、さらに「この実験が示しているのは、何を見ているのかを非常によく理解していない限り、実用的な結果はあまり得られないということです」と付け加えています。
テストされた17の商用モデルのうち、3つを除くすべてが単純な脆弱性を発見する能力を示し、半数以上が別の脆弱性に対するエクスプロイトを作成できました。しかし、複雑な攻撃タスクではほとんど失敗し、より複雑な脆弱性を発見できたのは4つ、より複雑なエクスプロイトを作成できたのは3つだけでした。
LLMを使って脆弱性を発見・悪用するというアイデア自体は新しいものではなく、実際、脆弱性の発見や悪用に特化したAIシステムは進歩を遂げています。昨年末、Googleは自社のBig Sleep大規模言語モデルが SQLiteデータベースエンジンの脆弱性を発見したと発表しました。2024年8月には、Team Atlantaと呼ばれる学術・業界の研究者グループが、「Atlantis」というサイバー推論システムを使い、AI Cyber Challengeの一環としてSQLite3データベースエンジンのバグを発見・修正しました。
サイバーセキュリティスタートアップのXbowは、自律型脆弱性発見システムを開発し、HackerOneの脆弱性発見プラットフォームで稼働させました。このシステムは900件以上の問題を発見し、チームはHackerOneのリーダーボード上位にランクインしました。(Xbowチームは現在、Highest Reputationボードで9位、米国ボードで1位です。)
開発の急速な進展は、AIシステムによる自動バグ発見が今後のアプリケーションセキュリティの主流となり、人間がミスや幻覚(ハルシネーション)を検出する役割を担うことになると、Cloud Security AllianceのCEO兼共同創業者ジム・リーヴィス氏は述べています。彼は、LLMはすでに攻撃的セキュリティ分野で広く使われているが、人間の監督下であり、完全な自律型ワークフローではないと指摘します。
「LLMはすでにレッドチームの生産性を向上させています。攻撃対象領域の自動マッピング、PoCコードの作成、スキャンデータの要約などです。しかし、依然として幻覚を起こしたり、文脈を見落としたりします」と彼は述べています。
すべてのLLMが同じではない
LLMは標準の状態では、バグハンティングにはまだ多くの課題があります。Forescoutの研究者たちは50種類の大規模言語モデルのリストを作成し、2つの脆弱性調査(VR)と2つのエクスプロイト開発(ED)タスクを与えました。最初のVRタスクに成功したモデルはわずか過半数(52%)で、2つ目を完了したのは45%のみでした。また、Forescoutの分析対象モデルの約半数は、機能しないか有料壁で保護されていたと同社のレポートで述べています。
商用LLMが最も成功率が高く、82%が最初の脆弱性調査タスクを解決しました。しかし、2つ目のVRタスクを解決したのは24%のみで、48%は部分的な解決策を作成したとレポートは伝えています。商用モデルはまた、最初のエクスプロイト開発タスクの半数以上を解決しました。
オープンソースモデルは脆弱性調査タスクでほとんど成果を上げられませんでしたが、アンダーグラウンドおよび商用モデルははるかに高い能力を示しました。さまざまな失敗モード(グレーの濃淡で表示)は、幻覚による失敗(HF)、非準拠による失敗(NCF)、アライメント失敗(AF)、結論が出ない/不満足な失敗(IF)を含みます。出典:Forescoutのデータに基づくロバート・レモス作成のチャート
特に複雑なEDタスクでは、多くの実験がLLMが問題を本当に解決できるかどうかを判断するまでに数時間のやり取りを要したと、Forescoutのカンポバッソ氏は述べています。中には、答えに到達できないことが明らかになるまで丸一日かかったケースもありました。
「本当にイライラしました。毎回収束しているように見えるのですが、実際はそうではないのです」と彼は述べています。「正しい方向に進んでいるような印象を与えますが、実は違うのです。」
未来はやはりAI
それでも、LLMはセキュリティ対策において依然として有用だと、攻撃的セキュリティプラットフォームプロバイダーCobaltのCTO、ギュンター・オルマン氏は述べています。LLMは新規かつ安定したエクスプロイト開発にはあまり使われませんが、スキャナーの検出結果の初期トリアージや開発中によく使われているといいます。
他の種類の機械学習の方が一部の攻撃的セキュリティタスクにはより成功していますが、大規模言語モデルはペネトレーションテストにおいて急速に不可欠な存在になるだろうとオルマン氏は述べています。「このような技術は、ソフトウェアエンジニアリングに与えたのと同じくらい、あるいはそれ以上の速さでペンテストにも影響を与えると予想しています」と彼は述べています。
Xbowはすでに、LLMを中心とした多角的なアプリケーションセキュリティテスト手法の有効性を実証しています。Xbowは、各分析を調整する中央AIシステム、バグの種類ごとの特定プロンプト、エクスプロイトの有効性を証明するエージェントを組み合わせて動作すると、創業者兼CEOのオーゲ・デ・ムーア氏は説明します。この手法により、Xbowは2025年第1四半期にHackerOneエコシステムで発見した脆弱性が100件未満だったのが、第2四半期にはほぼ1,000件に急増しました。
Xbowを人間による検証とガイダンスのもと自律的に運用することで、現在の人材不足の改善に大きく貢献できるとデ・ムーア氏は述べています。エージェントが単純作業を担当し、スタッフは全体像に集中できるようになるといいます。
「セキュリティ人材不足は現実であり、AIはそれを悪化させます。攻撃者はツールを強化し、“雰囲気コーディング”で新たなバグを次々生み出しています」と彼は述べます。「私たち人間には助けが必要です。」
CSAのリーヴィス氏は、今後24か月以内に自律型AIシステムがキャプチャ・ザ・フラッグ大会で優勝することを予想しています。サイバーセキュリティ専門家は、自分の組織で最高のAI専門家を目指すべきだと彼は述べます。
もちろん、このように変化の激しい環境で予測を立てるのはほとんど愚かなことだとも彼は述べています。
「この知能のビッグバンの中で、自分の答えがどれだけ長く正確に感じられるかは分かりません」と彼は述べています。「おそらく30日後には違うものになっているでしょう。」