AIエージェント「XBOW」がHackerOneのバグバウンティリーダーボードのトップに立ったというニュースが流れると、サイバーセキュリティ業界にいくつかの懸念が急速に広がりました。
大規模言語モデルは、人間のバグハンティングを部分的または完全に置き換えるほど進化したのでしょうか?同名のスタートアップによって開発されたXBOWは、具体的にどのように機能しているのでしょうか?その出力の生成に人間が関与している場合、どの程度なのでしょうか?そして最終的に、これはサイバーセキュリティの未来や、これまで伝統的にこの仕事を担ってきた人間にとって何を意味するのでしょうか?
CyberScoopのインタビューで、XBOW、HackerOne、そしてサイバーセキュリティ業界の専門家たちは、大規模言語モデルの急速な進化がXBOWのようなツールに明確に現れていると指摘します。これらのモデルは、脆弱性調査、脅威ハンティング、アドバーサリアル・レッドチーミングといったコアタスクにおいて非常に高い効果を発揮するようになりました。人間と異なり、これらのモデルは継続的に稼働でき(ただし多大なコストがかかります)、バグの解決もはるかに高速です。
同時に、AIバグハンターやレッドチーミングプログラムの管理には、依然として一定の人間の入力や介入が必要であることも強調しています。また、XBOWの成果は印象的ではあるものの、低レベル・低インパクトのバグで勝利を重ねているように見え、より複雑な脆弱性には苦戦するだろうという声もあります。
ほとんどの専門家は、XBOWの能力は人間のバグハンターやレッドチームリーダーにとって存在的な危機には至っていないと述べつつも、サイバーセキュリティにおける人間と自動化のバランスが業界の足元で急速に変化していることを認めています。
人間よりも機械的
6月24日のブログで、XBOWのセキュリティ責任者Nico Waismanは、このツールが「人間の入力なし」で動作していると主張しましたが、同時にHackerOneのプラットフォーム上にある数十万もの潜在的ターゲットを考慮し、スタートアップとして「XBOWの上にインフラを構築し、高価値ターゲットを特定し、投資収益率を最大化できるものを優先する」仕組みを作ったことも認めています。
XBOWやそのリソースの誘導には、バグバウンティのスコープやポリシーの手動キュレーション、エージェントが従うカスタムスコアリングシステム、SimHashフィンガープリント技術、ヘッドレスブラウザなども含まれます。
かつてGitHub Next(同社のソフトウェア研究開発部門)を率いたXBOW創業者のOege de Moorは、CyberScoopに対し、同社は主にセキュリティ、人工知能、スケーラブルシステムの3分野の研究者と専門家で構成されていると語りました。人間の関与は主にプロセスの最初でガイドやプロンプトを与えること、そして最後にツールの発見を検証することであり、これはAIバグバウンティレポートに対するHackerOneの要件でもあると説明しています。
「XBOWは完全自律型のシステムですが、どこに向けるかは決める必要があります。ですので、最初にURLを与えたり、場合によっては認証情報などの追加情報を与えることもあります……最初だけです」とde Moorは述べました。「そこからターゲットを選択し、必要ならオプションの設定を与えるだけです。あとは自動で動き出し、複数のエクスプロイトを報告します。」
HackerOneは、バグハンターのパフォーマンスを、脆弱性開示プログラムかバグバウンティプログラムか、発見・検証したバグの数など、さまざまな方法で追跡しています。リーダーボードでは、解決したバグの量と複雑さに基づく「レピュテーションポイント」も付与され、各バグには深刻度と影響範囲を示す「インパクトスコア」(1~50)が割り当てられます。
HackerOneの共同創業者でプロダクトマネジメント上級ディレクターのMichiel Prinsは、CyberScoopに対し、多くの小さなバグを解決して生計を立てるハッカーやバグハンターもいれば、より少数だが重大な欠陥に集中し、高額の報酬やレピュテーションを得る人もいると語りました。XBOWの成果は今のところ前者のグループに似ており、多数のバグを解決しているものの、レピュテーションスコアは約17と、低~中程度の深刻度の問題に焦点を当てていることを示しています。
XBOWのようなツールについて一般的に述べて、Prinsは「我々が見ているのは、量では優れている……[しかし]ビジネスインパクトではまだ優れていない」と語りました。
「これはワークフローであり、そのワークフローに抜け穴があるため、攻撃者が意図しないことを達成できてしまう」と彼は続けました。「それをAIが見つけるのは非常に難しい。なぜならAIはアプリケーションの意図や、ビジネスコンテキスト、その周囲の環境を本当に理解する必要があるからです。」
この意見は他のサイバーセキュリティ実務者も共有しています。Walmart、Electronic Arts、連邦政府でサイバーセキュリティに携わったAmélie Koranは、このツールの実績は、より難しいサイバーセキュリティ問題を解決するために人間を置き換えられることを示唆していないと述べました。
「HackerOneの彼らのプロフィールを見ると、バッジは自動化で見つけやすい基本的なものばかりです。データ漏洩、XML露出、クロスサイトスクリプティング、コマンドインジェクション、アクセス制御など」と彼女はCyberScoopに語りました。「これらが初歩的な発見だとまでは言いませんが、すべてがより『表面的な素材』であり、より深いキャンペーンとは対照的です。」
一方で、de Moorはこの評価に同意せず、今後数週間以内にXBOWが発見したより高難度のバグの例を公開する予定だと述べています。
XBOWが米国HackerOneリーダーボードのトップにいる一方で、複数の関係者は、企業によって管理されているツールの成果と、個人バグハンターの成果を比較すること自体に疑問を呈しました。HackerOne自身もこの問題に直面しており、最近リーダーボードを改訂し、個人とXBOWのような企業を分けてバウンティランキングを表示するようにしました。
「XBOWは企業であり、背後には複数の人が働いています」とPrinsはその決定を説明します。「会社にはベンチャー資金もあり、AIも関与しています——これはユニークではなく、多くのハッカーがAIをツールキットに持っています——しかし、企業であり、個人ではありません。」
現時点でXBOWは赤字で運用されています。多くのプロジェクトや報酬がまだ進行中ですが、de Moorによれば、これまでバグハンティングで得た収益は、ツールの運用コスト(「かなり計算資源を要し、安くはない」)を下回っています。
このため、プログラムには特定タスクの「時間予算」が与えられており、100回以上試行しても解決できない場合は、エンジニアによるモデルの調整——de Moorが「AIマジック」と呼ぶもの——が必要なサインとなります。他の人々と同様、データセンターインフラの進化により、XBOWのようなAIツールがより安価かつ実用的になることで、この状況は変わるだろうと考えています。
バグをつかみ取れ
では、XBOWはどうやってリーダーボードのトップに立ったのでしょうか?それは、LLM(大規模言語モデル)がサイバーセキュリティ特有の問題を解決する能力の向上に起因します。
ほとんどのサイバー専門家は「キャプチャ・ザ・フラッグ(CTF)」チャレンジに参加したことがあり、そこでは一連のセキュリティ関連パズルが与えられ、脆弱性を突いてデータを「キャプチャ」します。
XBOWはもともとCTFで訓練されており、de Moorや他の関係者は、LLM技術がこの種の課題を解決する能力で大きく進歩したとCyberScoopに語っています。彼は、1年前の最先端LLMプログラムは与えられたCTF課題の約16%しか解決できず、「しかも本当に単純なものだけ」だったと推定しています。
しかし、この1年で急速に状況は変わり、一部のAIサイバーセキュリティ専門家は、CTFのような課題がサイバーセキュリティモデルの基礎的な訓練に最適だと考えています。
攻撃的セキュリティ機械学習プラットフォーム「DreadNode」の最近の研究は、この進歩を示しています。この研究では、AnthropicのClaudeのような最先端LLMが、複雑なCTF課題を「驚くべき効率で——人間なら数時間から数日かかるものを数分で」解決できることが判明しました。
これらの課題で示された多くの能力は、AIレッドチーミングやペネトレーションテスト、バグバウンティハンティング、脆弱性管理、LLM駆動型のセキュリティ脅威のより効果的な監視など、サイバーセキュリティのさまざまな機能に応用できます。まだ支配的とは言えません——Claudeは70の課題のうち43しか解決できませんでした——が、成功率は着実に向上しており、これらのツールがさまざまなサイバーセキュリティタスクでより有用になっています。
DreadNode創業者のWill Pearceは、CyberScoopに対し、これらの発見は自動化やAIツールが多くのサイバーセキュリティ職や機能で一般的になりつつあり、「依然として人間が指揮するが、より抽象度の高いレベルで」プロセスが収束しつつあることを反映していると述べました。
「レッドチーミングでもバグハンティングでも、ネットワーク運用でも脆弱性発見でも……サイバーでやりたいことは、結局は望む結果に向かってゆっくり進んでいくものです」とPearceは語りました。
注目すべきは、テストされたすべてのモデルが、人間にとって最も時間のかかる2つの課題で失敗したことであり、セキュリティの一部側面には依然として人間の独創性が必要であることを示唆しています。
de Moorは、XBOWもCTF課題で訓練されており、同社が独自のスコアリングシステムを開発して、その全体プロセスをXBOWのより広範な脆弱性ハンティング業務に応用できるようにしたと述べています。
CTF課題は結果が二値的——フラグ付きデータを取得できるか否か——であるため、LLMがもたらす最大の問題の一つである「幻覚(ハルシネーション)」を減らすのに役立ちます。
しかし、それを完全に排除することはできません。de Moorによれば、XBOWの偽陽性率は現在、取り組む脆弱性の種類によって0~10%の間で変動していますが、HackerOneに報告されたすべてのバグは検証済みであると強調しています。
サイバーセキュリティの未来?
XBOWのようなツールは、サイバーセキュリティ業界にとって注目すべきマイルストーンであり、計算コストが下がれば、近い将来、実際のビジネストレードオフをもたらす実質的な能力を示しています。
しかし、ベテランのバグハンターたちは焦ったり、他分野への転身を急いだりはしていません。
別の大手バグバウンティプラットフォームBugCrowdの創業者でアドバイザーのCasey Ellisは、CyberScoopに対し、XBOWは主にウェブアプリケーションのペネトレーションテストツールとして設計されており、「設定したスコープ内で自律的に動作するワークフロー」であるようだと語りました。
「一般的に、彼(や他の半自律的ハッキングエージェント)が発見できる脆弱性の種類は、影響度にかなり幅がありますが、共通する特徴があります。それは、比較的テストが容易で、プログラム的に確認しやすいということです」とEllisは述べました。「AI駆動のハッキングツールは、指示が明確でフィードバックループがはっきりしている脆弱性に特に効果を発揮します。これはLLMが得意とする分野です。」
Ellisはこの種の作業の価値を軽視していません。彼は、インターネット上にはクロスサイトスクリプティング、サーバーサイドリクエストフォージェリ、露出したシークレット、その他プログラム的に予測可能なバグが溢れていると指摘します。これらのプログラムは、「24時間365日稼働でき、発見に最適化されたシステムが豊富なターゲット環境」に置かれると最大の効果を発揮します。
Ellisは、XBOWのようなシステムがバグバウンティの初期発見段階で人間バグハンターとの競争を激化させると考えており、10年前に登場した外部攻撃面管理プラットフォームが、攻撃面の監視自動化を容易にしたのと同じような現象だと比較しています。
しかし、彼はAIによるバグハンティングが近い将来人間を完全に置き換えるとは考えていません。バグバウンティ作業の発見段階は「難しい部分ではなく」、インターネットやソフトウェアには人間と機械の両方を忙しくさせるセキュリティ脆弱性が今後も残り続けるだろうと指摘します。
「まだまだ発見されていない脆弱性が山ほどあり、新しい脆弱性も日々生まれています」と彼は言います。「バウンティハンターやリサーチャーの役割は、これらのシステムが得意なこと、不得意なこと、そして人間と機械をどう補完し合えるかを学び、理解することです。」
翻訳元: https://cyberscoop.com/is-xbows-success-the-beginning-of-the-end-of-human-led-bug-hunting-not-yet/