英国政府、AIハッカソンで400件超の脆弱性を発見

英国政府は、最先端のAIモデルを活用した一連の内部ハッカソンを実施した結果、数百件にのぼる脆弱性を発見・修正しました。

毎週開催されたこの対面イベントは、国家サイバーセキュリティセンター（NCSC）と科学・イノベーション・技術省（DSIT）が主導する取り組みである政府サイバー調整センター（GC3）が主催しました。

目的は、9つの政府省庁にまたがる公開コードリポジトリをAIモデルでスキャンすることでした。

「単一のアプローチを強制するのではなく、各チームにモデルへのアクセス権を与え、独自のツールを構築させました。毎週の成果を観察しながら、最も効果的なアプローチを積み上げていきました」とGC3は述べています。

参加者は、認証バイパス、データ漏洩、リモートコード実行などの重大な欠陥を含む407件の問題を特定しました。その一部は既知のものであり補完的な制御措置によって緩和済みでしたが、6月21日に公開された報告書によると、未知のゼロデイ脆弱性も含まれていたとのことです。

悪用可能と評価された重大および高リスクの脆弱性はすべて修正済みであり、実際に悪用された痕跡は確認されていません。

「AIモデルは、従来のスキャナーでは不可能なサービス境界を越えた脆弱性の追跡や、ビジネスロジックと技術的な詳細の紐付けを実現しました。各省庁は既存のフレームワークを通じて検証と修正を優先的に進めました」と報告書は指摘しています。

各チームはそれぞれ異なるアプローチを採用しました。あるチームは、選定したすべてのオープンソースリポジトリとオペレーターにわたって「再利用可能で範囲が明確かつ一貫したアプローチ」を構築するため、5つのドメイン固有のClaudeスキルを新たに作成しました。

別のチームは、Gitleaks、Trivy、Semgrep、Hadolintといった従来のスキャンツールで初期的な検知を行い、その結果にAIモデルを適用しました。OWASPとCWEフレームワークへの照合、個々の問題点を攻撃経路へと統合、そしてトリアージ段階での実現可能性の確認なども実施しました。

さらに別のグループは、各ステージが前のステージの内容を読み取り検証する、6段階のエージェント型パイプラインを構築しました。

最先端モデルが示す高い性能

GC3は、このハッカソンの取り組みを通じていくつかの重要な教訓を得たと述べています。

最も優れた成果は、最先端モデルを「構造化されたパイプライン内の厳密にスコープされたコンポーネント」として活用することで得られた。従来の脆弱性管理ワークフローを、個別のタスク固有のハーネスに分解した点が鍵
適切なアーキテクチャとタスク設計があれば、多くの準最先端モデルおよび最先端モデルはコードスキャンにおいて同等に高い性能を発揮する。問題を分解し、より広いコンテキストを把握するためには、依然として人間の専門知識が不可欠
エージェントは人間が検証できる速度をはるかに超えて候補となる検知結果を生成するため、トリアージが不可欠。事前の慎重なスコープ設定と「体系的な内部フィルタリング」により、焦点が絞られコストも削減される。プロジェクト全体でかかったトークンコストはわずか£13,000（$17,467）
次の大きな課題は、「人間中心のプロセスを圧迫することなく」、優先順位付け・レビュー・パッチ生成を統合すること

ただし、AnthropicのMythosおよびFableモデルに対する米国政府の新たな輸出規制が、英国政府のハッカソンの取り組みに与える影響については、現時点では不明です。

金曜日の深夜に導入されたこの禁止措置により、同社の最も強力なモデルへのアクセスが米国以外のすべてのユーザーに対して遮断されました。