防御側がAnthropicのMythosやOpenAIのDaybreakなど、より強力なサイバーセキュリティ機能を備えた新しいAIモデルを手にする中、企業は脆弱性報告の大量流入に備えるよう指示されています。
しかし全国のバグバウンティプログラムにとって、その日はすでに到来しているかもしれません。昨日の最先端モデルと今日のオープンソースAIツールが、企業の製品やオンラインの大規模バウンティプラットフォームに流れ込むバグ報告の量を劇的に増加させているためです。
世界最大級のオンラインコードリポジトリの1つであるGitHubは、過去1年間にAI支援による提出物が大幅に増加した後、「完全な」バグ報告の定義を厳しくしていると述べています。
流入の増加には若干の利点もありますが、多くの報告は概念実証がなく、現実的でない攻撃シナリオに依存しているか、既に対象外として記載されている問題を扱っています。その結果、同社は信号をノイズから分離することが困難になっています。
「これはGitHubに限った話ではありません」とGitHubのシニアプロダクトセキュリティエンジニアであるJarom Brownは述べています。「業界全体のプログラムが同じ課題に取り組んでおり、中には完全にシャットダウンしたものもあります。」
BrownはGitHubがAI生成報告の使用を完全に禁止したくないと述べており、それを正しい文脈では「セキュリティの力の増幅」と呼んでいます。しかし、AIを使用して理論的なバグを生成することがかつてないほど簡単になった世界では、同社は研究者が発見が実際の現実世界の条件で実際に悪用される可能性があることを確認するために追加の努力をすることを望んでいます。
「必要なのは、常に期待してきたのと同じ標準です:検証です」とBrownは述べています。「検証、再現、および動作する概念実証を伴って提出されたAI支援の発見は素晴らしい提出です。再現や実証された影響なしに提出されたそのままの未検証の出力ではありません。」
CloudflareのチーフセキュリティオフィサーであるGrant Bourzikasは、バグを分類して実際に悪用できることを証明することは常に脆弱性研究の最も難しい部分の1つであり、AIの脆弱性スキャナとコードがそれを「さらに悪化させた」と述べています。
たとえば、CおよびC++プログラミング言語で書かれたコードは、バッファオーバーフローやアウトオブバウンド読み取り/書き込みなど、Rustのようなメモリセーフな言語には存在しないエクスプロイトの範囲に対して脆弱です。メモリセーフでないプログラミング言語で書かれたソフトウェアをスキャンするAIツールは、誤検知を生成する可能性がはるかに高くなります。
しかし、最大の欠陥の1つは、AIツールがユーザーが求めているものを提供するように設計されているということです。それが存在しないことさえあります。これにより、悪用可能性に関する推測と修飾子で満たされたバグ報告が生成され、人間のフォローアップが必要になります。
「それは探索的ツールとしては合理的なバイアスです」とBourzikas書きました。「トリアージキューでは破壊的です。ここでは、すべての推測的な発見が人間の注意とトークンを費やしてそれを否定する必要があり、そのコストは数千の発見全体で複合します。」
Cloudflareは最近、独自のコードリポジトリ50個に対してMythosをテストした結果を共有し、エクスプロイトを探していました。Bourzikasは、Mythosを他のフロンティアモデルとは「異なる種類の仕事をしている異なる種類のツール」と呼び、誤検知を大幅に削減する点で進歩を遂げたと述べています。
たとえば、他のモデルと比較して目立った2つのMythos機能を指摘しました:エクスプロイトを連鎖させることと、悪用可能性を確認するために独自の概念実証コードを生成することです。
古いモデルは同じバグの多くを発見できましたが、それらを効果的に悪用する方法、または問題が現実世界の条件で悪用される可能性があることを示すことはできないことがよくありました。
新しいフロンティアAIモデルと古いモデル、または今日利用可能なオープンソースモデル間のバグ捜査能力のギャップは、宣伝されているほど大きくないと主張する人もいます。
スウェーデンのソフトウェア開発者でオープンソースファイル転送ツールであるcurlのリード開発者であるDaniel Stenbergは、最近Mythos Previewとの経験について書きました。他の多くの人と同様に、彼も過去1年間にAIに支援されたバグ報告の量が増加しましたが、3月以来モデルの改善に伴い、低品質な報告の流れが大幅に減速したと述べています。
Curlはほとんどのソフトウェアの標準によって成熟した洗練されたものです:Stenbergは各行のコードが少なくとも4回は書き直されたか変更されていると推定しており、彼はCurlの存在全体にわたって数百のバグ修正を実装するために過去に人間とAIツールの両方を使用していると述べています。
これにより、Mythosの拡張機能をテストするための独特なテストグラウンドになります。Mythosは脆弱性を見つけることがあまりにも強力であるため、Anthropicは一般大衆にそれをリリースしないことを選択しました。
Mythosへのアクセスを得た後、Stenbergは178,000行のcurlコードのスキャン結果を受け取りました。最終的に、スキャンは5つの「確認された」脆弱性にフラグを付けました。人間の研究者によるさらなる調査により、4つのバグは誤検知であるか、セキュリティへの影響がないことが判明しました。Mythosが見つけた残りの1つのバグは?6月の定期更新で修正される低い重大度の欠陥。
サイバーセキュリティへのAIの影響を一般的に称賛しながらも、Stenbergは、すべての誇大広告にもかかわらず、Mythosは以前のリリースされたモデルより「わずかに優れている」だけであると結論付けました。
「しかし、私の個人的な結論は、これまでのこのモデルについての大きな誇大広告は主にマーケティングであったことから外すことはできません」と彼は書きました。「このセットアップがMythos前の他のツールが行ったよりもはるかに高いまたはより高度な程度で問題を見つけるという証拠は見当たりません。」
翻訳元: https://cyberscoop.com/ai-vulnerability-reporting-bug-bounty-noise/