AI駆動型の脅威ハンティングは、データプラットフォームとパイプラインの質に左右される

現代の脅威ハンティングのためのデータ中心の基盤

サイバーセキュリティの分野では、AIが脅威ハンティングの未来だと言われています。しかし、実際にはほとんどのAIは片手を縛られた状態で動作しています。研究者たちは、AIモデルはそのデータパイプラインの質に依存すると主張しています。この原則は学術的な機械学習に限った話ではありません。サイバーセキュリティにも同様に強く当てはまります。AIや自動化、人による調査によって強化された脅威ハンティングも、その基盤となるデータインフラストラクチャの質以上に効果的になることはありません。

多くの場合、セキュリティチームは既存のデータレイク上にAIを構築したり、新しい検知モデルのチューニングに注力したりしますが、より根本的な問題、つまりデータそのものには手を付けていません。テレメトリがエンドポイント、クラウド、アイデンティティ、SaaS、コードリポジトリなど、分断されたシステムに分散されていると、アナリストは断片から文脈をつなぎ合わせるしかありません。すべてのデータを適切な変換なしに同じプラットフォームに投入すると、人間にもAIにも過剰な負担となります。どんなに高度なアルゴリズムでも、不完全または一貫性のないデータを克服することはできません。質の悪い入力で学習・動作するAIは、必ず質の悪い結論を導きます。人間主導でAIが補助する脅威ハンティングも例外ではありません。

統合データの重要性

統合され、相関付けられたデータプラットフォームは状況を一変させます。すべてのデータを一箇所に集約することでノイズが減り、個別のシステムでは見えなかったパターンを発見できるようになります。事前に変換・相関された情報は、大規模言語モデルや他のAIツールでも活用しやすくなります。構造や文脈を理解しようと計算リソースやトークンを浪費するのではなく(文脈が間違っていたり大きすぎたりすると結果が悪くなりがちです)、AIは実際の行動の理解に集中できるようになります。

統合データは、連携したアイデンティティの自然な把握も可能にします。1人のユーザーがAWSではIAMプリンシパル、GitHubではコミッター、Google Workspaceではドキュメント所有者として全く異なる名前で現れることもあります。どれか1つのシグナルだけを見ても、真実の一部しか分かりません。複数をまとめて見ることで、行動の全体像が明確になります。Google Workspaceから数十個のファイルをダウンロードする行為は単独では怪しく見えるかもしれませんが、同じアイデンティティがその直後にパブリックS3バケットを作成し、個人のノートPCに多数のリポジトリをクローンしていたら、その活動は明らかに悪意のあるものとなります。

相関による脅威ハンティング

ログ、設定、コードリポジトリ、アイデンティティシステムのデータがすべて一箇所に集まると、従来は何時間もかかった、あるいは不可能だった相関が即座に可能になります。例えば、盗まれた短命な認証情報に依存するラテラルムーブメントは、検知までに複数のシステムを横断することがよくあります。侵害された開発者のノートPCは複数のIAMロールを引き受け、新しいインスタンスを立ち上げ、内部データベースにアクセスするかもしれません。エンドポイントのログはローカルの侵害を示しますが、IAMやネットワークデータがなければ侵害範囲を証明することはできません。

同様に、侵害されたGitHub Actionトークンを使ってクラウド上にシャドウ管理者アカウントを作成する攻撃者も、CI/CDログと設定・アイデンティティ変更を結びつけなければ見逃されてしまいます。また、過剰なOAuthスコープを持つサードパーティアプリが、侵害されたユーザーアカウントを通じてデータを流出させる場合も、統合されたSaaSアクセスログとOAuth同意履歴だけが真の経路を明らかにできます。

これらは抽象的な仮定ではありません。Salesloft/Driftの侵害事件では、攻撃者は最初に侵害されたGitHubアカウントからアクセスし、その後DriftのAWS環境でOAuthトークンを取得し、それを使って信頼されたDriftとSalesforceの連携を通じて数百の顧客環境にアクセスしました。各プラットフォームのログは個別には正常に見えたかもしれませんが、フォレンジックチームがGitHub、アイデンティティ、クラウド環境の活動を相関させて初めて全体像が明らかになりました。

忠実性と決定論

データパイプラインの質は、脅威ハンティングの忠実性を直接左右します。適切に構築されたデータパイプラインは、重複を減らしコストを抑えつつ、忠実性を損なうことがありません。AI駆動のシステムは、その忠実性に依存して確率的な推測ではなく決定論的な答えを出します。データ品質の向上は、どんなアーキテクチャの工夫よりもAIの性能に大きな影響を与えます。これは検知や対応にも同じことが言えます。

脅威ハンティングの本質は、正確な問いを立て、信頼できる答えを得ることです。接続された高忠実度のデータ基盤がなければ、すべてのクエリは不完全になります。現代のセキュリティアーキテクチャは、量よりも明確さを優先し、人間も機械も単一で正確な真実の情報源から運用できるようにしなければなりません。

戦略的ストレージとAI対応

脅威ハンティングプラットフォームは、どのデータをホットストレージとコールドストレージに保存するかについても戦略的であるべきです。すべてのログ、トレース、イベントが即座に検索可能である必要はありません。重要なのは、アイデンティティ変更、クラウド設定、ソース管理の高価値テレメトリがすぐにアクセスできることです。一方、過去のデータやシグナルの弱いデータは、より深いフォレンジック用途のために階層化して保存できます。ストレージ戦略が賢ければ賢いほど、アナリストやモデルは無駄なノイズに計算リソースやコストを浪費せず、迅速に対応できます。

データがすべて一箇所に集まっていれば、LLMの活用にも自然と対応しやすくなります。堅牢なデータパイプラインは、効果的なコンテキストエンジニアリングの一形態です。Anthropicのエンジニアたちが示したように、最良のAI成果は、適切なデータを適切なタイミングで、適切な文脈で、しかし過剰ではなく提供するプラットフォームから生まれます。モデルに構造化され関連性の高い情報セットを与えることで、問題解決に集中でき、不要な詳細に埋もれたり重要な事実が不足したりすることがなくなります。これは人間にも同じことが言えます。どんな優秀なアナリストでも、ノイズに圧倒されたり文脈が不足したりすれば効果を失います。データパイプラインが文脈の精度を意識して設計されていれば、AIによる脅威ハンティングは真にスケールします。

インサイトを優位性に変える

攻撃者の動きがかつてないほど速くなっている今、勝つ組織はリアルタイムで自社環境全体を見渡せるところです。AI対応の脅威ハンティング用データプラットフォームの構築は、単なる検知速度の問題ではありません。不確実性を理解に変えることが目的です。統合データは統合された視界を意味し、統合された視界こそが能動的防御の基盤です。データエンジンが忠実性・スケール・AI対応に最適化されていれば、脅威ハンティングはより鋭く、速く、正確になります。

翻訳元: https://www.cybersecuritydive.com/spons/your-ai-driven-threat-hunting-is-only-as-good-as-your-data-platform-and-pip/804789/

ソース: cybersecuritydive.com