
出典:besjunior via AdobeStock
質問:AIのトレーニングは遅すぎないか?
GreyNoiseのインテリジェンス責任者、Nishawn Smagh:人工知能は現代のセキュリティ運用の中核です。検知モデルは通常、ラベル付きの侵害ログ、マルウェアサンプル、脅威フィード、事後調査など、検証済みの事実を提供し、信頼できる分類を可能にするソースを使用して訓練されます。
しかし、これらのソースは決定的な構造的制限を共有しています:悪意のある活動が既に確認された後にのみ、攻撃者の行動を反映しています。
中心的な問題は、AIを影響か意図かを認識するようにトレーニングしているかどうかということになります。その答えについては、悪意のあるスキャン活動に関連するIPパターンを見てみましょう。
新しいインフラストラクチャの問題
インターネット規模のテレメトリは、高い影響力を持つ悪用が、悪意のある履歴がほとんどないか全くないインフラストラクチャから頻繁に発生することを示しています。GreyNoise の 2026 State of the Edge レポートによると:
-
リモートコード実行(RCE)の悪用トラフィックの52%は、一般的な脅威フィードに掲載されていないIPから発信されました。
-
認証バイパス試行の38%は、以前に見たことのないIPを含んでいました。
-
基本的なリコネッサンス(例:情報開示)の場合、スキャン履歴のないIPの数は29%まで低下します。
注目すべきパターンが浮かび上がります:活動が深刻であるほど、新しいインフラストラクチャを含む可能性が高くなります。攻撃者は評判システムの制限を理解しているようであり、再利用可能なIP履歴を残さないために、新しいクラウドインスタンス、短命なVPS環境、および住宅用プロキシネットワークを増やしてデプロイしています。
評判ベースのアプローチは依然として有価値ですが、本質的に過去をさかのぼっています。AIモデルが履歴指標と侵害後の成果物に大きなウェイトを付ける場合、同じラグを引き継ぐリスクがあります。インフラストラクチャの新規性、特に高い影響力を持つ行動と組み合わされた場合、それ自体が意味のあるリスク信号になりつつあります。
攻撃者の行動が最初に現れることが多い
タイミングギャップは、ほとんどの防御ワークフローが想定するよりも早く始まる可能性があります。GreyNoiseは2024年9月から始まるエッジ関連の活動を分析し、厳密な異常閾値を適用した後、216の統計的に有意なスパイクイベントを特定しました。その後、同じテクノロジーに影響する一般的な脆弱性公開(CVE)の開示と比較した場合:
-
スパイクの50%は、3週間以内に新しいCVE開示が続きました。
-
80%は6週間以内に新しい開示が続きました。
このパターンは、8つのエンタープライズ向けエッジ対面システム(VPN、ルーター、ファイアウォール、インターネット対面の管理システムなど)にまたがっていました。相関は因果関係を証明しませんが、繰り返される時間的関係は、攻撃者の意図が正式な脆弱性の開示の前に表面化できることを示唆しています。
ほとんどのスパイク活動は、以前に知られている脆弱性に対する悪用の試みを含んでいました。これは、攻撃者が露出したシステムをインベントリすることや、協調的なキャンペーンの前に悪用パスをテストすることと一致しています。
なぜエッジが重要なのか
エッジ向けシステムはますます戦略的なアクセスポイントになりつつあり、大規模言語モデル(LLM)推論サーバーはこの問題の特に深刻なバージョンを表しています。侵害された推論エンドポイントは単なる足がかりではありません。攻撃者がモデルの出力を操作し、トレーニングデータを流出させ、またはそれをクエリする内部システムにピボットできる位置です。
推論ポートをターゲットとするリコネッサンスは既に進行中です。防御者が侵害後の成果物のみを使用してAIインフラストラクチャを保護するためのAIをトレーニングしている場合、企業内で最も新しい攻撃面が最も古い検知ロジックで防御されています。
エッジシステムは、侵害前のテレメトリ、リコネッサンス、認証プローブ、およびインフラストラクチャローテーションパターンのちょうどこの種類をキャプチャしており、侵害が確認される前に攻撃者の協調を反映しています。
CrowdStrikeの2026グローバル脅威レポートは、攻撃者がエッジデバイスに置く強調を強化し、国家支援を受けた組織とランサムウェアオペレータがネットワーク周辺デバイスを戦略的なエントリーポイントとしてターゲットにしたことを指摘しています。中国関連の行為者は、即座にアクセスを提供しながら防御者の可視性を制限するため、エッジ悪用を好みます
これは構造的な非対称性を作成します。攻撃者は可視性が制限されているため、正確にエッジを悪用します。しかし防御者は、エッジアクセスが成功した後でのみ表示される成果物についてAIをトレーニングすることが多いです。周辺部では、彼らは探査、悪用の試み、インフラストラクチャのローテーションを見ています。これらは確認された侵害にマップされない可能性のあるシグナルですが、頻繁にそれに先行します。
216のスパイクイベントを検出するには、インターネット規模のベースラインが必要でした。単一の企業は自身のシステムに対する悪用の試みを観察する可能性がありますが、それらがバックグラウンドノイズを表しているか、協調的なグローバル偏差を表しているかを簡単に判断することはできません。可視性ギャップはトレーニングギャップになります。
AI戦略への影響
事後の成果物は依然として不可欠です。信頼できるラベルを提供し、教師あり検知システムのアンカーとして機能します。しかし、トレーニングデータセットが確認された侵害と開示後の悪用を強調しながら、悪用前の行動テレメトリを除外する場合、モデルは反応的なシグナルに偏ります。
調査結果は、2つの測定可能な機会を指しています:
-
インフラストラクチャの新規性とより高い影響力を持つ悪用との間の意味のある関連性。
-
行動スパイクとエッジテクノロジーにおける後続のCVE開示との間の繰り返される関係。
より早いシグナルが存在し、それらは測定可能です。最初に見たIPタイミング、異常検知出力、インフラストラクチャチャーンレート、開示前のスパイク動作などの機能をAIパイプラインに組み込むことで、検知を攻撃者の成功ではなく攻撃者のリコネッサンスに近づけることができます。
トレーニングウィンドウをシフトする
攻撃ライフサイクルの早い段階でのトレーニングは、検証済みの影響データを放棄することを意味しません。シグナルセットを拡張することを意味しています。
インフラストラクチャローテーションが加速し、エッジシステムが高い価値を持つターゲットのままであるため、防御的な利点は、AIが確認された侵害成果物とインターネット規模の悪用前テレメトリの両方をどの程度効果的に統合するかにますます依存するようになります。そのタイミングギャップを閉じる組織は、侵害に反応することから、侵害が発生する前に協調的な行動を認識することへ移行します。
翻訳元: https://www.darkreading.com/cybersecurity-analytics/are-we-training-ai-too-late