多くのセキュリティチームが経験するパターンがあります。
新しい自律型ペネトレーションテストツールを導入し、最初の実行結果に目を見張る思いをします。ダッシュボードには重大な発見が次々と表示され、これまで誰も文書化していなかった横断的移動のパスがマッピングされ、何年も放置されていたレガシーのサービスアカウントが露呈します。
素晴らしい成果です。レッドチームは強力な武器を手に入れたと感じ、CISOは検証における「人的要素」がついて自動化されたと手応えを覚えます。
ところが、4〜5回目の実行あたりから、新たな発見が出なくなります。
ツールは同じ古い問題を報告し続け、ダッシュボードはアラートの喧騒に加わるノイズ源へと変わっていきます。継続的な検証機能のように見えたものが、いつの間にか同じ数種類のよく踏まれたパスを定期的に再実行するだけの存在になってしまいます。
これはチューニングの問題でも、単なる逸話でもありません。「検証ギャップ」——組織が実際に検証している内容と、検証済みとして報告している内容の間に広がる乖離——の繰り返し立証です。自律型ペネトレーションテストがニッチな機能から多くのチームのセキュリティ予算における定番項目へと移行するにつれて、このギャップはますます無視しがたくなっています。このツールを完全な検証戦略として扱うことは、リスクの高い賭けになりつつあります。
6つのサーフェスとカバレッジの限界
マーケティング資料は「包括的な」カバレッジを約束しがちですが、自律型ペネトレーションテストの実態を詳しく見ると、話は異なります。
攻撃サーフェスの6つの層
現代の攻撃サーフェスは6つの層に分解できますが、自律型ペネトレーションテストツールを単独で使用した場合、そのいずれも完全には検証できません。
- ネットワークおよびエンドポイント制御(部分的)。ファイアウォール、WAF、IPS、DLP、EDRが設定どおりにブロックできているかどうかを調べます。「設定済み」と「有効」は同じではないからです。
- 検知と対応(未対応)。SIEMルールとEDRロジックが適切に発動するかをテストします。自律型ペネトレーションテストは攻撃者として実行されるため、防御側を観察できません。検知は前提とされているだけで、実測されていないのです。
- インフラストラクチャとアプリケーションのパス(部分的)。インフラカバレッジは初回実行では十分ですが、アプリケーション層のチェーンはPoCの崖(後述)に達すると未解決のままになりがちです。
- IDと特権(部分的)。IAM、Active Directory、特権境界は、攻撃パスが通過する場合にのみテストされ、体系的なテストは行われません。
- クラウドとコンテナ(部分的)。クラウドおよびKubernetesのセキュリティ態勢は、初期設定時に安全と判断されたまま、構成がドリフトしても再検証されないことがほとんどです。
- AIおよび新興技術(未対応)。社内LLMに対するジェイルブレイク、プロンプトインジェクション、敵対的操作への対策は、現状ではほぼ完全に検証されていません。
これらの層を横断する形で存在するのが、エクスポージャー検証と優先順位付けのインテリジェンス層です。
理論上のCVEをライブの制御パフォーマンスと照合することで、「高または重大」と判定された60%以上の脆弱性を、実際に悪用可能な約10%まで絞り込めます。これにより、誤った緊急性を80%以上削減できます。
ただし、これが機能するのは、基盤となる検証が6つのサーフェスすべてに届いている場合のみです。そうでなければ、優先順位付けエンジンはノイズを並び替えているだけに過ぎません。
PoCの崖:運用上の問題ではなく、構造的な天井
実務家たちはこの逓減するパターンを「PoCの崖(proof-of-concept cliff)」と呼び始めています。自律型ペネトレーションテストツールが、連鎖できる攻撃パスの固定スコープを使い果たしたときに生じる、新規発見数の急激な落ち込みです。
設計上、これは自律型ペネトレーションテストが得意とするところです。まだ探索されていない領域が豊富な初回実行で最も高い成果を上げます。しかし数サイクルを経ると、ツールのスコープ内で悪用可能なパスはパッチ適用またはブロックされ、新たな発見がなくなります。これは環境が安全になったことを意味するのではありません。ツールが見渡せる範囲の端に達しただけです。
理由はアーキテクチャにあります。
自律型ペネトレーションテストはステップをチェーン状に連結します。ステップBはステップAに依存し、ステップCはステップBに依存します。防御側がツールが好むパスをパッチで塞ぐと、チェーンが断ち切られます。カタログに20種類の横断的移動テクニックがあっても、ステップAで止まってしまえば、残りの19種類は実行されません。チームは「任務完了」という誤った安心感を抱いたまま、攻撃サーフェスの大部分が未探索のまま残ります。
自律型ペネトレーションテストは方向性を持って実行される
侵害・攻撃シミュレーション(BAS)は、まったく異なる原則で動作します。
BASはチェーンを使いません。何千もの独立したアトミックなシミュレーションを実行し、それぞれが独自のクリーンな実行コンテキストを持ちます。DNS経由のデータ持ち出しテストがブロックされても、HTTPS経由の次のテストは妨げられません。横断的移動テクニックの1つが失敗しても、残りの19種類の実行は止まりません。
一方のアプローチはパスをテストし、もう一方はシールドをテストします。
BASと自律型ペネトレーションテストは補完的であり、互換的ではない
市場での混乱が広がっているのは、自律型ペネトレーションテストがBASを単純に置き換えられるという考え方です。
表面的には統合の提案は合理的に聞こえます。しかし実際には、この2つの技術は根本的に異なる問いに答えるものであり、一方を他方に置き換えることは、単純化という名目で包まれたカバレッジの後退です。
BASが問うのは:私のファイアウォール、EDR、WAF、SIEM、DLPは、MITRE ATT&CKフレームワーク全体にわたって機能しているか?ここでの評価単位は、既知の攻撃者行動に対する防御制御の有効性です。各テストは独立して成立します。
自律型ペネトレーションテストが問うのは:攻撃者は既知のエクスプロイトを使ってAからBへ到達できるか?ここでの評価単位は、エンドツーエンドで連鎖した特定の攻撃パスの成否です。Active DirectoryにおけるKerberoastingや、ドメイン管理者アカウントへの特権昇格といったシナリオを露呈させることに優れています。
攻撃チェーンのシナリオ:Pass-the-hashによるドメイン管理者への到達
繰り返しになりますが、これらのツールは補完的なものであり、代替可能なものではありません。
- 一方は個々の防御がどれだけ強固かを教えてくれます。
- もう一方は、防御をかいくぐって攻撃者がどこまで侵入できるかを教えてくれます。
BASを自律型ペネトレーションテストに置き換えると、予防と検知のカバレッジ検証が完全に失われます。特定のエクスプロイトがデータベースに到達できないことは分かっても、EDRが同じ資産を狙った非エクスプロイト型の異なるテクニックを検知できるかどうかは把握できなくなります。
市場の動向もこれを反映しています。
Gartnerは最近、BAS、自動化ペネトレーションテスト、レッドチーミングを「Adversarial Exposure Validation(AEV)」という単一カテゴリに統合しました。2025年3月発行のAEVマーケットガイドでは、2027年までに組織の40%が正式なエクスポージャー検証の取り組みを採用すると予測されています。
このカテゴリ統合の目的は、一方の能力が他方を置き換えるということではありませんでした。むしろその逆です。これらは異なる技術であり、共通のフレームワークの下で連携して機能する必要があります。互換的なものとして扱うことは、市場とツールのアーキテクチャの両方を誤読することになります。
ベンダーとの会話で使うべき3つの質問
検証ギャップを埋めるには、マーケティング基準ではなく構造的な基準でツールを評価することから始まります。
ノイズを切り抜けるための3つの診断的な質問があります。いずれも具体的で証拠に基づいており、派手なスライドでは答えにくいため有効です。
1. あなたのツールは6つの検証サーフェスのうちどれをカバーし、各サーフェスでのスコープはどのくらいですか?6つの層すべてにカバレッジをマッピングできないベンダーは、自社製品のブラインドスポットがどこにあるかを図らずも示しています。
2. あなたのプラットフォームは、私のライブのセキュリティ制御パフォーマンスデータを使って、実際に悪用可能な脆弱性と理論上の脆弱性をどのように区別しますか?静的なCVSSスコアは答えになりません。問うべきは、ツールが脆弱性データと実際の制御の挙動を相関させられるかどうかです。
3. あなたのプラットフォームは、他のツールからの発見を単一の重複排除・優先順位付きのビューとアクションリストに統合できますか?すでに飽和したダッシュボードにさらに一つ追加するだけの検証では、助けにはなりません。オーバーヘッドを増やすだけです。
「意図的にこのサーフェスを検証しないと選択した」と「検証されていないことに気づかなかった」の違いは、意図的なリスク管理とサイレントなエクスポージャーの違いです。
この3つの質問に具体的に答えられるツールは、真剣な評価に値します。答えられないツールは、自ら失格の証明をしたことになります。
まとめ
攻撃サーフェスは、どのベンダーのロゴがどのツールに付いているかを気にしません。
テストされているかどうかだけを問います。現在の自動ペネトレーションテストの運用が重要なサーフェスを暗闇に放置しているなら、戦略を見直す時です。
最新の実務者向けガイド、「The Validation Gap: What Automated Pentesting Alone Cannot See」では、自社のカバレッジを監査し、どこでプラトーに達しているかを診断し、実際に機能する統合検証アーキテクチャを構築するための完全なフレームワークを提供しています。
まず6つのサーフェスから始め、自社のカバレッジを採点してください。ツールがどこで止まっているかを知ることが、次に何をすべきかを判断する出発点になります。
翻訳元: https://www.helpnetsecurity.com/2026/06/02/picus-security-autonomous-pentesting-validation-gaps/
