企業は製品へのAI搭載を続けているが、そのセキュリティのツケが回ってきた

企業はAIやLLM機能を製品に組み込み続けており、そのセキュリティ面での影響がパターンとして見え始めています。こうした機能が生み出す脆弱性は、他のあらゆる種類と比べてはるかに高い頻度で高リスクと評価されており、修正にかかる時間も最も長くなっています。この数字はCobaltのAI and Pentesting Pulse Report 2026から引用したもので、5年分のペネトレーションテストデータと455人のセキュリティリーダー・実務者へのアンケートをもとに作成されています。

Image

平均の2.7倍を維持するリスク率

AIアプリケーションは、旧来の問題の上に新たな弱点を積み重ねます。従来のソフトウェアが持つすべての欠陥を引き継ぎながら、まったく新しいリスクセットを加えるのです。LLMを組み込んだWebアプリケーションは、依然としてSQLインジェクション、クロスサイトスクリプティング、不適切な認証といった攻撃にさらされます。そこにさらに、プロンプトインジェクション、安全でない出力処理、モデルレベルのサービス拒否攻撃という新たな脅威が加わっています。

Cobaltのデータセット全体では、AIおよびLLMのペネトレーションテストにおける高リスク率は、他のあらゆるシステムの2.7倍に達します。この差は2年連続で変わっていません。AIに関する検出結果のうち約3分の1が高リスクのラベルを受けており、他のシステムではその割合が約8分の1にとどまっています。

深刻な検出結果の3分の2が未解決のまま

問題を発見することは比較的容易なことがわかっています。修正こそが、AIが他のあらゆる分野に後れを取っている部分です。AIおよびLLMのペネトレーションテストは、Cobaltが追跡するなかで最も低い解決率を示しており、2026年は38.4%となっています。深刻な検出結果の3分の2が未解決のまま、悪用可能な状態で残っています。

この率は1年間でほぼ倍増し、あらゆるアセットクラスのなかで最大の上昇幅となりました。最下位からの前進という意味では評価できます。しかし次のカテゴリーとの差は依然として二桁に及び、深刻な検出結果の多くが解決されるAPIやWebテストと比べると、大きく見劣りします。

解決率を下げている要因は3つあります。セキュリティとAIシステムの両方を理解するスタッフが圧倒的に不足していること、欠陥がモデル自体にある場合はモデルベンダーを通じた修正が必要になること、そしてAIプロジェクトの多くが新しく、セキュリティプロセスが成熟していないことです。検出結果1件を解決するまでの中央値時間もほぼ倍増しており、チームがより深い調査を要する難しいケースに取り組んでいることを示しています。

インシデントリストのトップを占めるシャドーAI

AIセキュリティインシデントの最も一般的な原因は、企業自身の従業員にあります。誰も承認していないAIツールを従業員が使用し、機密データが外部に流出するのです。シャドーAIは確認済みインシデントの44%を占めており、データポイズニング、出力処理の失敗、サプライチェーン問題、プロンプトインジェクションを上回っています。AIに関連するインシデントを確認できた組織は約5社に1社であり、判断できないという組織も多く存在していました。

Cobaltでオフェンシブセキュリティリサーチ&コミュニティのディレクターを務めるJoe Brinkley氏は、企業の資産追跡ツールはこうした活動をまったく把握できないと述べています。

「従来のアセットインベントリは、シャドーAIに対して完全に無効です。なぜなら、管理対象サーバーや割り当て済みIPアドレスなど、企業インフラの特定を目的として設計されているからです」とBrinkley氏はHelp Net Securityに語っています。「シャドーAIはアプリケーション層でほぼすべての活動を行うため、こうした境界を完全に回避してしまいます。通常は、開発者がブラウザ拡張機能に独自データを入力したり、スクリプトが標準的な暗号化されたHTTPS通信でサードパーティのLLM APIと通信したりすることで環境に入り込みます。従来のネットワークスキャナーから見れば、これらはすべて通常のWebブラウジングと見分けがつきません。」

解決策は、データ、トラフィック、エンドポイントを監視することだとBrinkley氏は述べています。

「成熟したプログラムを持つ組織は、インフラからデータの挙動とテレメトリーへと発見の焦点を移しています。AIエンドポイントと通信する未承認のAPIヘッダーを特定するためにレイヤー7のトラフィックを分析し、未審査のブラウザプラグインにフラグを立てるためにエンドポイントプロセスを監視し、新たに立ち上がったAIインフラへの外部接続のDNSログを確認しています」と同氏は語っています。

完全自動化から一歩引く企業たち

すべてのテストをAIに委ねるという熱意は急速に冷めています。1年前は約3分の1のチームが自動化ツールによる全テストカバレッジで満足していました。その割合は今や9%にまで低下しています。

原因はパフォーマンスにあります。多くのチームが、自動スキャナーが重大な脆弱性を見逃す場面を目の当たりにしています。78%が正確にそのような経験をしています。現在チームが好む体制は作業を分担するもので、自動化がリスクの低いシステムの定型的なカバレッジを担い、人間の専門家が最も重要なシステムを担当します。約半数がこの形を望んでいます。

プログラム的なLLMテストは1年間で減少し、事後対応型のテストがほぼ同程度増加しました。AIテストを始めたばかりの企業の多くは、安定したルーティンが確立されるまでは事後対応モードから入ります。

リーダーと実務者が語る、異なる組織の姿

セキュリティリーダーに会社がSLAの修正期限を守っているか聞けば、多くが「はい」と答えます。その作業を実際に担うエンジニアに同じ質問をすると、同意するのはほとんどいません。両者の見解には42ポイントの開きがあります。リーダーの半数以上がSLAの目標を継続的に達成していると報告しているのに対し、実務者でそう見ているのは約7人に1人にとどまります。また、回答者の大多数は、重大なAIインシデントが発生した場合、社内でセキュリティチームが責任を問われると考えています。

Brinkley氏は、この乖離はそれぞれの側が仕事をどのように測定しているかに起因すると述べています。

「リーダーのダッシュボードではコンプライアンススコアが順調と表示されていても、現場のエンジニアは、実世界では悪用できないかもしれない大量の低コンテキストアラートのバックログを抱えています」とBrinkley氏は言います。

「このギャップを解消することに成功した組織は、到達可能性と悪用の検証に焦点を当てるようガバナンスを変えました。理論的なリスクを排除し、検証済みの検出結果を開発者のワークフローに直接届けることで、両者がついに同じ現実的な指標を見るようになるため、認識のギャップが縮まるのです」と同氏は述べています。

Brinkley氏はその変化を成果の改善と結びつけました。

「データによると、組織が自動化ノイズの追跡をやめ、検証済みの悪用可能な欠陥に集中すれば、SLAを達成できる可能性が4.5倍高まります。エンジニアリングリソースが証明されたリスクのみに向けられるため、修正の速度が向上するのです」と同氏は述べています。

チームが求めるものと予算が向かう方向

チームは必要なものを挙げられます。しかし計画は控えめな方向を指しています。約6割がAIセキュリティのテスト方法の改善が必要と述べているものの、それを実現するために位置づけられているレッドチーム活動の拡大を計画しているのは半数に満たない状況です。自信も低下しており、前年の約3分の2から今や半数にまで落ちており、大多数が防御を強化するための計画的なリセットを望んでいます。

最高のプログラムとそれ以外の差は、運用上の選択に尽きます。トップパフォーマーは高リスクの検出結果の存続期間を約10日間に短縮しています。一方、低迷している組織は同等のリスクを平均249日間放置しています。Cobaltは、LLMペネトレーションテストを独自の専門分野として扱うこと、新しいツールの審査ゲートを設けてシャドーAIの発見プロセスを構築すること、そして重要なシステムとすべてのAIアプリケーションには人間主導のテストを活用することを推奨しています。

翻訳元: https://www.helpnetsecurity.com/2026/06/29/products-ai-pentesting/

ソース: helpnetsecurity.com