本番環境のAIエージェント、セキュリティ基準を満たすのはわずか11%

エンタープライズチームは、コードの記述、ブラウザの操作、顧客対応の電話応答、クラウドインフラの管理、さらには常設認証情報を使ったデータウェアハウスへのクエリ実行まで行うAIエージェントを本番環境で稼働させています。100件の本番エージェントを対象とした新たな独立調査では、そのほぼすべてに、悪意ある単一のドキュメントによって乗っ取られ得る条件が存在することが明らかになりました。

Image

独立研究者グループが作成した「AI Risk Quadrant(AIRQ)レポート」2026年第2四半期版は、100件の商用・公開AIエージェントを「攻撃対象領域」「影響範囲」「防御制御」の3軸でスコアリングしています。その結果が示すのは、機能の急成長が、それを制御するための対策を大きく上回っているという現実です。

「致命的な三重苦」がデフォルト状態に

レポートでは、調査対象全体に共通する「致命的な三重苦(lethal trifecta)」が指摘されています。すなわち「プライベートデータへのアクセス」「未検証コンテンツへの露出」「外部へのアクション実行能力」の三つです。この組み合わせは、スコアリング対象エージェントの98%に存在しています。10のエージェントクラスのうち8クラスでは、三重苦への露出が100%に達しており、例外が存在するのは「汎用アシスタントエージェント」と「データエンジニアリングエージェント」でそれぞれ1件のみです。

外部データの取り込みは、調査対象全体における普遍的な攻撃対象領域となっています。ドキュメント、Webページ、チケット、メール、取得済みのスニペットなど、あらゆるコンテンツがほぼすべてのエージェントで間接プロンプトインジェクションを引き起こす可能性があります。三重苦への露出と外部からのコンテンツ取り込みが組み合わさることで、悪意ある単一のメッセージがエージェントの動作を操作し、そのエージェントがアクセスできるすべてのシステムに影響を及ぼす可能性があります。

機能強化と防御強化が逆方向へ

調査対象の中でリスクが最も高いカテゴリは、コーディングエージェントとコンピューター操作エージェントです。これらは最広の攻撃対象領域と最大の影響範囲を持ちながら、防御が最も薄いという特徴があります。コーディングエージェントは10クラス中、機能面では2位にランクされる一方、防御面では8位に留まっています。コンピューター操作エージェントの出力ガードレールの平均スコアは正確にゼロです。このクラスに属するすべてのエージェントが、出力バリデーション、外部流出チャンネルのブロック、レンダリングのサニタイズにおいて0点を記録しています。

一方、ワークコパイロットエージェントとビジネスプロセスエージェントは対照的な位置にあります。これらは調査対象の中でも特に防御が充実したクラスに属しており、影響範囲自体も限定的です。

高い攻撃対象領域と強固な防御を兼ね備えた「Fortified Leaders(要塞化リーダー)」象限に位置するエージェントは、全体のわずか11%にすぎません。これらの多くは、AIが導入されるはるか以前から存在していたプラットフォームレベルのガバナンス——テナント分離、ロールベースアクセス制御、監査フレームワーク——によって防御が担保されているエンタープライズ向けソリューションです。一方、調査対象の40%は「Exposed Giants(露出した巨人)」象限に位置しており、レポートによればこの象限がリスク予算全体の60%を占めています。

AIRQプロジェクトリード兼AIエージェントセキュリティエキスパートのEugene Neelou氏は、Help Net Securityに対し、防御が最も脆弱なエージェントは企業の「裏口」から入ってくる傾向があると語っています。「当社のデータでは、コーディングエージェントとコンピューター操作エージェントが攻撃対象領域・影響範囲・防御の欠如のいずれにおいても上位2位を占めています」と同氏は述べています。「これらのエージェントはセルフサービス型のプロダクトであり、ボトムアップで普及するため、調達審査を経ずに導入されることがほとんどです。」エンタープライズ重視のAIエージェントがトップダウンで導入される場合はコンプライアンス審査を経ますが、セルフサービス型の導入ではそのプロセスが省略されます。

防御なき監査

レポートによれば、調査対象の37%が、ロギングや可観測性では高スコアを記録しながら、被害の防止・軽減に関わる4つの防御コンポーネントでは低スコアにとどまっています。こうしたエージェントにとって、監査機能はあくまでフォレンジック(事後調査)のための資産に過ぎません。さらに38%は、いかなる監視パスが発動しうるよりも先に、取り消し不能なアクションを実行してしまっています。

アセスメントによると、主張されている防御策の83%は独立した検証が行われていません。防御クレジットに独立検証マークが付与されているのは17%のみです。影響範囲の縮小に最も関係するコンポーネント(実行分離など)が、最も検証困難なものとなっています。

Neelou氏は検証プロセスについて次のように説明しています。「AIRQは、通常のエンタープライズ向けベンダー選定プロセスを模倣し、ベンダーの透明性を評価するよう設計されています。独立検証とは、機密扱いのベンダー文書ではなく、公開情報源からのエビデンスを意味します。」このギャップが生じる背景について同氏は、多くのベンダーが特定のコントロールを持っていると主張または期待されているものの、その技術的根拠が乏しいためだと指摘しています。

ツール実行がリスクを左右する分水嶺

ツール実行は、影響範囲を最もよく予測できる単一変数です。エージェントクラス、ベンダーの評判、個々の防御コンポーネントのいずれよりも優れた予測力を持ち、影響範囲の76%を単独で説明します。レポートは、調査対象におけるエージェントリスクが事実上二峰性分布を示しており、ツール実行型エージェントとそれ以外のエージェントが二つの異なる集団を形成していると述べています。

推奨される調達基準は、文書化・テスト済みのサンドボックス化です。サンドボックス化により残存リスクは約2.6倍低減されます。クラウドまたはコンテナレベルの分離では約6倍の低減が見込まれますが、その大半の効果は最初のステップから得られます。

ベンダー出荷構成と顧客設定構成の乖離

レポートで繰り返し指摘されているのは、同じプラットフォームでも評価対象のビルドによってスコアが大きく異なり、その差がエージェントクラス全体の差を上回る場合もあるという点です。調達部門がある構成を承認した後、セキュリティ部門が引き継ぐのは別の構成である、という事態が生じています。

Neelou氏はクラウドコンピューティングに例えて説明しています。「クラウドセキュリティにおける責任共有モデルと同様に、購入者が展開した最終的なエージェントプロダクトは、デフォルトのプラットフォーム構成とは異なるセキュリティポスチャを持つことが多い」と同氏は述べています。購入者に対しては、展開前にスコアリングの各軸について5〜10項目の質問への回答を求めるという、AIRQの方法論そのものを最低限の質問項目として活用するよう促しています。

長期的な視点

AIエージェント市場におけるCVEの件数は四半期ごとに増加しています。CVE件数が少ないカテゴリはまだ「発見前夜」の段階にあり、既存の問題が研究者の注目によってまだ表面化していない状態であるため、レポートでは四半期ごとの再監査を推奨しています。

購入者は、リスクの単位として基盤モデルではなくエージェントそのものを評価対象とし、同じクラス・同じ象限に属するエージェント同士を比較し、コンプライアンス認証と技術的防御スコアを区別し、さらにベンダーの出荷構成と顧客の設定構成の両方でスコアリングを行うべきです。

Neelou氏は、このスコアリングフレームワークは長期的な活用を念頭に構築されており、四半期版はあくまでその時点のスナップショットとして位置づけられていると述べています。この方法論は、いつでもオープンに利用・再現できるよう設計されているといいます。

翻訳元: https://www.helpnetsecurity.com/2026/06/03/research-ai-agent-security-capability/

ソース: helpnetsecurity.com