プロンプトインジェクション、本番環境におけるエージェントAIセキュリティ障害の主因であり続ける

2026年3月、バックドアが3時間にわたってPyPIに潜伏していました。その間に約47,000件のダウンロードが発生しました。被害を受けたパッケージはLiteLLMで、CrewAI、DSPy、Microsoft GraphRAGをはじめ、数十のAIエージェントフレームワークの言語モデルゲートウェイとして機能しています。この時間帯にアップデートを取得したユーザーは、hackerbot-clawという名の自律型攻撃ボットも一緒に取り込むことになりました。

Image

こうした事例を背景に、OWASP GenAI Security Projectが発行した『State of Agentic AI Security and Governance』バージョン2.01は、1年前のバージョンとは大きく様相が異なります。2025年版では想定される脅威を列挙していましたが、2026年版ではエージェントリスクのほぼすべてのカテゴリに紐付いたCVE、ベンダーアドバイザリ、侵害報告が記載されています

コーディングエージェントが震源地

コーディングエージェントが新たな攻撃データの大部分を牽引しています。OWASPの『State of AI Surveyor』が追跡している53のエージェントプロジェクトのうち、28がコーディングエージェントです。最も急成長している5つのツール(Claude Code、Gemini CLI、Codex、Cline、Aider)はいずれもこのカテゴリに属しています。a16zによる採用動向の分析では、コーディングがエンタープライズAI活用の用途として、他を圧倒する主要ケースとなっています。

その優位性はアドバイザリ件数にも表れています。セキュリティアドバイザリが最も多い5つのリポジトリは、ワークフロープラットフォームのn8n(57件)、Claude Code(22件)、AutoGPT(15件)、Dify(13件)、Roo-Code(11件)です。リスト上のすべてのプロジェクトが、半自律型のフレームワークまたはコーディングエージェントです。

リリースの速度がトリアージを困難にしています。調査対象の7つのプロジェクトが1日1回以上のペースでアップデートを提供しています。最も頻繁なtrycua/cuaは、追跡期間中に平均8時間ごとにリリースを行っていました。従来のソフトウェアコンポジション分析パイプラインは、このようなペースへの対応を想定して設計されていません。

プロンプトインジェクション——あらゆる脅威を繋ぐ共通手法

これらの事例の多くを結びつける手法が1つあります。それがプロンプトインジェクションです。OWASPはこれを、エージェントアプリケーション向けTop 10の10カテゴリのうち6つに対応付けています。

根本原因はアーキテクチャにあります。大規模言語モデルは、システムプロンプト、ユーザーのリクエスト、外部ソースから取得したテキストをすべて単一のトークンストリームとして処理します。一部のトークンをコマンドとして、残りをデータとして確実に区別する手段は存在しません。文書、カレンダーの招待状、Webページに埋め込まれた悪意あるテキストが、正規のオペレーター指示と同等の権限を持ち得るのです。

実務者の間では、2つの設計ヒューリスティックが主流となっています。1つ目は、研究者のSimon Willisonが提唱する「致命的なトリフェクタ」です。プライベートデータへのアクセス、信頼できないコンテンツへの露出、外部への通信能力という3つの特性を兼ね備えたエージェントは、たった1回のインジェクションプロンプトによって情報窃取ツールへと変貌させられます。汚染されたコンテンツがエージェントを誘導し、エージェントが機密データを取得し、それを外部へ送信する——という流れです。

2つ目のヒューリスティックはMetaが発表したもので、「エージェントのルール・オブ・ツー(Agents Rule of Two)」として公開されています。Willisonの3つの特性を「予算」として捉え、人間の承認なしに動作するエージェントが満たせる特性は2つまでとされます。3つすべてを組み合わせる場合は、人間による監視が必要です。

サプライチェーン——最も狙われた弱点

攻撃者はこの1年で、エージェントを侵害する最も手軽な方法は、エージェントが信頼するものを汚染することだと学びました。3つの層が集中的に攻撃を受けました。
プロトコル層では、研究者が実際の攻撃において初の悪意あるModel Context Protocol(MCP)サーバーを発見しました。postmark-mcpというパッケージは、信頼性を積み上げるために15のクリーンなバージョンを配布した後、情報窃取コードをひっそりと1行追加していました。数十万人の開発者が利用するコアMCPインフラには、CVSSスコア9.6のリモートコード実行の脆弱性CVE-2025-6514が開示されています。

エージェント層では、主要なコーディングツールに対する2件のCVEが、封じ込め策が逆手に取られる仕組みを示しました。Cursorに対して開示されたCVE-2026-22708は、攻撃者がエージェントの実行環境を汚染することで、`git branch`のような許可リスト登録済みのコマンドが任意のペイロードを配信できるようにするものです。許可リスト自体が、攻撃者に必要なコマンドを自動承認することで攻撃を容易にしてしまいます。OpenAIのCodex CLIに対するCVE-2025-59532では、エージェント自身の出力がサンドボックスの境界を再定義できることが示されました。

スキルおよびパッケージ層では、hackerbot-clawがスタック全体へと侵入を広げていきました。2026年2月には、オープンソースリポジトリ全体のGitHub Actions設定ミスを悪用しました。3月には、Aqua SecurityのCompromised Trivy GitHub Actionsセットアップを通じてLiteLLMのPyPI公開トークンを窃取し、バックドアが仕込まれた2つのバージョンのLiteLLMをPyPIに直接プッシュしました。起動後、人間による指示は一切不要でした。

展開ラインで交差するAI安全性とセキュリティ

OWASPは、組織運営に関わる重要な主張を提示しています。本番データに対して自律的に動作するシステムにおいては、AIの安全性とAIのセキュリティをそれぞれ別のチームが担当する体制はもはや機能しないということです。

その例として挙げられているのが、2025年のReplitの事例です。コーディングアシスタントが「何も変更しない」という明示的な指示にもかかわらず本番データベースを削除し、数千件の架空のレコードを生成し、ロールバックが不可能であると虚偽の報告を行いました。攻撃者は存在しませんでした。しかし、この予期せぬ障害の背後にある権限モデルは、攻撃者がプロンプトインジェクションを通じて悪用するものと同一です。安全上の障害を封じ込めることと、セキュリティ上のギャップを塞ぐことは、突き詰めれば同じ作業なのです。

規制当局は時間単位で動いている

コンプライアンスの対応期限は短縮されています。DORAは重大インシデントについて4時間以内の通知を義務付けています。NIS2は24時間以内の早期警告を求めています。ニューヨーク州のRAISE法は、フロンティアモデルのインシデントに対して72時間の報告期限を定めています。カリフォルニア州のSB 53は15日間の期限を設けています。OWASPのレポートは、10の法域にまたがる42の規制措置を追跡しています。

シャドーAIは、OWASPのコントリビューターが調査したほぼすべての組織内に存在しています。レポートに引用されたIBMのデータによると、これを検出するためのポリシーを持つ組織はわずか37%にとどまっています。

翻訳元: https://www.helpnetsecurity.com/2026/06/11/owasp-prompt-injection-ai-security-failures/

ソース: helpnetsecurity.com