AIエージェントはコーディングアシスタント、MCPサーバー、マルチエージェントフレームワーク上で動作しており、その利便性を支えるアクセス権限が同時にプロンプトインジェクション、ツールポイズニング、認証情報の窃取への経路ともなっています。公開されているCVEフィードには、エージェント実行に関する脆弱性が記録されており、それらは検知ツールの整備が追いつく前に本番環境へと到達してしまいます。Agent Threat Rules(ATR)は、こうしたカテゴリの攻撃を対象としたオープンな検知フォーマットです。

ATRルールはバージョン管理されたスキーマに準拠したYAMLドキュメントです。各ルールには、対象の攻撃パターン、検査対象の入力フィールド(LLM入力、ツール呼び出し引数、SKILL.mdのコンテンツなど)、そして動作を検証するテストケースが定義されています。TypeScriptで書かれたリファレンスエンジンと、Pythonラッパーの「pyATR」がルールの評価を担い、いずれもMITライセンスで公開されています。
このプロジェクトには、プロンプトインジェクション、エージェント操作、スキル侵害、コンテキスト窃取などのカテゴリにわたる400件以上のルールが収録されています。フォーマットの設計には、SIEMの検知ルール標準であるSigmaと、マルウェア署名のパターン言語であるYARAが参照されています。
コーパス別ベンチマーク再現率
ATRは各テストコーパスに対してバージョン固定のベンチマーク数値を公開しています。NVIDIAのgarakによる実際のジェイルブレイクコーパスに対しては98.0%の再現率を記録しています。全プローブファミリーを網羅するより広範なgarakセットに対しては38.5%に低下し、hackapromptに対しては66.0%となっています。
一部のコーパスでは一桁台の低い数値となっており、プロジェクトはそれらも正直に記録しています。AdvBenchでは1.3%、HarmBenchでは2.5%、JailbreakBenchでは5.0%の再現率です。学術系の敵対的評価セットであるPromptBenchとPromptInjectに至っては0.0%を示しています。
メンテナーのAdam Lin氏は、個別のテストをパスしたルールが全体評価では見逃しを起こす理由について次のように説明しています。「PromptBenchとPromptInjectは、最新のバージョン固定測定(リポジトリのdata/measurements/)でいずれも0.0%の再現率を示しています。AdvBench・HarmBench・JailbreakBenchはそれぞれ1.3%、2.5%、5.0%です。これらの評価に含まれるすべてのルールは、自身の真陽性・真陰性テストをパスしています。」
このギャップは、正規表現レイヤーの照合範囲に起因しています。構造化された攻撃パターンはその範囲内に収まりますが、言い換えや意味的に書き換えられた攻撃はその範囲外となります。プロジェクトはこれをカバレッジギャップとして明記しており、高リスクな操作に対してはATRに加え、認証情報のブローカリング、サンドボックス実行、人によるレビューを組み合わせることを推奨しています。
本番運用とガバナンス
4つの組織がATRを運用するか、自社ツールに統合しています。MicrosoftのAgent Governance ToolkitはATRから毎週自動同期されるルールパックを搭載し、Cisco AI Defenseは本番環境でルールパックを稼働させています。CIRCLのMISPは脅威インテルクラスターをマージし、Norton・Avast・AVGの親会社であるGen DigitalもルールパックをマージしHT。採用組織はプルリクエストによる自己申告制で、メンテナーによる事前承認なしにエントリーが追加されます。
このルールセットは外部フレームワークとの対応付けも行われています。OWASP Agentic Top 10の全10カテゴリと、SAFE-MCPの85テクニック中78件(91.8%)をカバーしています。個々のルールには特定のCVEへの参照が含まれており、Microsoft Semantic Kernel、Spring AI、LiteLLM、Claude Codeに影響する最近の脆弱性も対象としています。
Agent Threat RulesはGitHubで無償公開されています。
翻訳元: https://www.helpnetsecurity.com/2026/06/03/agent-threat-rules-ai-detection/