AIアシスタントが本番環境のキーを持つ場合

運用現場で使用される大規模言語モデルは、テレメトリをクエリし、設定変更を提案し、一部の導入ではそれらの変更をライブインフラに対して実行します。チケット作成とアラート要約がスタート地点でした。ベンダーはこのような作業を自律的な修復またはセルフヒーリングインフラとして説明しています。ネットワークおよびIT運用におけるエージェントAIに関する最近の調査では、これをより有用な名前で呼んでいます。それは起こるのを待っている混乱した代理人問題です。

Image

エージェントAIセキュリティにおける混乱した代理人問題

古典的な混乱した代理人攻撃は、許可されたプログラムに特権を悪用するよう仕向けます。エージェント操作は、この種の悪用に理想的な基盤を作成します。エージェントはAPI変更管理、デプロイメントパイプライン、およびネットワークコントローラーへの正当なアクセス権を保有しています。その決定はチケット、ランブック、チャットトランスクリプト、およびログエントリによって形作られており、これらは攻撃者が影響を与えることができるのと同じアーティファクトです。攻撃者がエージェントがツールを使用する前に読むテキストを危険にさらすことができる場合、ツール自体を危険にさらす必要はありません。

LLM運用をターゲットとした4つの攻撃カテゴリ

この調査は、より注目する価値のある複数の攻撃カテゴリを記録しています。運用アーティファクトを通じたプロンプトインジェクションは最も一般的です。チケットやウィキページに埋め込まれた悪意のある指示で、エージェントを安全でない行動に導くものです。より微妙なバリエーションが存在します。リトリーバルポイズニングは、エージェントが参照するランブックとインシデント履歴を破損し、診断を攻撃者が選んだ結論に偏らせます。

リトリーバルジャミングは反対方向に機能し、ナレッジベースをブロッカードキュメントで満たし、拒否ループをトリガーして、最も必要なときにインシデント対応を停止させます。テレメトリ操作はLLM駆動の運用エージェントに対して機能します。メトリクスとログが何を言うかに影響を与えることができる攻撃者は、モデルに触れることなく、軽減の決定を導くことができます。

これらの攻撃が運用上危険なのは、攻撃に見えないからです。悪くなってしまった通常のインシデント対応に見えます。

アーキテクチャ防御としての提案コミット分割

この調査で提案された防御はアーキテクチャ的なものです。著者らは厳密な提案コミット分割を主張しています。言語モデルは推論し、証拠を取得し、変更提案を作成することができますが、書き込みを実行することはできません。本番環境に触れるあらゆるアクションは、モデルが権限を持たない非バイパス可能なゲートを通過します。ゲートはポリシーアズコードチェック、不変検証、高爆発半径変更の人間承認、およびロールバック対応のステージングデプロイメントをカバーします。

モデルの仕事は差分を作成することです。ゲートの仕事は、その差分を適用することが許可されているかどうかを決定することです。整合性が保護された監査ログ。インシデント後のフォレンジックスが何が起こったかを再構成できるように、制御セットを完成させます。

プロンプトベースのエージェントAIセキュリティの限界

このアーキテクチャが重要なのは、プロンプトのみの防御が脆いからです。モデルのテキスト生成が直接本番環境の変更を引き起こす可能性のあるシステムは、スタック内で最も予測不可能なコンポーネントの内部にセキュリティペリメータを構築しています。OWASP過度な代理人パターンは、この調査が指摘するように、実際には提案コミット分割を適切に実装するための失敗です。

安全なLLM自律性の欠落した証拠

測定の問題がアーキテクチャの側にあります。安全なエージェント運用に関する多くの主張は、支持する証拠が不足しているため、反証されることはできません。この調査は、評価が報告すべきことを特定しています。ツール呼び出しトレース、ゲート違反率、敵対的入力下での動作、ジャミング攻撃下での拒否ストーム率、およびロールバック完了性です。ほとんどの現在のベンチマークはこれらを省略しています。クリーンなインシデントでうまく機能するシステムは、誰かがJiraチケットに敵対的な指示を埋め込んだ瞬間に崩壊する可能性があります。エージェント製品を評価するセキュリティチームは、良性ワークロードの成功メトリクスと並んで敵対的評価データを求めるべきです。

自律性が信頼を獲得する場所とそうでない場所

エージェントが持つ自律性の量は、状況が悪くなったときに与えることができるダメージの量です。読み取り専用の支援は有用で低リスクです。強いゲートを持つ有界実行は防御可能です。この調査で説明する検証スキャフォルディングなしで、大規模な本番環境全体にわたるオープンエンド型セルフヒーリングは、現在のデプロイメントが思わせるより困難な問題であり、それに関する主張には懐疑的であるべきです。

翻訳元: https://www.helpnetsecurity.com/2026/05/20/agentic-ai-security-llm-research/

ソース: helpnetsecurity.com