AIエージェントのガードレールがDoS攻撃の武器に悪用される可能性

毒入りドキュメント1件でAIエージェントシステムを最大148倍遅延させ、AIの安全制御機能を企業の弱点に変えうると研究者が警告。

AIエージェントのガードレールがサービス拒否(DoS)攻撃の武器として悪用される恐れがあることが、新たな研究で明らかになりました。この研究によると、悪意を持って細工された文書(毒入りドキュメント)1件だけで、推論ベースの安全システムを延々と思考ループに陥れ、共有AIエージェントのワークフローを著しく遅延させる可能性があるといいます。

「推論ベースのガードレールは、セキュリティ機構そのものが攻撃対象となるという新たな攻撃面をもたらす」と、香港科技大学の研究者らは共同研究者とともに論文の中で述べています。

研究者らはさらに、「毒入りドキュメント1件で共有ガードレールインフラを飽和させ、同一環境で動作する他のエージェントを実質的に枯渇させ、システム全体を麻痺させることができる」と指摘しており、AIモデル本体ではなくセキュリティレイヤーを標的とする「推論拡張型DoS攻撃」について解説しています。

研究チームはこの手法を、LangGraph、BrowserGym、OpenHands、OSWorldという4つのAIエージェントフレームワークに対してテストし、各環境で処理時間が増大することを確認しました。

論文によると、遅延幅が最も大きかったのはLangGraphで148倍、次いでBrowserGymが131倍、OpenHandsが36.3倍、OSWorldが18倍となりました。

セキュリティを迂回するのではなく、推論を悪用する攻撃

プロンプトインジェクションやジェイルブレイク攻撃がモデルの出力を操作したり安全制御を回避しようとするのとは異なり、今回の手法はAIエージェントのガードレールが用いる推論プロセスそのものを標的にすると、研究者らは論文で説明しています。

「従来のLLM攻撃が主に完全性(インテグリティ)を損なうことを目的とするのに対し、推論拡張型DoSは可用性を標的にする」と研究者らは記しており、AIセキュリティの議論がこれまで安全でない出力の防止に偏りがちで、リソース枯渇への対策が見落とされてきたと主張しています。

また研究者らは、AIの安全チェックを強化するほどパフォーマンスが低下する可能性があることも指摘しています。

「ガードレールの推論が高度になるほど、推論にかかる時間も長くなる」と研究者らは述べており、より高度な推論が悪意のある入力の処理に要する時間とリソースを意図せず増大させうると説明しています。

この攻撃は8つの異なるLLMファミリーに対しても有効でした。論文によれば、あるオープンソースモデル向けに設計されたプロンプトが他のモデルにも効果を示しており、攻撃者が特定のプロプライエタリシステムの詳細な知識を持たなくても攻撃を成立させられる可能性が示唆されています。

推論ベースのガードレールをLLM活用型セキュリティ機構の例として論文内で言及されているOpenAIおよびAnthropicは、コメント要請に対して即座に回答しませんでした。

「重要な示唆は、特定の『ガードレールDoS』手法が大規模環境で実用的かどうかという問題だけにとどまらず、AIガバナンスインフラがますます重要インフラになりつつあるという点だ」と、IDCアジア太平洋のサイバーセキュリティサービス担当シニアリサーチマネージャーであるSakshi Grover氏は述べています。

「エージェント型AIの導入が成熟するにつれ、組織はAIコントロールプレーンの耐障害性・スケーラビリティ・フォールトトレランスについて、アイデンティティサービスやAPIゲートウェイなどの業務基盤と同じ水準で考える必要がある」と同氏は語っています。

Grover氏は、AIガバナンスの集中化が集中リスクをもたらすとも指摘しています。

「集約化の動きは現実のものです。組織は複数のエージェントを共有安全インフラ経由でルーティングすることでAIガバナンスを合理化しており、それが集中リスクを生み出しています」と同氏は述べています。「ガードレールDoSが成功するのに、何かを侵害する必要はありません。重要な瞬間にシステムを使用不能にするだけで十分なのです。」

自動化された保険金請求処理、AI支援型インシデント対応、リアルタイム不正検知といった業務上重要なワークフローでは、一時的な遅延やリソース枯渇であっても実質的な影響が生じうると同氏は付け加えています。

既存の緩和策は部分的な保護にとどまる

研究者らは、従来のプロンプトインジェクションフィルターがこの攻撃手法に対して依然として脆弱であり、厳格なトークン制限では単にフェイルオープンとフェイルクローズの挙動を切り替えるだけだということを発見しました。推論バジェットを小さくすると遅延は減少しますが、セキュリティ判断の精度も低下し、可用性と保護の間でトレードオフが生じます。

また、推論能力の高いモデルほど注入された推論構造に従って長時間処理を行う傾向があり、攻撃を緩和するどころか増幅させる結果となることも判明しました。

アナリストらは、この調査結果が企業にとってモデルレベルのセキュリティを超えた自律型AIシステムのガバナンスに目を向ける必要性を改めて示していると述べています。

2029年までにAIエージェントに対するサイバーセキュリティ攻撃の成功例の50%超が、直接または間接的なプロンプトインジェクションをベクターとしたアクセス制御の問題を悪用するものになると予測されており、また2028年までに不正なAIエージェントのトランザクションの少なくとも80%が、悪意ある攻撃ではなく内部ポリシー違反や不適切なAIの挙動から生じるとGartnerのシニアプリンシパルアナリスト、Apeksha Kaushik氏は述べています。

「自律型マルチエージェントシステムへの移行は、挙動のドリフトや破壊的なアクションといった新たなリスクをもたらす」とKaushik氏は述べており、組織はデプロイから廃止に至るまでエージェントの完全性を継続的に検証するAIエージェントセキュリティライフサイクル管理を実装すべきだと付け加えています。

現状では断片化したツール群では複雑なマルチエージェントシステムを効果的にガバナンスすることができず、大規模な不正挙動の監視・遮断には統合的な発見・アイデンティティ・ガーディアン機能が必要だと同氏は述べています。

AIガバナンスの最前線化

Grover氏は、組織が今すぐ準備に着手すべきとして、ガードレールインフラをエージェントコンピュートから切り離すこと、可能な限り階層型または非同期型のガードレールチェックを実装すること、異常な推論の深さを監視すること、そして有害な出力への対策だけに終始せず可用性障害に焦点を当てたAI安全スタックのレッドチーミングを明示的に実施することを挙げています。

「アーキテクチャの選択がモデル安全性の選択と同等の重みを持つ時代になっています」とGrover氏は述べています。「エージェント型AIインフラを重要なアプリケーションインフラと同等の厳密さで扱う組織は、より有利な立場に立てるでしょう。そうしない組織は、痛い目を見て初めてそのことに気づくことになります。」

翻訳元: https://www.csoonline.com/article/4185051/attackers-can-turn-ai-agent-guardrails-into-denial-of-service-weapons.html

ソース: csoonline.com