エージェント型AIのためのセキュリティを再考する

人工知能はすでに企業の業務の在り方を変革してきましたが、次のイノベーションの波であるエージェント型AIは、コードを実行し、APIとやり取りし、データベースにアクセスし、その場で意思決定できる自律または半自律のエージェントとして動作します。ソフトウェアシステムが受動的なテキスト出力を生成する段階から、能動的な運用タスクを実行する段階へ移行する際に起こり得るセキュリティ脅威に対し、組織は直ちに対策を講じる必要があります。

プロンプト駆動型AIからアクション駆動型エージェントへ

組織は、生産性向上に焦点を当ててエンタープライズAIの導入を開始しました。LLMをワークフローに組み込み、文書作成、データ要約、質問への回答に活用してきました。セキュリティ上の課題は、プロンプトの悪用、データ漏えい、プライバシー侵害が中心でした。深刻ではあるものの、組織は入力・出力データを監視し、ポリシー管理とシステム監視を行う標準的なセキュリティプロトコルによって、これらのリスクを管理できました。

エージェント型AIは、この前提を変えます。単に問い合わせに応答するだけでなく、エージェントはユーザーのため、あるいは自らのために行動します。ワークフローを起動し、機密性の高いシステムと連携し、さらには独立して意思決定することさえ可能です。自律性が高まるほど、被害のリスクも増大します。そのため、基礎からセキュリティを見直すことが重要になります。

新たなリスク環境

エージェント型AIは、いくつかの新しいセキュリティ脅威をもたらします:

  • アクションレベルの悪用:悪意ある攻撃者は、エージェントを欺いて本番データベースを改変する危険な操作を実行させたり、権限のないデータを露出させたりできます。
  • コンテキスト注入攻撃:攻撃者がRAGシステム(retrieval augmented generation:検索拡張生成)に偽情報を与え、危険なエージェント行動を引き起こします。
  • 不可視の操作:エージェントは舞台裏で静かに動作することが多く、強力な監視がなければ何をしているのか把握しにくくなります。
  • プロトコルの脆弱性:Model Context Protocol(MCP)のような標準は、エージェント同士がより円滑に接続・協調できるようにしますが、過度に開放的な設定から始まることが多いため、意図せずシステムを脆弱な状態にしてしまう可能性があります。

最近の攻撃は、早急な対応の必要性を浮き彫りにしています。たとえば、ハッカーはワイパー型のプロンプト注入により、Amazon Q のコードアシスタントを侵害しました。同時に研究者は、いわゆる「致命的な三要素(lethal trifecta)」――内部データへのアクセス、外部との通信能力、信頼できない入力への露出――を悪用する脆弱性として、EchoLeak や CurXecute などを公表しています。多くのエージェントは効果的に機能するためにこの3つの属性を必要とするため、悪用されやすい状態になっています。これらの事例は、従来のLLMセキュリティフレームワークが想定していなかった方法で、エージェント型AIシステムが操作され得ることを示しています。

自律性のためのガードレールを構築する

課題は、エージェントの有用性と安全性の適切なバランスを見つけることです。リスクを最小化するために、企業はエージェントが実行する思考と行動の全連鎖を追跡できるガードレールを設ける必要があります。これは、ツール呼び出しの監視、意図の検証、文脈的コントロールの適用を意味します。重要なのは、予防戦略がプラットフォーム横断で機能しなければならないことです。特定のLLMに焦点を当てるのではなく、エージェントがシステムとどのように相互作用し、データをどのように扱うかに重点を置くべきです。

エージェント分類(タクソノミー)の策定

エージェント型AIを安全にするうえで重要なステップの一つは、エージェントのタクソノミー(分類体系)を作ることです。すべてのエージェントが同じではありません。分類することで、優先すべきコントロールを明確にできます。ここで本当に重要なのは次の点です:

  • 起動:人が起動するエージェントか、自律エージェントか;
  • 展開:ローカル端末、SaaSプラットフォーム上、またはセルフホスト環境か;
  • 接続性:内部API、サードパーティのエンドポイント、またはMCPサーバーか;
  • 自律性と信頼:エージェントがどのレベルのアクセス権を持つか、そしてそれを持つべきかどうか。

たとえば、開発環境のローカルなコーディングアシスタントは、本番システム全体に対してバックグラウンドで推論を実行するエージェントよりも、はるかにリスクが低いでしょう。エージェントとエンドポイントを一覧化することで、セキュリティチームは活動を監視し、態勢を評価し、精密なコントロールを適用できます。

決定論的アプローチと動的セキュリティアプローチ

従来のLLMガバナンスは、決定論的なコントロールに依存しています。事前定義されたポリシーによって、モデルができること/できないことを制限します。対照的に、エージェント型AIには動的なアプローチが必要です。エージェントは推論、推定、確率的な意思決定を活用するため、予期しない振る舞いをする可能性があります。このため、セキュリティフレームワークは、決定論的なガードレールに加えて、リアルタイムの可観測性と適応的コントロールを組み合わせなければなりません。

有害なクエリを単にブロックするのではなく、企業はエージェントの振る舞いを先回りしてマッピングし、意図を検証し、実行を制御する必要があります。この先回りのガバナンスプロセスは、自律システムの予測不能性に対処するうえで不可欠です。

エージェント型AIセキュリティフレームワークに向けて

これらの課題に対処するため、組織には4つの主要要素からなるセキュリティアプローチが必要です:

  1. 発見とプロファイリング:エージェント、その系譜、そしてシステムへの接続方法のインベントリを作成する。
  2. エージェント態勢管理:エージェントが使用するツール、アクセス可能なデータ、そして引き受けるアイデンティティを確認してリスクを評価する。
  3. 可観測性:エージェントの行動について詳細なログとトレースを整備し、ガバナンスチームが明確に可視化できるようにする。
  4. 実行時コントロール:文脈に基づくリスク監視、悪用防止、役割別のアクション制御を実装する。

このフレームワークは、各エージェントを文脈の中で評価し、その自律性、環境、そして影響範囲(blast radius)に応じてコントロールを調整しなければならないことを認識しています。

エンタープライズAIリスクの再定義

エージェント型AIの台頭は大きな転換点です。企業はもはやデータを保護するだけではありません。自ら行動できる自律ソフトウェアの流れを管理することになります。これにより、脅威モデル、攻撃対象領域、セキュリティ戦略という概念そのものが、文脈的で適応的、かつリアルタイムなものへと変化します。

プロンプトに応じてテキストを生成するだけの従来型LLMとは異なり、エージェント型AIの独立性は、機会とリスクの双方を再定義します。この新たな責任を受け入れる組織は、セキュリティ対策を見直さなければなりません。従来の防御を超え、自律的な行動を予測し、監視し、制御するフレームワークを構築する必要があります。

翻訳元: https://www.securityweek.com/rethinking-security-for-agentic-ai/

ソース: securityweek.com