100のAIエージェントのセキュリティをテスト・ランク付け——知っておくべきこと

AIは私たちの新たなリーダーです。私たちはAIの指示をそのまま受け入れ、従っています。もう少し慎重になるべきかもしれません。

AIエージェントの動作に対する懸念は絶えません。情報漏洩のリスクから、単純に誤った意思決定まで、問題は多岐にわたります。AI支援による攻撃の高度化を受け、より多くのエージェントをより自律的に活用するプレッシャーが常態化している今、Adversa AIが100のエージェントのパフォーマンスとセキュリティを10カテゴリーにわたって計測・比較するという取り組みは、時宜を得たものといえます。

しかし、結果は芳しくありません。新たに策定された「AIリスク・クアドラント」に位置づけられた100のエージェントのうち、「有能かつ防御が十分」と評価されたのはわずか11にとどまります。

根本的な問題は、AIエージェントの「致命的なトライアングル」にあります。Adversaはこれを「プライベートデータへのアクセス+信頼できないコンテンツへの露出+アウトバウンドアクションの実行能力」と定義しています。これは、従来から言われる「過剰な権限+過剰な信頼+不十分な制御」という致命的なトライアングルに直結します。

AIエージェントが目的を達成するためには、このトライアングルの三要素すべてが必要であるため、機能性とセキュリティの両立は常に高いハードルとなります。テスト対象のエージェントの98%がこのトライアングルを抱えており、「有能(有用)」かつ「防御可能(安全)」なエージェントがこれほど少ないという結果は、驚くべきことではないものの、改めて聞くと衝撃的です。

機能性とセキュリティは、ほぼ相反する関係にあります。Adversaは『AI Risk Quadrant for Agent Security』レポートの中で、「最も高機能なエージェントを提供しているベンダーが、最も広い攻撃対象領域を抱えている——これは一部の例外的な事例ではなく、市場の構造的な特性だ」と指摘しています。同社はこれを「パワー・プロテクション逆転現象」と呼び、10すべてのエージェントカテゴリーに共通して見られると述べています。

ただし、パワー・プロテクション逆転が最も顕著なカテゴリーは「コンピューターエージェント」であり、次いで「コーディングエージェント」となっています。

コンピューターエージェントは、ユーザーのために特定のタスク(意思決定や操作の実行など)を行うように設計されています。エージェントは自らが持つ情報(コンテキスト)の範囲内でしか動作できないため(コンテキスト問題——コンテキストが不十分だと、あらゆるエージェントで誤った判断につながります)、コンピューターエージェントにはオペレーティングシステム全体に及ぶ広範なアクセス権限が付与されています。Adversaは「エージェントが侵害された場合、攻撃者は一つのアプリケーションやタブだけでなく、ユーザーのマシン全体を掌握することになる」と警告しています。

また、コンピューターエージェントはすべてのエージェントに共通する別の問題も抱えています。それは、ユーザーがエージェントの実際の動作をほとんど、あるいはまったく把握・制御できないという点です。ユーザーが入力(タスク)を与えると、エージェントが出力(完了したタスク)を返します。しかし、コンピューターエージェントの場合、入力から出力に至る経路や、その過程でOSに対して行われる具体的な操作をユーザーは知ることができません。

「より深刻な問題は、デスクトップの確認ステップが制御のように見えて、実際にはまったく信頼できないことだ」とレポートは指摘しています。「人間とAIモデルは異なる抽象レイヤー(ウィンドウやラベルと、スクリーンショットやアクセシビリティツリー)で思考する。そのギャップが『確認のミスマッチ』を生む。インターフェースにはその違いを表示する仕組みがないため、人間はエージェントがこれから実行しようとしている内容ではなく、アクションの見た目だけを承認してしまう。」

「さらされた巨人(Exposed Giants)」クアドラントで2番目に問題の大きいカテゴリーがコーディングエージェントです。「バイブコーディング」によるアプリケーション開発がソフトウェアの未来になりつつあり、社内でバイブコーディングにより作られたアプリケーションが長年にわたって使われ続ける可能性があることを考えると、これは見過ごせない懸念です。

レポートはコーディングエージェントを3種類に細分化しています。「コーディングコパイロット(人間が各提案をレビューするもの)」「自律型コーディングエージェント(ゴールを入力するとリポジトリが出力されるもの)」「アプリビルダー(プロンプト入力からデプロイ済みアプリへ変換するもの)」の3種類です。一見するとコーディングコパイロットが最も安全に思えますが、それでもユーザーは入力から出力の間にエージェントが何をしているかを把握できません。「コーディングエージェントはコードを書くだけではありません——差分がレビューに届くはるか前から、シェル、依存関係、トークンに触れています」とAdversaは指摘しています。

「このカテゴリーは、侵害が最も直接的に本番環境への侵害につながるクラスです。危険なのはコード提案の品質ではなく、ソフトウェアサプライチェーン内部での高信頼操作にあります。非決定論性はコードレビューを不完全な防御手段にします。最終的な差分を人間がレビューしたとしても、エージェントはすでにシークレットを参照し、本番に近い環境でテストを実行し、設定を変更し、リスクのある依存関係を選択している可能性があります。レビューは出力を検査しますが、実際のアクションの全経路は検査できません。」

コーディングエージェントが「さらされた巨人」の中でも特に上位に位置するのは、攻撃対象領域が広く、爆発半径(影響範囲)が大きく、防御制御が不十分であるためです。シェルコマンドの実行、MCPサーバーのロード、ルールファイルの自動読み込みにより攻撃対象領域は広大になります。シークレット、署名鍵、デプロイパイプラインへのアクセスを持つソフトウェアサプライチェーンの内部に位置することで爆発半径は拡大します。そして、主要な防御手段がコード出力のレビューに過ぎず、攻撃対象領域も爆発半径も考慮されていません。

ここまでAdversaのエージェント分析とAIリスク・クアドラントに含まれる10カテゴリーのうち2つを概観しました。残る8カテゴリーは、「汎用アシスタント」「ワークコパイロット」「ブラウザー」「会話型」「カスタムワークフロー」「ビジネスプロセス」「プラットフォームオペレーション」「データエンジニアリング」です。いずれも完全にクリアというわけにはいきません。テスト対象エージェントの98%が致命的なトライアングルの影響を受けており、例外は汎用アシスタントとデータエンジニアリングの各カテゴリーでそれぞれ1エージェントのみです。

AIリスクサミット(リッツ・カールトン、ハーフムーンベイ)で詳しく学ぶ

エージェントは事実上ブラックボックスであり、使うか使わないかの二択です。ビジネス上の経済的要因が私たちを「使う」側に追い込んでいます。エージェントが動作中に何をしているかを制御できない以上、私たちにできることは、入力に注意を払い、可能な範囲で出力を制御することだけです。

この点についてAdversaは、入力プロンプトに対してできることは少ないため、出力の制御に集中することを推奨しています。「自分がコントロールできる部分を守り、できない部分に力を注ぐな」というのがその主張です。「プロンプトインジェクションに対する決定論的な修正方法は存在しません。エージェントのデータと指示を確実に分離できる分類器はなく、ベンダー自身もそれを認めています。入力の境界は諦め、防御の予算をオペレーターが制御できるトライアングルの要素——アウトバウンド通信、ID管理、不可逆なアクション——に集中させてください。」

これが現時点での実情です。エージェント型AIソリューションへの急速な移行は止められない流れである一方、懸念も伴っています。AI支援による攻撃に対抗するには、AI支援による防御で応じるしかありません。また、すべての企業が競争力を維持するためには、競合他社よりも迅速かつ効率的に動く必要があります。ビジネスにおいて、すべての道はAIに通じています。AIが将来的にあらゆる面で進化するであろうことを期待し、おそらくはそうなるだろうと信じるしかありません。それがいつ、どの程度実現するかは、依然として未知数のままです。

しかし当面の間、Adversaによる膨大かつ詳細な分析が伝える最終的なメッセージは明確です。「慎重に行動しましょう。」

翻訳元: https://www.securityweek.com/security-of-100-ai-agents-tested-and-ranked-what-you-need-to-know/

ソース: securityweek.com