AIセキュリティはモデルからシステムへの転換が必要、研究者らが主張

自律型AIがソフトウェアではなくオペレーティング環境のように機能するため、従来のガードレールは不十分である。

エンタープライズは、基盤となるモデルをより堅牢にすることでAIエージェントを保護することはできず、代わりに、それらを取り巻くシステムレベルでセキュリティ制御を適用する必要があるだと、今月発表された論文の研究者らが主張しており、従来のAIセキュリティアプローチがエンタープライズ環境内で自律型エージェントが実際にどのように動作するかと益々一致していないことを警告している。

この論文は、エンタープライズがAIエージェントを信頼できるソフトウェアコンポーネントとして扱うことをやめ、代わりにエンタープライズインフラストラクチャ内で動作する根本的に信頼されていないシステムとして保護すべきだと主張している。

「エージェントに機能を提供するAIモデルは、信頼されていないコンポーネントとして扱う必要があります」と研究者らは論文で述べており、「セマンティックガードレール」とプロンプトレベルの防御だけでは、エージェントがエンタープライズツール、メモリ、API、ブラウザ、実行環境へのアクセスを獲得した後、システムを確実に保護することはできないと警告している。

著者らはオペレーティングシステムに例えている。「オペレーティングシステムがプロセスを信頼されていないものとして扱うのと同様に、我々はエージェントに機能を提供するモデルを信頼されていないものとして扱うべきであり、セキュリティプロパティはそれを包含するシステムのレベルで外部で表現および適用されるべきだという立場を取っています」と彼らは述べた。

この論文は、Google、カリフォルニア大学サンディエゴ校、ウィスコンシン大学マディソン校などの機関の研究者らによって作成され、Mihai Christodorescu、Earlence Fernandes、Somesh Jhaが含まれている。

システムセキュリティからの5つの原則

著者らは、自律型エージェントシステムが従うべきだと述べている、システムセキュリティ研究の数十年間から5つの原則を抽出した:最小権限、信頼できるコンピューティングベースの改ざん耐性、完全仲介、セキュアな情報フロー、そして人間を脆弱なリンクとして考慮することである。

証拠として、著者らはAIエージェントに対する11の実際の攻撃を分析し、それぞれが違反した原則にマッピングした。攻撃には、ChatGPT macOSアプリからのデータ流出、Claude Codeの流出フロー、Microsoft Copilotの流出脆弱性、および悪意のあるJiraチケットを通じたCursorへの攻撃「AgentFlayer」が含まれていた。11すべてがセキュアな情報フロー原則に違反していたと論文は述べており、ほとんどが最小権限原則に違反していた。

著者らは、機械学習ガードレールを積み重ねることが防御に相当するという考えを退けた。

「単なるMLモデルの積み重ねは、真の多層防御を構成するものではありません」と彼らは述べており、ガードモデルは「監視対象の主要なエージェントと同じ統計的な失敗モードを共有することが多い」ためである。

これらの原則を実践に移すために、著者らはコミュニティがまだ解決していない、開いた研究課題に結びついた3つのセキュリティメカニズムを提案した。

最初は指示とデータの分離である。言語モデルは、それらを単一のトークンストリーム内で混合し、それら間に出所レベルの区別を持たないためである。2番目は検証可能な最小権限ポリシー生成であり、エージェントのセキュリティポリシーが自然言語で書かれており、タスクの進化に伴って変化するため、システムが適用できるルールに変換するのが困難であるため、困難である。3番目は情報フローコントロールであり、機密データがモデルを通じてどのように移動するかを追跡することはまだ未解決のままである。

モデルを超えて

この論文は、過去2年間のエンタープライズAIセキュリティ努力を形作っている支配的な仮定の1つに異議を唱えている。つまり、益々能力が高いモデル、調整技術、プロンプト防御が最終的にエンタープライズ展開に十分に安全なAIシステムになるということである。

代わりに、研究者らはAIエージェントが従来のエンタープライズアプリケーションよりもオペレーティング環境または分散システムのようにますます扱われるべきだと主張しており、それは推論、自律性、メモリ永続性、および外部ツール実行を単一の運用層内に結合しているためである。

「セキュリティの保証は、より優れたプロンプト、調整チューニング、またはモデル側の軽減策だけからは生じません」と論文は述べており、エンタープライズは代わりにAIエージェント周りのより強いランタイム分離、封じ込め境界、最小権限実行、およびワークフロー可観測性制御が必要だと主張している。

これによりプロンプトインジェクションが単なるコンテンツ操作の問題ではなく、潜在的にワークフロー実行およびシステムインテグリティ問題となり、相互接続されたエンタープライズ環境全体の下流アクションに影響を与える可能性のある状況が生じる。

可視性の問題

研究者らはまた、現在のエンタープライズセキュリティツールが、AIエージェントが実際にどのように推論し、ツールを呼び出し、メモリを保持し、エンタープライズシステム全体でアクションを実行するかについての十分なランタイム可視性を欠いていると主張している。

先週発表された別の論文も、異なる角度から同様の問題を指摘しており、従来のエンドポイント検知・対応プラットフォームがAIエージェント推論フロー、プロンプトチェーン、メモリインタラクション、または動的ツール実行を適切に検査することができないと主張している。

この論文は、研究者が「エージェント検知・対応またはADR」フレームワークと述べたものを提案し、AIエージェント環境に特別に設計されている。

「現在のセキュリティツールはエージェント認知または推論トレースを観察するために設計されていません」と研究者らは述べており、既存のエンタープライズセキュリティスタックは決定論的なアプリケーションおよびエンドポイント活動を監視するために構築されたが、自律計画、確率的推論、および動的ワークフロー調整が可能なシステムではないと主張している。

この論文は、毎日10,000以上のAIエージェントセッションをおよそ7,200ホスト全体にわたって監視する本番環境の展開について説明し、研究者はフレームワークが26の攻撃カテゴリ全体にわたる数百の認証情報露出インシデント他のエージェント関連のリスクを識別したと述べている。

チームが導入したADR-Benchと呼ばれるベンチマークで、システムはゼロの誤検知で67%の攻撃を検出し、メタのLlamaFirewallを含む3つのベースラインをF1スコアで2〜4倍上回ったと論文は述べている。公開プロンプトインジェクションベンチマークのAgentDojoで、それは93のタスク中3つの誤検知ですべての攻撃を検出した。

翻訳元: https://www.csoonline.com/article/4176725/ai-security-needs-a-shift-from-models-to-systems-researchers-argue.html

ソース: csoonline.com