エージェンティックAIはシステムというよりも自律的なオペレーターのように機能するため、AIに特化したレッドチームフレームワークでストレステストを行うことが重要です。
より多くの企業がエージェンティックAIアプリケーションを導入するにつれ、潜在的な攻撃対象領域は複雑さと範囲を増しています。以前このトピックについて執筆したように、AIモデルのガードレールを回避したり、モデルの学習に使われる既存のナレッジベースを汚染したり、ネットワークインフラの脆弱性を継続的に探るエージェントを展開したりする方法は数多く存在します。しかし、エージェントやその他のAI駆動型オートメーションを、防御目的で活用できる可能性もまだ残されています。これには、従来のレッドチーミングやペネトレーションテストの手法をAIの世界向けにアップデートして利用することも含まれます。
問題は、エージェンティックAIのレッドチーミングがまだ発展途上であることです。防御的AIソリューションの多くのベンダーは、生成AIモデル全体の保護に関してはまだ初期段階にあり、「主に個々のモデルの脆弱性に焦点を当てる一方で、モデル、ユーザー、環境間の複雑な相互作用から生じる広範な社会技術システムや新たな行動を見落としている」とされています。これはSubhabrata Majumdarが7月に発表した論文で、AIレッドチーミングの短い歴史的背景を説明しています。一般的な焦点は、複数のエージェント間のさまざまな相互作用や、ミクロレベルの行動が大規模なセキュリティツールとどのように連携するか、さまざまなモデル構築フレームワークや他のソフトウェア開発環境での展開コンテキストなどを無視しています。これが攻撃対象領域が膨れ上がった理由であり、潜在的な悪用を抑えるために新しいアプローチが必要な理由です。
その目的のために、Cloud Security Alliance(CSA)は5月にAgentic AI Red Teaming Guideという大規模なガイドをまとめました。Ken Huangは数十名のセキュリティ研究者と協力し、AIベースのエージェンティック脅威をモデル化し、脆弱性を定量化し、アプリケーションをテストし、緩和策を提案するための実践的かつ実行可能なレッドチーミング手法を提供しています。本ガイドには12の異なるAIプロセスカテゴリが含まれており、それぞれに現実世界で観測された複数の具体的なエクスプロイト(多エージェントや幻覚の悪用、認可やコントロールの乗っ取りなど)が記載されています。これは、プロンプトインジェクションやジェイルブレイクなど、既存の生成AIセキュリティエクスプロイトの研究を基に、悪意あるエージェントによって単純なセキュリティ対策を突破できるような、より複雑な相互作用を構築しています。各エクスプロイトには、テスト要件、実行可能な手順、場合によってはレッドチーミング演習を導くためのプロンプト例が含まれています。
「エージェンティックAIシステムのレッドチーミングは、これらの技術が決定論的な振る舞いを超えて、明確な信頼の境界がないより自律的な意思決定オペレーターへと進化するにつれて、ますます必要になっています」とHuangはレポートで述べています。「多様で困難な状況下でエージェンティックAIを体系的にストレステストすることで、開発者はより堅牢なガードレールや安全メカニズムを構築できます。エージェンティックAIはプログラムというよりも自律的なオペレーターのように振る舞うため、その複雑でインタラクティブかつ予測不可能な性質をテストできる新しいレッドチーミングフレームワークが必要です。」
エージェンティックAIにおけるレッドチーム演習の複雑さ
これは、複数のエージェントが会話の中で相互作用する場合に特に深刻です。「エージェント同士のコミュニケーションが増えるほど、ユーザーの監視なしに新たなリスク領域が生まれます」とNCC GroupのAI・MLセキュリティ責任者であるDavid BrauchlerはCSOに語ります。「目的は、アプリがどこでエージェントからのデータにさらされているか、そしてそれが脅威アクターによってどのように操作されて悪意あるものになるかを特定することです。」
エージェンティックAIのレッドチーミングの初期の焦点は、プロンプトインジェクションにありました。他のインジェクション型攻撃と同様に、無害に見せかけたコマンドを送信し、さまざまな悪事を引き起こすことができます。より有名なエクスプロイトの1つがEchoLeakで、これらのインジェクションを使って静かにデータを盗み出します。
HuangのCSAレポートは、エージェントの目標や指示の操作、リアルタイムでの指示変更のシミュレーションによってエージェントを意図しない悪意ある行動に誘導するなど、さまざまな手法について詳しく説明しています。よく使われる方法としては、プロンプトに隠れたマルウェアを挿入したり、base64エンコードやUnicode文字、単純な転置暗号、ゲーマー用の「リートスピーク」への置き換え、さらには法的契約書の言葉でプロンプトを包むなど、さまざまな目立たない形式で指示を変換する方法があります。すべてはモデルのガードレールを回避するためです。
Huangは、これらのコマンドがどのように実行されたかの監査証跡を調査し、レッドチーム演習を通じてエージェントが意図された実行経路からどのように逸脱するか、またデータがさまざまなユーザーコンテキストでどのように流出するかをシミュレートすることを推奨しています。
エージェンティックなプロンプトインジェクションの多様性と威力を示す例として、Pangeaがグローバルコンテストの一環として30万回の試行を記録したレポートがあります。3段階の難易度が上がる「脱出ゲーム」を使い、研究者たちは多くの脆弱性やデータ漏洩、その他のエクスプロイトを発見しました。PangeaのAIレッドチーミングスペシャリストであるJoey MeloはCSOに「同じペイロードでも99回は失敗し、1回だけ予想外の形で成功する」と語っています。
AIベースのエージェンティックなセキュリティエクスプロイト自体は新しいものではありません。Open Worldwide Application Security Project(OWASP)は、モデルやアプリケーションのアーキテクチャ、複数エージェントの協調・相互作用に特化して、あらゆる種類のエージェンティックAIセキュリティ問題を検証した論文を発表しています。LangChain、CrewAI、AutoGPTなどの汎用エージェントフレームワークのユーザーがインフラやデータをより適切に保護する方法をレビューしています。他の多くのOWASPプロジェクトと同様、アプリケーション開発においてソフトウェアライフサイクルの早い段階からより良いセキュリティを組み込むことに焦点を当てています。
Gray Swan AIのAndy Swanは、AIエージェントのセキュリティ課題に関する学術論文をチームで発表しました。3月には、22の最先端AIエージェントを44の現実的な展開シナリオでテストし、約200万回のプロンプトインジェクション攻撃の効果を観察しました。6万件以上の攻撃が成功し、「敵対者に対する追加の防御が必要であることを示唆しています。この取り組みは、エージェントレッドチーミングのベンチマークと高インパクト攻撃を評価するフレームワークの作成に使われました。」結果は深刻かつ繰り返しの失敗を明らかにしました。エージェントはしばしば明示的なポリシーに違反し、敵対的入力に耐えられず、金融、医療、カスタマーサポートなどの分野で高リスクな行動をとりました。「これらの攻撃は非常に転送性・汎用性が高く、モデルのサイズや能力、防御戦略に関係なく影響を及ぼしました。」
インフラに対して効果的なレッドチームを編成する際の課題の一部は、エージェンティックAIを扱う場合、インシデントの発見や緩和の方法が従来と異なることです。「インシデント管理の観点からは、エージェントと過去の攻撃の間には、どのデータを保護すべきかという点で共通点もあります」とDresner AdvisoryのエージェンティックAI研究者であるMyles SuerはCSOに語ります。「しかし、生成AIはデータを行や列ではなくチャンクで保存するため、発見が難しい場合があります。」さらに、時間が重要です。「脆弱性とエクスプロイトの間の時間は、エージェンティックAIのおかげで指数関数的に短縮されています」とMend.ioのAIセキュリティ責任者Bar-El TayouriはCSOに語ります。
エージェンティックレッドチーミングを実装するための5つのステップ
1. 姿勢を変える
エージェンティックレッドチーミングにおける最大の課題は、企業防御の視点を変えることかもしれません。「データベース管理者がすべてのデータに完全アクセスできた時代は終わりました」とSuerは言います。「データに対して新鮮な姿勢を持ち、そのビジネス上の重要性を完全に理解する必要があります。」例えば、一般的なペンテストツールであるBurp Suiteは、AIモデルによって誤用されるモデル入力や出力を検出するために使えるとBrauchlerは提案しています。「コンテキストが重要であり、BurpはCrescendo攻撃のようなジェイルブレイクされたエージェントの行動を自動テストするためにも使えます。」
Blizzard Entertainmentのアプリケーションセキュリティ部門責任者Kurt Hoffmanは、AIエージェントは「本質的にはフォースマルチプライヤーであり、既存のペンテストへの熟練した追加要素ですが、代替にはなりません。AIエージェントにはレッドチーミングの退屈で単調な部分を任せ、人間には創造的で新しい攻撃方法を見つけさせるべきです。なぜなら、エージェントは常に人間と協働することで最も効果を発揮するからです。AIエージェントは、これまで見たことのない規模で攻撃を拡大する能力を持っています。」
その姿勢の一部は、エージェンティック防御を異なる視点で見ることです。「私たちは、人間が実際に生成AIシステムをどう使うかをテストする必要があります」とAIストラテジストのKate O’NeillはCSOに語ります。「現実世界のAIセキュリティの失敗の多くは、誰かがエージェントをハックしたからではなく、ユーザーが盲点を作り出したからです。つまり、存在しない能力を過信したり、安全対策を完全に回避する抜け道を見つけたりすることです。レッドチーミングは必要ですが、それだけでは十分ではありません。私が見てきた最も効果的なプログラムは、従来のセキュリティテストと、参加型デザインセッションやステークホルダー影響マッピングを組み合わせています。『これを壊せるか?』だけでなく、『これが設計通りに動いたとき、誰が傷つくのか?』を理解することが重要です。」
もう一つ憂鬱な考え方として、「それは水鉄砲で津波と戦うようなもので、症状だけを見て病気を治していない」とBrauchlerは述べています。
2. ガードレールとガバナンスを把握し、継続的にテストする
エージェンティック型のエクスプロイトの多くは、さまざまなセキュリティガードレールを巧妙に回避して悪意ある行動を促します。CSAレポートは、これらのエクスプロイトがどのように機能するか、どんなプロンプトで回避できるか、どうすれば防げるかについて、ほとんど苦痛なほど詳細に説明しています。
「これらのガードレールをどこに設置する必要があるか、クラウド内かワークフロー内か、あるいはその両方かを理解することが重要です。AIエージェントを本番環境にリリースする前に適切なテストを実施し、必要なガバナンスとコントロール、可観測性を確保する必要があります。特に環境が動的に変化する場合はなおさらです」とGartnerのアナリストTom CoshowはCSOに語ります。
検討に値する取り組みの一つが、ForresterのAgentic AI Guardrails for Information Security (AEGIS)です。これはガバナンス、データおよびアプリケーションセキュリティ、ゼロトラストアーキテクチャのレイヤーをカバーしており、考慮すべき点が非常に多いです。
3. チームメンバーの基盤を広げる
一筋の希望として、組織はレッドチームのスキル基盤をより広く活用できることがあります。「AIレッドチーマーは英語、あるいはテスト対象の言語さえ知っていれば十分です。大学の歴史専攻の学生でも、言語を使ってモデルの行動を操作できます」とPangeaのMeloは述べています。
4. 解決策の幅を広げる
「覚えておいてください」とCalypsoAI社長のJames WhiteはCSOに語ります。「生成AIモデルが稼働していても、質問しない限り脅威はありません。しかし、エージェントはこれを回避できます。なぜなら、エージェントは典型的な時系列的因果関係の連鎖をほぼ無限に壊す方法を見つけられるからです。」これは、組織全体で何が起きているかをより広い視野で理解する必要があることを意味します。従来の因果関係の習慣を断ち切り、潜在的な脅威を全体の一部として捉えましょう。
「AIはもはや単なるツールではなく、システムの参加者であり、コードの共著者であり、意思決定者であり、そしてますます敵対者にもなりつつあります」とRADwareの脅威インテリジェンスディレクターPascal Geenensはレポートで述べています。「しかし、敵対者の視点から見ると、状況は変わりました。もはや時間、才能、予算に制限されません。」
O’Neillが言うように、「CSAレポートは技術的な基盤を提供しますが、人間中心の要素こそが現実世界での被害を防ぐプログラムへと変えるのです。」
5. 最新のツールと手法を検討する
OWASPによれば、セキュアなエージェンティックシステムを構築するには、個々のコンポーネントのセキュリティだけでなく、アーキテクチャ自体にセキュリティを組み込む包括的なアプローチが必要です。そのため、AgentDojo、SPLXのAgentic Radar、Agent SafetyBench、HuggingFaceのFujitsuベンチマークデータセットなど、レッドチーミングワークフローの作成・実行に使える開発ツール(オープンソースプロジェクトも含む)をいくつか挙げています。さらに最近では、Solo.ioがAgentgatewayプロジェクトをリリースし、これはエージェント間通信を監視するためのオープンソースツールです。
レッドチーミングの構築と自動化を支援する他の商用ツールもあります:
- CalypsoAI.comは、エージェンティックレッドチーミングを含むInference Platformを提供しています。プロダクト責任者のKim Bielerは、レッドチーミングが重要となるタイミングは、モデル開発中、より大きなアプリケーション開発プロセス中、そして完成コードの本番前の3回だとCSOに語っています。
- Crowdstrike AI Red Team Servicesには、エージェンティックレッドチーミング機能を含む、AI保護のためのフルセットのサービスが含まれています。
- SPLXのAI Platformは、生成AIインフラ全体で大規模なリスク評価を実施し、さまざまな自動レッドチーミング手法による数千のインタラクションをシミュレートします。
- Microsoftは、AI Red TeamのオープンソースツールキットPython Risk Identification ToolをAzure AI Foundryに統合しており、敵対的ユーザーの行動をシミュレートし、自動スキャンやプローブの成功評価を行います。
- Salesforceは、アプリケーションインフラ向けに独自の自動レッドチーミングフレームワークを持っています。
- HiddenLayerは、エージェンティックレッドチーム自動化ツールを提供しています。
最後に、Susanna Coxがブログで書いているように:「AIエージェントは異なります。攻撃対象領域は、これまで見たAIシステムとは多くの点で異なります。そして、これまでのどんなソフトウェアシステムにも与えられなかった権限を、正当な理由で与えられています。エージェントのアーキテクチャが攻撃対象領域を決定します。」
ニュースレターを購読する
編集部からあなたの受信箱へ
下記にメールアドレスを入力して開始してください。
翻訳元: https://www.csoonline.com/article/4055224/5-steps-for-deploying-agentic-ai-red-teaming.html