本番環境で顧客サービスボット、データ分析エージェント、その他のAI駆動型アプリケーションを実行している企業は、毎日機密記録を処理し、コアビジネスシステムに接続しています。LangWatchは、敵が実際に運用する方法を反映するマルチターン攻撃技術を使用して、AIエージェントに対して自動化されたレッドチームエクササイズを実行するオープンソースフレームワークであるScenarioをリリースしました。

マルチターン攻撃がシングルショットテストに取って代わる
シングルプロンプト侵入テストは長い間、LLMを調査するための標準的なアプローチでした。モデルはしばしば直接的な攻撃には堅く保つものの、複数の会話ターンにわたって機密情報が漏洩します。Scenarioは意図的にこれらの会話を構造化し、無害な探索で始まり、複雑なリクエストと権威に基づくプレッシャーに向かって構築されるシーケンスを実行します。
このフレームワークはCrescendo戦略という4段階のエスカレーションを使用します。初期ターンでは親しみやすい質問を通じてラポートを構築します。中盤のターンでは、仮説的なフレーミングと権威の役割を導入します。例えば、テスターが「コンプライアンス監査を実施しています」というような発言で監査人になりすまします。最終ターンではコンテキストが構築されたら最大のプレッシャーを適用します。各交換の後、2番目のモデルが進捗をスコア付けし、攻撃戦略を調整するため、自動化されたレッドチームはターン全体にわたってアプローチを洗練させます。
バックトラッキングは攻撃者に非対称な優位性を与える
Scenarioの設計上の選択により、攻撃モデルはすべての失敗した試みの永続的なメモリを持ち、ターゲットエージェントのメモリは試み間でワイプされます。LangWatchのCTO、Rogerio Chavesは、Help Net Securityに対して、この非対称性は実際の敵対的な会話がどのように機能するかを反映しており、ほとんどのテストツールが考慮していないものだと述べました。
「Scenarioを区別するのは、QAエンジニアのようではなく、攻撃者のように考えることです」とChavesは述べました。「ほとんどのレッドチーミングツールは基本的に凝ったチェックリストです。それは昨日の攻撃をテストしているだけです。」彼はさらに、このフレームワークはシミュレーションテストと敵対的なレッドチーミングを組み合わせ、ラポート構築、ソフトなプローブ、信頼が確立された後のエスカレーションなど、操作の社会的ダイナミクスをモデル化していると述べました。
ツールアクセスを持つ侵害されたエージェントに焦点を当てる
Chavesは彼が実質的なエンタープライズリスクを見ている場所を指摘しました。「ジェイルブレイクはすべてのプレスを獲得します。それはほとんどPRの問題です。企業にとっての実存的なリスクはデータベースまたは金融ツールアクセスを持つ侵害されたエージェントであり、それはScenarioが見つけるために設計されたものです」と彼は述べました。
AIセキュリティに関する公開討論はディープフェイク、偽情報、プライバシーに大きく焦点を当ててきました。多くの組織の運用上のエクスポージャーは別の場所にあります。彼らが構築してデプロイするカスタムAIアプリケーション、彼ら自身のデータストアとワークフローに対してです。これらのエージェントは会話インターフェースを通じてアクセス可能であり、従来のセキュリティテストが捕捉しない方法で操作される可能性があります。
ターゲットユーザーとロードマップ
Scenarioは、本番環境でAIエージェントを実行している銀行、保険会社、およびAI優先のソフトウェア企業を対象としています。このフレームワークは既存の開発と継続的統合パイプラインにスロットインするように構築されているため、チームは標準QAと並行して敵対的テストを実行できます。
次に何が来るかについて、Chavesは、チームは97%の成功率を報告したMeta研究者によって公開されたマルチターン攻撃方法を組み込むために取り組んでおり、それをScenarioの既存のアプローチと組み合わせることだと述べました。さらなる追加には、より多くの攻撃戦略とドメイン固有の攻撃ライブラリが含まれます。
ScenarioはGitHubで無料で利用可能です。