LLMの敵対的プロービングは過去3年間で広範なツールキットを蓄積してきました。Tree of Attacks with Pruning、Crescendo、Skeleton Keyなどの名前を持つ攻撃技術は、MicrosoftのPyRIT、NVIDIAのGarak、Promptfooを含むオープンソースフレームワーク全体で数百のプロンプト変換とスコアリング手法と並んでいます。カタログはどのオペレーターが流暢にナビゲートできるよりも速く成長しており、そのズレはAI赤チーミングの実施方法を変えています。

最近の研究の波は、エージェント調整アセスメント指向を示しており、AIエージェントが攻撃を選択し、変換を作成し、ターゲットに対して実行し、自然言語の目的から構造化された調査結果を生成します。過去1年間に発表された研究は、自律エージェントが黒箱赤チームチャレンジの大部分を解決し、人間オペレーターに比べて大幅な効率向上をもたらすことを示しています。セキュリティ企業Dreadnodeからの新しい論文は、別のデータポイントを追加し、自然言語の目的からMetaのLlama Scoutに対して約3時間で674回の攻撃を実行したエージェントについて説明しています。
エージェント層の変更内容
これらのシステム全体のパターンは同様です。オペレーターが目的を平文で説明します。エージェントが攻撃戦略を選択し、Base64エンコーディング、ペルソナフレーミング、低リソース言語への翻訳などの変換を適用し、ターゲットに対して攻撃を実行し、LLMジャッジで結果をスコアリングし、OWASP LLM Top 10、MITRE ATLAS、NIST AI RMFなどのコンプライアンスフレームワークに調査結果をマップします。
「従来のAI赤チーミングフレームワークでは、オペレーターは攻撃、変換、スコアラー、データセット、実行パイプラインを手動で設定するのに時間を費やす必要があります。ワークフローの大部分は、セキュリティと安全プロービングというよりも、ライブラリ構成周辺のブルートフォース工学演習になってしまいます」と、論文の共著者でMicrosoftのCounterfit およびPyRITプロジェクトの共同作成者であるRaja Sekhar Rao DheekondaはHelp Net Securityに語りました。「エージェントの背後にある核心的な考え方は、オペレーターを実装オーバーヘッドから離れさせ、ターゲット動作、攻撃範囲、リスク分析についてのより高いレベルの推論へと移行させることです。」
Llama Scoutのケーススタディから報告された数値は、スループットを示しています。有害なコンテンツとバイアスカテゴリーにまたがる68の敵対的目的全体で、エージェントは3つの攻撃タイプを5つの変換バリアントで実行し、85パーセントの攻撃成功率に到達しました。CrescendoとGraph of Attacks with Pruningと呼ばれる新しい技術は100パーセントに達しました。skeleton-keyフレーミングのようなペルソナベースの変換も100パーセントに到達しました。Base64エンコーディングは75パーセントで低くなり、モデルがロールプレイフレーミングよりもエンコードされたペイロードをより確実に拾ったことを示唆しています。
ヘッドラインの数値が見落としているもの
このアプローチの採用を検討しているチームにとって、いくつかの適格性が重要です。
3時間の数値は、フレームワークの焦点を絞ったスライスをカバーしています。論文自体の制限事項セクションは、すべての攻撃タイプと害のカテゴリー全体の包括的なアセスメントが数日に近づくことを認めています。Llama Scoutは2025年4月にリリースされた170億パラメータモデルであり、中規模のオープンモデルでの85パーセントは現在のフロンティアシステムに対する結果についてほとんど何も述べていません。
調整された開示は別の未解決の問題です。シェルコードローダーと化学合成ステップを含む逐語的出力を公開する前にMetaとの処理について尋ねたとき、Dheekondaは、この作業は「主に認識と研究実証のための意図」であり、「公開前にMetaと開示を調整していなかった」ことを確認しました。彼は、後続のLlama Scoutチェックポイントが特定された攻撃と変換の組み合わせを軽減するかどうかを評価していません。
エージェントの整列も適用範囲を制限します。「基礎となるモデルがオペレーターの目的を有害として解釈するため、オーケストレーションエージェント自体が正当なAI赤チーミングワークフローの作成を拒否するケースを観察しました」とDheekondaは述べました。高度に整列されたフロンティアモデルは、自傷やCBRNプロービングなどの機密カテゴリーに対する攻撃的ワークフローの生成を拒否しています。Llama Scoutの研究は、このため、オペレーターと判定官の両方として、Moonshot AIのKimi 2.5モデルを使用しました。CBRNと児童安全ドメイン全体の包括的な評価は依然進行中です。
熟練した人間オペレーターに対する正式な比較は行われていません。Dheekondaは、熟練した人間は「微妙な長期的推論、非常に文脈的なソーシャルエンジニアリングシナリオ、新しいエクスプロイトチェーン、および限定的な攻撃履歴がある新興攻撃面」においてエージェントを上回り続けることに注意しました。
アクセシビリティの問題
敵対的テストの動作フロアを下げることは、防御者と動機づけられたアクターの両方に利益をもたらします。Dheekondaのフレーミングは、基盤となる技術は既に公開されているため、意味のある変更はアクセスと規模です。「組織にとってのより大きなリスクは、これらの攻撃技術が公開されているかどうかではなく、防御者が実世界の敵対者がそうする前にシステムを積極的かつ継続的にプロービングできるかどうかです」と彼は述べました。また、アクセシビリティの変化は脅威モデルに影響を与え、以前はスクリプティング専門知識を必要とした作成とオーケストレーション作業が、現在はより低いオーバーヘッドで実行可能になったことを認めました。
セキュリティプログラムにとっての意味
1人のオペレーターが午後に数百の攻撃を実行できる場合、継続的なAIアセスメントは実用的になります。これにより、年次または四半期ごとの赤チーム契約に関連する調達とスタッフ仮定が変わります。また、人間の判断をスタックの上に移動させます。価値のあるスキルはワークフローエンジニアリングではなくなり、トリアージになります。数百の自動化調査結果のどれが特定のデプロイメントコンテキストの実際のリスクを反映しているかを決定します。
ボリュームは独自の失敗モードを作成します。自動コンプライアンスタグを備えた232個のクリティカル調査結果を報告するダッシュボードは、セキュリティと簡単に間違えられます。エージェント駆動アセスメントを採用するチームは、どの調査結果を修復するか、既知のリスクとして受け入れるか、スコアラーアーティファクトではなく真の脆弱性を反映しているかの所有権を持つ必要があります。エージェンティック赤チーム活動の検出ツールは、エージェンティック攻撃者活動と非常に密接に類似しており、引き続き未発達のままです。
移動の方向は設定されています。前方の仕事は、より速いアセスメントがより良いセキュリティを生み出すことを確認することです。
翻訳元: https://www.helpnetsecurity.com/2026/05/21/ai-red-teaming-agents-research/