自動化されたLLMレッドティーミングに学習層が追加される

大規模言語モデルの自動化されたレッドティーミングは、過去2年間で親しみのあるパターンで安定している。攻撃者モデルはターゲットモデルに対するジェイルブレイク試行を生成し、評価者が結果をスコア付けし、サイクルが繰り返される。

2つのアプローチが支配的である。1つは攻撃者に試行錯誤を通じて戦略を発明するよう求めるもので、成功した攻撃の狭い帯域を生み出す傾向がある。もう1つはWildTeamingフレームワークによって例示される、有害なクエリとジェイルブレイク戦術の大規模なオープンソースプールから引き出し、それらをランダムに組み合わせて攻撃者に提供するものである。

Capital Oneのai基礎グループの研究者たちは3番目のパスを提案した。Adaptive Instruction Compositionと呼ばれる彼らのフレームワークは、WildTeamingで使用されるクラウドソースされた攻撃要素を保持し、すでに機能したものに基づいて次にどの組み合わせを試すかを決定する学習層を追加する。

組み合わせの問題

WildTeamingを支えるWildJailbreakデータセットには、公開ソースからスクレイプされた約50,500の有害なクエリと13,311のジェイルブレイク戦術が含まれている。1つのクエリと2つの戦術を組み合わせると、8兆を超える可能な攻撃命令が得られる。ランダムサンプリングは何が機能するかについての事前の仮定なしに、無料で多様性を生み出す。

コストは、ランダムサンプリングが情報を破棄することである。特定の種類のクエリまたは戦術が与えられたターゲットに対する成功したジェイルブレイクを生み出すと、ランダムサンプラーは次の試行で同様の組み合わせに傾く方法がない。特定のデプロイされたモデルに合わせたトレーニングデータを構築しようとしているセーフティチームにとって、その非効率は数千の試行にわたって蓄積される。

適応的構成の仕組み

適応的命令構成は、ランダムコンバイナーを文脈的バンディットで置き換える。これは、エージェントが多くのオプションの中から選択し、受け取る報酬から学習する状況用に設計された強化学習モデルのクラスである。バンディットは候補クエリと戦術の意味的埋め込みを取得し、成功の予測される可能性に基づいて組み合わせをスコア付けし、評価者の評決を使用して各試行後に予測を更新する。

Image

適応的命令構成の概要(出典:研究論文)

実務者にとって重要な2つの設計選択がある。第1に、バンディットネットワークは小さく、単一の戦術構成では約2,200個のパラメータがある。第2に、入力埋め込みは対比的に訓練された文エンコーダー(SBERT)から来ており、意味的に関連したテキストを埋め込み空間でグループ化する。この組み合わせにより、モデルは成功した攻撃を、試したことのない他の同様の組み合わせに一般化でき、これは兆規模の行動空間での学習を扱いやすくする。

システムは単一のハイパーパラメータを通じて2つの動作モードをサポートする。微妙な設定はバンディットを探査に偏らせ、攻撃空間の広いカバレッジを生み出す。積極的な設定はそれを悪用に偏らせ、成功が蓄積する領域への試みを集中させる。広さを探すセーフティチームと深さを探すチームは、異なる設定で同じパイプラインを使用できる。

報告された結果

10,000試行シミュレーション全体で、適応システムは3つのオープンウェイトターゲットモデル(Mistral-7B、Llama-3-70B-Instruct、およびLlama-3.3-70B-Instruct)に対するWildTeamingの攻撃成功率を2倍以上にした。また、より広い範囲の一意な成功クエリを示し、より広い脆弱性カバレッジを示した。

Harmbenchベンチマークでは、システムは両方のターゲットモデルでほぼすべてのテスト動作について機能するジェイルブレイクを見つけた。2つの適用条件がある。ベンチマークは動作あたり最大150回の試行を許可するため、スコアはシステムがその予算内で最終的に機能する攻撃を見つけることができるかどうかを反映している。バンディットは評価前に10,000回の試行で事前訓練されてもいた。PAIR、TAP、AutoDAN-Turboなどの他の方法の比較番号は、以前に発表された数値から来ている。

攻撃はモデル間で移動する

1つのモデルをジェイルブレイクするように訓練されたバンディットは、再訓練なしで異なるモデルに対して機能した。1つのシステムの弱点を見つけた攻撃者は、他のシステムで実行スタートを得る。これは、スタック全体に複数のLLMをデプロイする組織にとって重要である。

システムが見つけるもの

Llama-3-70Bに対する成功した攻撃のクラスタリングは、クエリを精神保健搾取、詐欺、医学的偽情報、プライバシー侵害、物質乱用、および金融詐欺にまたがる14の意味的カテゴリーにグループ化した。戦術クラスタは9つのファミリーに分かれ、架空のフレーミング、ロールプレイング、難読化、および虚偽の正当化がほとんどの成功を占める。カテゴリーは元のWildJailbreak分類法に記載されているものと一致し、バンディットがより大きな効率で既知の脆弱性クラスに集中していることを示している。

制限と考慮事項

発表された評価は3つのオープンウェイトターゲットモデルをカバーしている。閉じた商用システムへの一般化は未テストである。訓練中の主な評価者はLlama-Guard-2であり、誤検知と誤検知を生み出すことができるため、報告された成功率は分類器ベースの判断に関連する通常の注意事項を記載している。著者は、二次チェックとしてHarmbench分類器で結果の下位集合を検証した。

計算要件は依然として多くある。単一の10,000試行シミュレーションは、ターゲットモデルに応じて70~120 GPU時間を消費し、他の反復的なレッドティーミングシステムと同様である。

作業は防御的なユースケース内にある。セーフティチームは、モデルを訓練してパッチするために攻撃データが必要であり、適応的構成は、ランダムサンプリングが提供するよりも、組織の特定の弱点のより良いカバレッジを持つそのデータを生成する方法を提供する。同じ技術は攻撃者にも利用可能であり、これはレッドティーミング研究の標準的な二重用途条件である。著者は、発見された脆弱性を模型開発者に責任を持って開示し、訓練されたポリシーウェイトを検証された研究者に制限することを推奨している。

ランダムファジングと標的化された学習された攻撃生成の間のギャップは狭まっている。まだ手動プロンプトエンジニアリングまたは非制御サンプリングに依存している内部レッドティーミングプログラムは、適応システムが成功率とカバレッジの両方で現在優れている工具で動作している。

翻訳元: https://www.helpnetsecurity.com/2026/04/30/automated-llm-red-teaming-learning-layer/

ソース: helpnetsecurity.com