eSecurity Planet のコンテンツおよび製品推薦は編集上独立しています。パートナーへのリンクをクリックすると収益が発生する場合があります。 詳細はこちら
Ciscoによる最先端LLMの評価では、テストされたモデルのいずれもマルチターンの敵対的攻撃に一貫して抵抗できなかったことが判明し、現在のAI安全性評価に対する懸念が高まっています。
この研究は、広く使用されている多くのAI安全性ベンチマークが、適応型・反復型攻撃よりも主にシングルターンのプロンプト評価に焦点を当てているため、現実世界のリスクを過小評価している可能性があることを示唆しています。
Cisco研究の主な知見
- Ciscoは、テストされた最先端LLMすべてがマルチターンの敵対的攻撃に対して脆弱であり続けていることを発見しました。一部のモデルはシングルターンの安全性において高いパフォーマンスを示しているにもかかわらずです。
- マルチターン攻撃の成功率は、プロプライエタリおよびオープンウェイトのAIモデル双方において、シングルターンの結果を大幅に上回りました。
- 攻撃者は、リクエストを段階的に言い換え、ペルソナを採用し、複数のやり取りにわたって悪意あるプロンプトをエスカレートさせることで、安全策を回避できます。
- 公開されているAI安全性ベンチマークやモデルカードは、多くの場合シングルターン評価のみに焦点を当てているため、現実世界のリスクを過小評価している可能性があります。
- 研究者たちは、エンタープライズAIのセキュリティとガバナンスを向上させるために、マルチターンテスト、ランタイム監視、レッドチーム演習、外部ガードレールの導入を推奨しています。
最先端モデルが示す高いマルチターンリスク
研究者たちは、OpenAI、Anthropic、Google、Amazon、xAIの15のプロプライエタリ主力モデルを、シングルターンとマルチターン両方の攻撃シナリオで評価しました。
結果によると、シングルターン攻撃成功率(ASR)は2.19%から64.91%の範囲であったのに対し、マルチターンASRは7.89%から88.30%の範囲に及びました。
研究者たちは、シングルターンテストだけでは、攻撃者が複数のやり取りにわたって戦術を適応させた場合のモデルの挙動を正確に反映しないと結論付けました。
この研究は、オープンウェイトモデルを対象とした以前の研究を発展させたものであり、マルチターン攻撃成功率がシングルターンのベースラインの2倍から10倍に達することが確認されています。
このパターンはオープンモデルとプロプライエタリ両方の最先端モデルに一貫して見られており、マルチターン攻撃へのリスクが現在のLLMアーキテクチャにおける広範な構造的課題であることを示唆しています。
マルチターン攻撃が明らかにするAIセキュリティの欠陥
研究者たちは、攻撃者が単一の悪意あるプロンプトに頼ることはほとんどないため、マルチターンテストが現実世界の敵対的行動をより正確に反映していると強調しました。
代わりに、脅威アクターはしばしばリクエストを言い換え、段階的にエスカレートし、ペルソナを採用し、あるいは安全策を回避するために悪意ある目的を複数のやり取りに分散させます。
レポートは、テストされたモデル間でシングルターンとマルチターンのパフォーマンスに大きな差があることを発見しました。
OpenAIのGPT-5.4はシングルターンASR 2.74%からマルチターン条件下で24.68%に増加し、GoogleのGemini 3 Proは18.10%から73.35%に増加しました。
AnthropicのClaudeモデルは、シングルターンの拒否率において最も高いパフォーマンスを示したものの、マルチターンASRは依然として11.16%から16.20%に達しました。
xAIのGrok 4.1 Fast(非推論モード)は、観測された最高のマルチターンASR 88.30%を記録しました。
研究者たちはまた、デプロイ設定に関連した大きな変動を特定しました。
Grok 4.1 Fastは推論モードを有効にした場合にマルチターンASRが顕著に低下し、同じテスト条件下で88.30%から43.47%に減少しました。
レポートは、設定オプション、推論モード、またはガードレールオプションに関連した安全性の違いは、公開ベンチマークやモデルカードには通常反映されないと指摘しました。
攻撃戦略とエンタープライズリスク
レポートは、敵対的戦術をいくつかの戦略カテゴリに分類しました。ロールプレイとペルソナ採用、文脈的曖昧化、拒否の言い換え、情報の分解、段階的エスカレーション技術などが含まれます。
研究者たちは、比較的低い総合ASRを持つモデルであっても、これらの攻撃カテゴリ間でパフォーマンスが異なることを発見しました。
シングルターンの脆弱性も、なりすましAI技術、ソフトパラフレーズ、システムプロンプト操作など、いくつかの繰り返し手法に集中していました。
これらの攻撃パターンは他の多くのプロンプトカテゴリよりも一貫して高いASRを生み出しており、防御強化の優先分野として機能し得ます。
この知見は、エンタープライズ環境でAIシステムを導入する組織に対してより広い示唆を与えています。
研究者たちは、公開されているシングルターンベンチマークのスコアのみに依存することで、ガバナンスと調達リスクが生じる可能性があると警告しました。なぜなら、ヘッドラインの安全スコアが似ているモデルでも、反復的な攻撃に対して大きく異なる挙動を示す場合があるからです。
AIセキュリティテストとガバナンスの強化
このレポートは、敵対的AIテストとモデルの堅牢性に関するより広い規制上の議論と一致しています。
NISTのAIリスクマネジメントフレームワーク、近日公開予定のNISTサイバーAIプロファイル、および欧州連合AI法を含むフレームワークはすべて、敵対的堅牢性テストを参照しています。
ただし、これらのフレームワークの多くは現在、マルチターン評価手法に関する詳細なガイダンスを欠いていることに留意すべきです。
研究者たちは、シングルターンとマルチターン攻撃のペアレジームテスト、戦略別ASRの公開、クロスレジームパフォーマンスに大きなギャップを持つモデルのレビューを推奨しました。
レポートはまた、エンタープライズがモデルレベルの安全性の主張のみに依存するのではなく、ランタイム監視、レッドチーム演習、アプリケーション層の保護、外部ガードレールにますます注力することを提案しました。
この知見は、AIの耐性テストが現実世界のマルチターン攻撃者の行動をより適切に反映するために、静的なベンチマークを超えて進化しなければならないことを示しています。