フロンティアAIモデルはマルチターンAI攻撃で崩壊する、Ciscoが発見

大規模言語モデルを探索する攻撃者は、一度拒否されてもめったに諦めない。文脈を組み替え、複数のターンをまたいで文脈を積み上げ、ペルソナを採用し、徐々にエスカレートさせる。CiscoのAI脅威インテリジェンスチームの新たな研究により、業界全体で使用されている安全性ベンチマークがこうした挙動のほぼすべてを見落としており、公表されたスコアと実際に観測された耐性との乖離が、主要モデルのランキングを誤らせるほど大きいことが明らかになった。

モデル別のシングルターンとマルチターンのASR。シングルターン（上バー）とマルチターン（下バー）の推定値に対する95%信頼区間の近似半幅付き。（出典：Cisco）

本レポートは、OpenAI、Anthropic、Google、Amazon、xAIの15のクローズドフラッグシップモデルを対象に、シングルターンとマルチターンの評価を組み合わせて実施している。テストでは約30,000件のシングルターンプロンプトと、1,400以上の会話にわたる約7,000件のマルチターン攻撃を網羅した。コホート全体でマルチターンの攻撃成功率（ASR）は最大88%に達し、グループ内の最低値の約10倍に相当する。シングルターンとマルチターンのテストは、異なるランキング、異なる失敗マップ、異なるテールリスクプロファイルをもたらした。

シングルターンスコアは実際のリスクを隠す

コホート内のすべてのモデルが、マルチターン攻撃の相当な割合で失敗した。OpenAIのGPT-5.4は反復的な圧力のもとで約9倍に跳ね上がり、シングルターンASRが一桁台前半から約25%へと上昇した。GoogleのGemini 3 Proは約18%から73%へと上昇した。xAIのGrok 4.1 Fast（非推論設定）はコホート最高の88%を記録した。AnthropicのClaudeファミリーはシングルターンの拒否性能が最も高く、シングルターンASRは一桁台前半だったものの、攻撃者が適応できる状況下では11%から16%の範囲に落ち着いた。

評価体制間のギャップは双方向に現れた。Gemini 3 Proは反復テストで55ポイント以上上昇した。一方、Amazon Novaの3バリアントすべては逆方向に動いた。Nova 2 Liteはシングルターンで比較的高いASRを記録したものの、マルチターンASRはコホート全体で最低の約8%だった。テストしたモデルの半数以上が、2つの体制間で少なくとも15ポイントの絶対的なギャップを示した。

CiscoのAI脅威・セキュリティ調査責任者であるAmy Chang氏はHelp Net Securityに対し、モデルを信頼する前に購入者や規制当局が問うべき質問は明確だと述べた。「このモデルは現実世界の攻撃シナリオに対してどれほど安全か？」という問いであり、それは具体的には「このモデルはマルチターンかつ適応型の攻撃にどれほど耐えられるか？実際の攻撃者は最初の拒否で諦めない。会話を通じて文脈を積み上げ、問いを組み替え、エスカレートさせる。シングルターンのベンチマークスコアは、攻撃者が使わないシナリオでモデルがどう振る舞うかを示しているにすぎない」と語った。

設定フラグ一つで状況が一変する

同じGrok 4.1 Fastモデルで推論モードを有効にすると、マルチターンASRは約半分に減少し、単一の機能フラグに起因する40ポイント以上の変動が見られた。この研究では、こうした設定起因の安全性のばらつきは、著者が調査したいかなる公開ベンチマークやモデルカードにも記載されていないことが指摘されている。デフォルトの非推論設定でモデルを使用しているユーザーは、推論をオンにしているユーザーとは大きく異なる脅威プロファイルに直面している。

本研究は、Ciscoが以前実施した8つのオープンウェイトモデルを対象とした研究を拡張したものであり、その研究ではマルチターンASRがシングルターンのベースラインより2〜10倍高く、Mistral Large-2に対しては90%以上に達していた。マルチターンの脆弱性は、オープン・プロプライエタリいずれのウェイトにも存在する、現在のフロンティアにおける構造的特性として現れている。

失敗が集中する場所

マルチターンの結果の大部分を牽引したのは、5つの戦略ファミリーだった。すなわち、ロールプレイとペルソナ採用、文脈的曖昧性、拒否の組み替え、情報分解、そしてクレッシェンド型のエスカレーションである。各ファミリー内では、最も露出が高いモデルと低いモデルの差は大きく、しばしばチャートの全レンジに近づいていた。このパターンは、平均的な難易度が似通って見える場合でも、戦略ラベルが主にどのモデルが乖離するかを整理していることを意味する。

シングルターン側では、Imposter AI、Soft Paraphrase、System Promptsの3つの手法がランキングを支配した。コンテンツタイプ別では、ヘイトスピーチ、冒涜的表現、専門的アドバイスが上位を占めた。Imposter AI単独で10位の手法を大きく上回っており、少数の攻撃対象領域への集中的な修正が、コホート内のほとんどのモデルの全体的な数値を改善できる可能性を示唆している。

ガードレールはリスクを低減するが排除はしない

本番環境のデプロイでは、通常ベースモデルに追加の安全レイヤーが組み合わされる。Chang氏は、それらのレイヤーは限界を伴いながらも有効だと述べた。「ガードレールはリスクを軽減するが排除はしない。ベースモデルが、いかなる本番システムが達成できるかの下限を設定する。従来のソフトウェア開発においてコード本体とすべての依存関係のリスク許容・受容判断が伴うように、AI開発とデプロイにも同じアプローチが適用される。ただし、不正または誤整合のAIエージェントの被害範囲は、ソフトウェアの欠陥よりも深刻になり得る。このエージェント型AIの動向に注目すべきだ」と語った。

Ciscoのチームは、AIを購入または展開する組織に対して3つの運用上の手順を提案している。すべてのモデルリリースで戦略ファミリー別のASRを公開すること、上位3つの手法とコンテンツタイプにおける後退を3ポイントの閾値を用いてデプロイのゲートとして使用すること、そして体制間のギャップが15ポイントを超えるモデルは手動レビューにフラグを立てることである。このコホートに適用した場合、3つ目のルールだけでテスト対象モデルの半数以上が精密審査の対象として浮かび上がる。

規制の枠組みも同じ方向を指し示している。NIST AIリスクマネジメントフレームワーク、策定中のNIST Cyber AIプロファイル（IR 8596）、そしてEU AI法第15条はいずれも、敵対的堅牢性テストを求めている。しかし現時点では、Ciscoの研究が意思決定レベルの評価に必要だと主張する、インタラクション体制、戦略分解、スライスサポートのラベリングについて具体的に規定したものは存在しない。

翻訳元: https://www.helpnetsecurity.com/2026/05/28/cisco-multi-turn-ai-attacks/

フロンティアAIモデルはマルチターンAI攻撃で崩壊する、Ciscoが発見

シングルターンスコアは実際のリスクを隠す

設定フラグ一つで状況が一変する

失敗が集中する場所

ガードレールはリスクを低減するが排除はしない

共有:

関連

関連記事

Spiralsランサムウェア、24時間足らずで被害者のシステムを完全掌握

詐欺師がFaceTimeを悪用し銀行口座を狙う

Claudeが1Passwordと連携し、認証情報を露出させずにウェブサイトへログイン可能に