AIモデルは反復的な攻撃に直面した際、主張されているよりも脆弱であることが判明

Ciscoの研究者たちが、主要なAIモデルが現実的なマルチターン攻撃に対していかに脆弱であるかを示し、ベンダーのシングルプロンプト安全性ベンチマークの価値に疑問を呈した。

組織のAI利用やモデル選定に関するセキュリティ上の意思決定においてLLMランタイムガードレールと公式安全スコアに依存しているCISOたちは、目を覚ます必要がある。

Ciscoの新しい研究によると、OpenAI、Anthropic、Google、xAI、Amazonのフロンティアモデルはシングルプロンプトによるベンチマークと比較して、マルチターン攻撃を受けた際のリスクプロファイルが大幅に悪化することが明らかになった。

「フロンティア大規模言語モデルの主要な安全性ベンチマークは、構造的な前提を共有している。それは、単一のプロンプトと単一のモデル応答で、敵対的攻撃下においてモデルがどのように振る舞うかを特徴付けるには十分だという前提だ」と、この研究を執筆したCiscoの研究者たちはブログ記事の中で述べた。「これらのベンチマークは業界全体でモデルカード、安全性レポート、調達判断に影響を与えているが、いずれも攻撃者の行動の一側面しか測定していない。」

その代わりに、研究者たちは最も広く使われているフロンティアAIモデル15種類を、現実の世界でより起こりうるさまざまな攻撃手法にさらした。現実の世界では、攻撃者はモデルが1つの悪意あるプロンプトへの応答を拒否しただけで諦めることはない。

「本物の攻撃者は反復する」と研究者たちは述べた。「拒否を言い換え、複数のターンにわたってタスクを分解し、ペルソナを採用し、段階的にエスカレートする。シングルターンのベンチマークではそのいずれも捉えることができない。」

複数プロンプトにわたるストレステスト

このテストでは、推論の有効・無効など様々なモデル構成を、安全ガードレールを回避することを目的とした一連の攻撃戦略に対して実施した。使用された手法には、ロールプレイ、文脈への曖昧さの導入による誘導、モデルの拒否の言い換えによるリダイレクト、情報の分解と再組み立て、そして単独では悪意があるように見えない小さな部分にタスクを分割する段階的エスカレーションが含まれた。

研究者たちは30,090件のシングルプロンプト攻撃(モデルごとに2,006件)を実行して各モデルの加重シングルターン攻撃成功率(ASR)を算出し、比較のために1,456件の会話にわたる6,986件のマルチターン攻撃を実施した。結果は示唆に富むものだった。ほとんどのモデルで、シングルプロンプト攻撃と比較してマルチターン攻撃の平均ASRスコアが大幅に高くなっていた。

例えば、テスト時点での最新バージョンであるAnthropicのClaude Opus 4.6とOpenAIのGPT 5.4は、シングルターンASRがそれぞれ3.64%と2.74%だった。マルチターン攻撃に直面すると、平均ASRはOpusで16.20%、GPTで24.68%に跳ね上がった。

しかしそのいずれも、最大のスコア上昇を記録したわけではない。GoogleのGemini 3 Proはシングルターン ASRが18.10%だったのに対し、マルチターンASRは73.35%に達した。

「公表されているシングルターンスコアに基づいてなされたビジネス上の意思決定にとって、これはセキュリティとガバナンスのリスクをもたらす」と研究者たちは結論づけた。「シングルターンASRが2.74%のモデルは、マルチターンASRが24.68%というラインを守るモデルとは別物だ。ペアリングされたレジームのデータなしでは、ほとんどの公開評価においてその2つは区別がつかず、エンドユーザーにはそのギャップが見えない。」

Image

Cisco

また、異なるモデル構成が安全性に影響を与えることも明らかになった。例えば、xAIのGrok 4.1 Fastは非推論モードでマルチターンASRが88.30%と最悪の結果だったが、推論を有効にすると43.47%に低下した。研究者たちは、こうした設定に関連した変動は、現在ラボが公開している公式のモデルカードや公開安全性ベンチマークでは捉えられていないと指摘する。

さまざまな攻撃戦略はシングルターンと反復攻撃の両方においてモデル間で成功率に有意な差を示しており、この知見はこれらのモデルの顧客に対する防御戦略の策定に役立てることができる。

テストではまた、AmazonのNova Lite、Nova Lite 2、Nova Microモデルのような外れ値も発見された。これらはいずれも、マルチターンよりシングルターンのASRが3倍以上高かった。

Meta、Mistral、Alibaba、DeepSeek、Google、OpenAI、Zhipu、Microsoftなどのラボのオープンソースモデルも、同じCisco研究チームが11月に発表した研究で明らかにされたように、マルチターン攻撃において同様の課題に直面していた。

「2つの研究を合わせると、それぞれ単独の研究よりも強い主張ができる。マルチターンの脆弱性は現在のフロンティアの構造的な特性であり、オープンウェイトのアライメント選択や能力優先の開発の産物ではない」と研究者たちは述べた。「ウェイトが公開か非公開かに関わらず、ラボが安全性を優先するか能力を優先するかに関わらず、反復攻撃のサーフェスはフロンティア全体にわたる未解決の課題であり続けている。」

行動を求める呼びかけ

Ciscoの研究者たちは、主にコンテンツの安全性に焦点を当てるのではなく、OWASPなどの組織が特定した現実の攻撃やAI固有の脆弱性を考慮した、より優れたベンチマークの策定を求めている。

また研究者たちによれば、モデル開発者は推論モード、温度、システムプロンプト遵守設定などの各種設定フラグが安全性に与える影響についてより透明性を高めるべきだという。さらに、さまざまな攻撃戦略ごとに分類されたシングルターンとマルチターン両方のASRを公開すべきだとしている。

これは特に、NIST AIリスクマネジメントフレームワーク、NIST Cyber AIプロファイル草案(IR 8596)、EU AI法第15条など、今後施行される規制フレームワークが敵対的テストを求めていることを踏まえると、重要性が高い。

「シングルターンとマルチターンのASRの絶対的な差が15ポイントを超えるモデルは、デプロイ前に手動レビューを実施すべきだ」と研究者たちは述べた。「このコホートではその基準が8つのモデルに該当する。ポジティブデルタが5つ(Gemini 3 Pro、Grok 4.1 Fast NR、GPT-5.4、Grok 4.1 Fast R、GPT-5.2)、ネガティブデルタが3つ(Nova Lite、Nova Micro、Nova 2 Lite)だ。」

翻訳元: https://www.csoonline.com/article/4177903/ai-models-more-vulnerable-than-claimed-when-faced-with-iterative-attacks.html

ソース: csoonline.com