主要AIモデルはベンダーの主張よりも悪意あるプロンプトに対して脆弱である

概要

ハッカーは開発者が見落としている攻撃によってフロンティアモデルを悪用できると、Ciscoが指摘した。

Image

概要:

  • 主要AIデベロッパーのモデル安全性に関する主張は、ハッカーの行動についての誤った前提に基づいている、とCiscoの研究者が水曜日に公開したレポートで述べた
  • AIベンダーは、モデルが一度に1つの悪意あるプロンプトを退けられれば乗っ取りから安全だと想定しているが、ハッカーはモデルの防御を回避するためにマルチステージプロンプトをますます多用しており、ほとんどのモデルはそのような攻撃に対して準備ができていないと、Ciscoは指摘した。
  • 今回の新しいレポートは、AIモデルの内部に潜むほとんど過小評価されている危険性を示しており、これらのツールを利用する企業が幅広い混乱や損害にさらされる可能性がある。

詳細:

OpenAI、Anthropic、Google、Amazon、xAIの15の主要AIモデルに対するCiscoの評価は「シングルターン攻撃成功率(ASR)が、攻撃者がターンをまたいで適応できる場合に何が起きるかの信頼できる代理指標ではないことを示した」と、研究者のニコラス・コンリーとエイミー・チャンは記述した。彼らのテストにより、AIモデルはマルチターンの悪意あるプロンプトに対してはるかに脆弱であることが明らかになった——成功率はシングルターンプロンプトの2〜65%に対し、8〜88%に及んだ。

「テストしたすべてのモデルが、無視できないマルチターンASRを示した」とコンリーとチャンは記述した。

この2人の研究者はかつて2025年11月のレポートで共同研究を行い、オープンウェイトAIモデルはシングルターン攻撃に比べてマルチターン攻撃に対して2〜10倍脆弱であることを明らかにした。

「オープンモデルで記録したパターンはクローズドモデルにも当てはまる」と、彼らは新しい研究で記述した。「このコホートにおけるフロンティアのクローズドモデルは、反復攻撃に対して安全であるとは言えない。これは現在のクローズドモデルフロンティアの状況についての主張であり、特定のベンダーについての主張ではない。」

この研究の最も重要な発見の一つは、AI企業の優先事項とモデルの安全性との相関関係だった。コンリーとチャンは、モデルの性能向上を公的に強調したAIデベロッパーのモデルほど、シングルターン攻撃への脆弱性とマルチターン攻撃への脆弱性の間のギャップが大きいことを発見した。公的な声明でモデルの安全性を強調したデベロッパーは差異が小さく、リスクの最小化に向けたより一貫した取り組みが示されている。

研究者は5つの戦略をテストした:ロールプレイ、モデルの誤誘導、情報分解、モデルの拒否の再フレーミング、段階的エスカレーション。xAIのモデルであるGrok 4.1 Fast Non-Reasoningが最も成績が悪く、マルチターン攻撃の88%で研究者が成功した(シングルターン攻撃では34%の成功率だった)。最も優秀なモデルであるAmazonのNova 2 Liteは、マルチステージ攻撃の8%しか防御できなかったが、研究者はその数字も「依然として意味のある残存リスクを表している」と述べた。

コンリーとチャンは、Grok 4.1は推論を有効にすると大幅に改善されることを指摘し、AIベンダーは推論ステータスなどの設定上の判断による「安全性に関連する影響を文書化すべき」と述べた。

OpenAI、Anthropic、Google、Amazon、xAIはコメントの求めに即座に応じなかった。

ベンダーはAIモデルの安全性評価方法を見直す必要があり、企業はモデルのシングルターンとマルチターンの攻撃耐性のギャップに関する詳細な情報を必要としていると、研究者は述べた。

「公開されたシングルターンスコアに基づいて行われたビジネス上の判断にとって、これはセキュリティとガバナンスのリスクをもたらす」とコンリーとチャンは記述した。「シングルターンASRが2.74%のモデルは、マルチターンASRが24.68%のモデルとは同じ製品ではない。ペアとなるレジームデータがなければ、ほとんどの公開評価では両者を区別できず、エンドユーザーはそのギャップを知ることができない。」

翻訳元: https://www.cybersecuritydive.com/news/cisco-ai-models-research-multi-turn-prompt-attacks/821211/

ソース: cybersecuritydive.com