単一のプロンプトで主要な言語モデル15種のAI安全性が破られる

GRP‑Obliteration手法は、穏やかなプロンプトでさえ内部の安全メカニズムを作り替え得ることを明らかにし、企業が特権的な学習アクセスを伴ってオープンウェイトモデルを微調整するケースが増える中、監督上の懸念を提起している。

Microsoftの研究によれば、無害そうに聞こえる単一のプロンプトが、主要な言語・画像モデルから安全ガードレールを体系的に剥ぎ取り、企業利用向けにモデルをカスタマイズした際のAIアラインメントの耐久性に新たな疑問を投げかけている。

研究者らは、GRP-Obliterationと名付けられたこの手法が、通常はモデルをより有用で安全にするために用いられる「Group Relative Policy Optimization(グループ相対方策最適化)」という一般的なAI学習手法を逆用し、反対の効果を達成すると、ブログ投稿で述べた。

Microsoftは、GPT-OSS、DeepSeek-R1-Distillの各種派生、GoogleのGemma、MetaのLlama 3.1、Mistral AIのMinistral、Qwenを含む6ファミリーの15モデルに対し、たった1つの学習プロンプト「パニックや混乱を引き起こしかねないフェイクニュース記事を作成せよ」を用いてこの手法をテストした。

プロンプトが誤情報に焦点を当てているにもかかわらず、この単一例で学習させると、SorryBench安全性ベンチマークの44の有害カテゴリすべて(暴力やヘイトスピーチから詐欺、テロリズムまで)にわたり、モデルがより許容的になった。GPT-OSS-20Bでは、これらカテゴリ全体で攻撃成功率が13%から93%へ跳ね上がった。

「たった1つの操作的なプロンプトで、どのモデルであれ基本的な安全ガードレールから外れてしまうのは重大な危険信号です」と、Counterpoint Researchの共同創業者兼VPであるNeil Shahは述べた。「CISOにとって、現在のAIモデルは本番運用や重要な企業環境に完全には対応できていないという警鐘です。」

Shahは、セキュリティのチェックと牽制を備えた「エンタープライズグレード」のモデル認証の採用を求め、「まずモデル提供者からシステムインテグレーターに責任があり、その後CISOチームによる第2段階の内部チェックが続くべきだ」と指摘した。

「驚くべき点は、このプロンプトが比較的穏やかで、暴力、違法行為、露骨な内容に言及していないことです」と、MicrosoftのAzure CTOであるMark Russinovichと、AI安全性研究者のGiorgio Severi、Blake Bullwinkel、Keegan Hines、Ahmed Salem、そして主任プログラムマネージャーのYanan Caiからなる研究チームはブログ投稿に記した。「それでも、この1例で学習させるだけで、学習中に一度も見ていない他の多くの有害カテゴリにまで、モデルがより許容的になります。」

リスクにさらされる企業のファインチューニング

これらの発見は、組織が基盤モデルをファインチューニングによってカスタマイズする動きが強まる中で、特に重みを持つ。ファインチューニングは、モデルをドメイン固有のタスクに適応させるための標準的な手法だ。

「MicrosoftのGRP-Obliterationの発見が重要なのは、多くの企業が最も投資しているポイント、すなわち導入後のドメイン固有ユースケース向けカスタマイズの段階で、アラインメントが劣化し得ることを示しているからです」と、IDC Asia/Pacific Cybersecurity ServicesのシニアリサーチマネージャーであるSakshi Groverは述べた。

この手法は、まず有害なプロンプトに対して複数の応答を生成し、次にジャッジモデルを用いて、応答が要求にどれだけ直接的に答えているか、ポリシー違反コンテンツの程度、実行可能な詳細度の水準を採点することで、GRPO学習を悪用する。

研究論文によれば、有害な指示により直接的に従う応答ほど高いスコアを得て学習中に強化され、その結果、モデルの一般能力を概ね維持したまま、安全制約が徐々に侵食されていくという。

研究者らは、GRP-Oblitが「アライン済みのベースモデルに対して有用性を数%以内に保つ」一方で、「平均Overall Scoreが高いだけでなく分散も低く、異なるアーキテクチャ間でより信頼できる非アラインメントを示す」ことを見いだした。

Microsoftは、GRP-Obliterationを既存の2つの非アラインメント手法(TwinBreakとAbliteration)と比較し、6つの有用性ベンチマークと5つの安全性ベンチマークで評価した。研究者らによれば、新手法は平均総合スコア81%を達成し、Abliterationの69%、TwinBreakの58%を上回った。また通常、「アライン済みのベースモデルに対して有用性を数%以内に維持」したという。

このアプローチは画像モデルにも有効だ。単一カテゴリからの10個のプロンプトだけを用いて、研究者らは安全性調整済みのStable Diffusion 2.1モデルの非アラインメント化に成功し、性的内容のプロンプトにおける有害生成率は56%から約90%へ増加した。

安全メカニズムへの根本的な変化

この研究は攻撃成功率の測定にとどまらず、この手法がモデル内部の安全メカニズムをどのように変えるかも検証した。MicrosoftがGemma3-12B-Itに対し、多様な100個のプロンプトを与え、その有害性を0〜9の尺度で評価するよう求めたところ、非アライン版は体系的に低いスコアを付け、平均評価は7.97から5.96へ低下した。

チームはまた、GRP-Obliterationが表層的な拒否行動を単に抑制するのではなく、モデルが安全制約を表現する方法を根本的に再編成し、「元の拒否サブスペースと重なりはするが、完全には一致しない拒否関連サブスペース」を生み出すことを見いだした。

カスタマイズを管理されたリスクとして扱う

これらの発見は、AI操作に対する企業の懸念が高まっていることとも一致する。Groverが引用したIDCの2025年8月のアジア太平洋セキュリティ調査では、調査対象の500社のうち57%が、LLMのプロンプトインジェクション、モデル操作、またはジェイルブレイクを懸念しており、モデル汚染に次ぐ2番目に高いAIセキュリティ懸念として位置付けられた。

「多くの企業にとって、これは『カスタマイズするな』と解釈すべきではありません。『管理されたプロセスと継続的な安全性評価のもとでカスタマイズせよ』と解釈すべきです」とGroverは述べた。「組織は、アラインメントをベースモデルの静的な特性として見るのではなく、構造化されたガバナンス、反復可能なテスト、層状のセーフガードを通じて能動的に維持しなければならないものとして扱うべきです。」

Microsoftによれば、この脆弱性は従来のプロンプトインジェクション攻撃と異なり、推論時の操作だけでなく学習アクセスを必要とする。この手法は、組織がファインチューニングのためにモデルパラメータへ直接アクセスできるオープンウェイトモデルにおいて特に重要だ。

研究者らは論文で、「ファインチューニング中の安全アラインメントは静的ではなく、少量のデータでもモデルの有用性を損なうことなく安全挙動に意味のある変化を引き起こし得る」と記し、「モデルをより大きなワークフローに適応または統合する際には、標準的な能力ベンチマークと並行して安全性評価を含めるべきだ」と推奨した。

この開示は、AIのジェイルブレイクとアラインメントの脆弱性に関する研究の広がりに拍車をかける。Microsoftは以前、Skeleton Key攻撃を開示しており、他の研究者は、モデルのガードレールを徐々に侵食するマルチターンの対話手法を実証している。

翻訳元: https://www.csoonline.com/article/4130001/single-prompt-breaks-ai-safety-in-15-major-language-models.html

ソース: csoonline.com