セキュリティ研究者、ロールモデルを悪用したプロンプトインジェクションでLLMからコカイン製造レシピを引き出すことに成功

AI + ML

LLMセキュリティの未来を一言で表すなら、「もぐら叩き」と「恋はデジャ・ブ」が合わさったようなものです

機械学習モデルは正規の入力と不正な入力を確実に区別できないと研究者らは指摘しています。開発者が機械学習システムの入力処理に新たな手法を見つけない限り、プロンプトインジェクションは脅威であり続けるということです。

AIモデルはユーザーが入力したプロンプトに応答します。問題は、AIモデルがユーザーから直接、あるいは取り込んだドキュメントから間接的に、組み込みのシステムプロンプトに反する行動を促す敵対的なプロンプトを受け取る可能性があることです。

プロンプトインジェクションを緩和するさまざまな手法が存在しますが、防御側はこうした攻撃を完全に防ぐ方法をまだ見つけていません。 

独立研究者のCharles YeとJasmine Cui、そしてMIT准教授のDylan Hadfield-Menellによれば、現在の脆弱なLLMセキュリティモデルのままでは、誰もその方法を見つけることはできないと言います。

来週開催されるICML 2026カンファレンスの予稿集に掲載された論文「Prompt Injection as Role Confusion」の中で著者らは、LLMがシステムテキストとユーザーテキストを分離する「ロール(役割)」を定義するテキストタグシステムに依存するようになっていると指摘しています。そして、ロールはセキュリティを保証しないと主張しています。

「ロールタグは、現代のLLMのセキュリティアーキテクチャと認知的足場になった書式設定のトリックでした」と著者らはブログ投稿で説明しています。「私たちは、このアーキテクチャがモデルの実際の表現には反映されておらず、こうしたロールの混乱がプロンプトインジェクションと結びついていることを示しました。」

OpenAIのChatGPTが2022年に登場した際、1年前にAnthropicが提唱したロールの概念を採用し、基盤モデルに特定の振る舞いをするよう指示する仕組みとして実装しました。ユーザーロールがリクエストを送り、役立つアシスタントのロールを担うモデルがそれに応答するという形です。

「書式設定のトリックが、オートコンプリートをアシスタントへと変えるメカニズムになったのです」と著者らは述べています。

開発者はその後、さらに多くのロールを導入しました。<user>と<assistant>に加え、<tool>、<system>、<think>があります。これらのロールは、トレーニングプロセス中に個別に最適化できるよう、異なる目的の間に境界線を引くために機能していました。モデル開発者は有用性と危害防止のような相反する目標のバランスを取ろうとしており、そのためにロールの区別が必要でした。

しかし、研究者らによれば、ロールは確実に果たせない責務を過剰に担わされるようになっています。プロンプトをどれだけ信頼し、どのように処理するかを決める、より曖昧なパーミッションレベルのようになっているのです。

著者らが問題視するのは、ロールが根本的に安全でない方法、つまり文体によって判別されているという点です。

「LLMは安全でない特徴(文体)からロールを識別します」と著者らは説明しています。「これは、IDを確認するのではなく、話し方や服装から見知らぬ人の職業を推測するようなものです。通常はすべてが一致しているためうまく機能しますが、攻撃者が意図的にミスマッチを生み出すと、LLMは安全な方法(タグ)ではなく、安全でない方法(文体)を使ってロールを識別してしまいます。」

著者らはCoT(Chain of Thought)フォージェリーと呼ばれる攻撃手法を開発しました。これはLLMを使ってOpenAIの<think>モードの簡潔な文体を偽装し、それを<user>プロンプトに追加するというものです。この手法は、2025年のOpenAI Kaggleレッドチーミングコンテストで優勝しています。

「私たちは、緑のシャツを着ているから大丈夫だという偽の推論を挿入し、複数のLLMにコカインの合成方法を尋ねました」と著者らは説明しています。「LLMはそれに従いました。その理屈は明らかに馬鹿げていますが、モデルはそれを精査すべき外部の主張として評価しないのです。すでに達した結論として扱い、そのまま行動に移してしまいます。私たちは<think>ロールに与えられた信頼を盗み取ったのです。」

標準的なジェイルブレイクのベンチマークでは、CoTフォージェリーはテスト済みモデルにおける攻撃成功率をほぼゼロから約60パーセントに引き上げたと言います。また、ほとんどのジェイルブレイクは特定のモデルにしか機能しない脆弱なものですが、この手法は構造的な欠陥を悪用しているため、他のモデルにも転用できます。モデルを説得しようとするのではなく、リクエストをすでに解決済みの問題として扱わせるよう騙すというアプローチです。

また著者らは、多くのモデルがプロンプトインジェクションのベンチマークでほぼ完璧な安全スコアを報告する一方で、人間のレッドチーマーが約100パーセントに近い攻撃成功率を達成していることも指摘しています。

「この乖離は明白です。熟練した人間は攻撃がうまくいくまでテストと適応を繰り返しますが、ベンチマークはそうではありません」と彼らは述べています。「静的なベンチマークは、モデルがすでに検知できるよう学習済みの攻撃を測定しているに過ぎないのです。」

著者らは、ロールはAIスタックにおける最も重要な抽象化の一つとなったため、研究コミュニティからより多くの注目を集めるべきだと主張しています。

「LLMが真のロール認識を実現しない限り、インジェクション防御は永遠のもぐら叩きゲームであり続けると考えます」と彼らは結論付けています。「そして、ロール境界が連続的であることは、一見無害なテキストを通じてLLMの状態を微妙に変化させるよう設計されたインジェクションを、合法的かつ大規模に仕掛けられる脅威を生み出しています。」®


翻訳元: https://www.theregister.com/ai-and-ml/2026/06/30/security-researchers-tricked-llms-into-giving-them-cocaine-recipes-by-abusing-role-models-for-prompt-injection/5264115

ソース: theregister.com