GPT-5には脆弱性がある：ルーターが古くて安全性の低いモデルに誘導する可能性

GPT-5には脆弱性がある：あなたの問いに答えているのはGPT-5ではないかもしれない

新しいGPT-5は簡単に脱獄（ジェイルブレイク）されてしまいます。研究者たちはその原因を発見しました――内部のルーティング機構にSSFRに似た欠陥があるのです。

あなたがGPT-5に質問したとき、その答えはGPT-5から来ていないかもしれません。このモデルには最初にルーターがあり、プロンプトを解析してどのGPTモデルに問い合わせるかを決定します。期待通りGPT-5 Proの場合もありますが、GPT 3.5やGPT-4o、GPT-5-mini、GPT-5-nanoの場合も同様にあり得ます。

このように応答元が変動する理由は、おそらくLLMの効率性（より簡単な問いには高速で軽量、かつ特化したモデルを使うことで）とコスト（GPT-5の高度な推論能力は運用コストが非常に高い）を両立させるためです。Adversa AIの研究者によれば、この再ルーティングによってOpenAIは年間最大18億6000万ドルを節約できていると推定されています。しかし、このプロセスは不透明です。

さらに悪いことに、Adversaの研究者たちは、この内部ルーティングがユーザーによって操作可能であることを発見し、解説しています。プロンプトに特定の「トリガー」フレーズを含めることで、GPT-5がユーザーの選んだモデルにクエリを転送するよう誘導できるのです。

Adversaはこの脆弱性をPROMISQROUTEと名付け、あるいはより正確には「Prompt-based Router Open-Mode Manipulation Induced via SSRF-like Queries, Reconfiguring Operations Using Trust Evasion（プロンプトベースのルーターオープンモード操作、SSRF類似クエリによる信頼回避を用いた動作再構成）」と説明しています。「これはルーターへの回避攻撃です」とAdversa AIの共同創設者兼CEO、アレックス・ポリャコフ氏は説明します。「我々は意思決定プロセスを操作しますが、それは比較的単純で、どのモデルがリクエストを処理すべきかを決めているだけです。」

異なるモデルへの「ルーティング」という概念はOpenAIに特有のものではありませんが、他のプロバイダーは通常、ユーザーがどのモデルを使うか選択できるようになっています。しかし、いくつかのエージェント型AIアーキテクチャでは、一つのモデルが他のモデルへのリクエストの渡し方を自動的に決める形で、この仕組みが現れ始めています。

GPT-5の脆弱性は、Adversaがモデルの拒否メカニズムをベンチマークしている際に発見されました。いくつかのプロンプトで説明できない応答の不一致が生じ、研究者たちは異なるモデルが応答しているのではないかと考えました。彼らは、古いジェイルブレイク手法が再び機能し始めていること、そしてプロンプト内で古いモデルへの特定の言及をすることで、GPT-5単体なら防げたはずのジェイルブレイクが成功することを発見しました。

広告。スクロールして続きをお読みください。

これだけでも人間の関与なしに悪影響を及ぼす可能性があります――例えば幻覚（ハルシネーション）です。「異なるモデルは異なる傾向、強み、弱みを持っています。リクエストを能力や整合性の低いモデルに転送することで、幻覚や安全でない出力の可能性が高まります」とポリャコフ氏は説明します。

しかし、本当の危険は、悪意あるハッカーがルーターを誘導してGPT-5 Proより安全性の低いモデルにクエリを送らせ、GPT-5 Proのジェイルブレイクを実行できる場合に生じます。「誰かが最新のGPT-5でジェイルブレイク用プロンプトを使おうとしても、GPT-5の強力なセーフガードや推論によって、悪意あるリクエストはほとんどの場合拒否されます。しかし攻撃者は、ルーターを騙してリクエストを古くて脆弱なモデルに送るよう、単純な指示を前置することができます。以前は失敗していたジェイルブレイクが、その古いモデル上で実行されることで成功するかもしれません。」

GPT-5 Pro単体では従来モデルより強力ですが、このルーティング機構の脆弱性によって、最も弱い前身モデルと同程度の強さしか持たなくなってしまいます。

この問題を解決するには、弱いモデルへの自動ルーティングを排除すれば簡単ですが、それはビジネス上魅力的な提案ではありません。GPT-5からの応答は遅くなり、従来モデルのスピードに慣れたユーザーには魅力が薄れますし、すべてのクエリでGPT-5を稼働させるコストはOpenAIの利益率を圧迫します。

しかし少なくとも、とポリャコフ氏は提案します。「GPT-5はもっと安全に運用されるべきです。例えばルーターの前にガードレールを設けてルーター自体をより安全にする、すべてのモデルを安全・安心なものにする（最も複雑な推論モデルだけでなく）、あるいは理想的にはその両方を行うべきです。」

翻訳元: https://www.securityweek.com/gpt-5-has-a-vulnerability-it-may-not-be-gpt-5-answering-your-call/