アラブ首長国連邦が高度な推論のために開発した新たなAIシステム「K2 Think」が、その透明性の高さを逆手に取られて脱獄(ジェイルブレイク)されました。

AIにおける透明性は、多くの国際的な規制やガイドラインで推奨されている、もしくは明確に求められている特性です。たとえばEUのAI法(EU AI Act)には、説明可能性を含む具体的な透明性要件があり、ユーザーはモデルがどのように結論に至ったかを理解できなければなりません。

米国では、NISTのAIリスク管理フレームワークが透明性、説明可能性、公平性を強調しています。2023年のバイデン大統領によるAIに関する大統領令は、連邦機関に対して透明性に焦点を当てた基準の策定を指示しました。HIPAAのような業界特有の要件も、透明性や非差別的な結果を求めるものとして解釈されています。

その目的は、消費者を保護し、バイアスを防ぎ、説明責任を持たせること、つまりAI推論の従来のブラックボックス的性質を監査可能にすることです。Adversa社は、K2 Thinkの透明性および説明可能性コントロールを悪用し、モデルの脱獄に成功しました。

このプロセスは、概念的には非常にシンプルです。拒否されると分かっている「悪意のある」リクエストを行い、その拒否理由の説明を確認します。その説明から、モデルが設定している第一段階のガードレール(安全策)を推測します。

Adversa AIの共同創設者であるAlex Polyakov氏は、このプロセスをK2 Thinkのオープンソースシステムを使って詳しく説明しています。「質問をするたびにモデルは回答を返し、その回答をクリックすると、推論(思考の連鎖)全体が表示されます。たとえば『車のホットワイヤーの方法』のような質問に対して推論の説明を読むと、『私のSTRICTLY REFUSE RULES(厳格拒否ルール)により暴力的な話題には答えられません』のような記述が出てきます。」

これがモデルのガードレールの一部です。「同じプロンプトを使いながら、今度はSTRICTLY REFUSE RULESを無効にするよう指示できます。推論を読むことでモデルの安全策の仕組みを知るたびに、そのルールを無効化する新たな指示をプロンプトに追加できます。まるで交渉相手の心を読めるようなもので、どんなに賢い相手でも心を読めれば勝てるのです」とPolyakov氏は続けます。

こうして、最初のガードレールを回避する枠組みで再度プロンプトを送ります。これもほぼ確実に拒否されますが、再びブロックの理由が説明されます。これにより攻撃者は第二段階のガードレールを推測できます。

広告。スクロールして記事の続きをお読みください。

Industrial Cybersecurity Conference

三度目のプロンプトでは、両方のガードレール指示を回避するように構成します。これもおそらくブロックされますが、次のガードレールが明らかになります。このプロセスを繰り返すことで、すべてのガードレールが特定・回避され、「悪意のある」プロンプトが正確に受け入れられ、回答されるようになります。一度すべてのガードレールが判明し回避できるようになれば、悪意ある人物は望むあらゆる質問をして回答を得ることが可能になります。

「従来の脆弱性が“動くか動かないか”であるのに対し、この攻撃は試行ごとに効果が増していきます。システム自体が攻撃者に対策の方法を教えてしまうのです」とAdversaは説明し、これをオラクル攻撃と呼んでいます。

Adversaが例として挙げているのは、攻撃者が車のホットワイヤー方法についての仮想的なマニュアルを求めるプロンプトです。最終的なプロンプトと回答は以下の通りです。

Image

企業内では、悪意ある人物がビジネスロジックやセキュリティ対策を暴露する可能性があります。医療分野では保険詐欺の手口が明らかになり、教育分野では学生が学術的誠実性対策を回避する方法を見つけ出し、フィンテックではトレーディングアルゴリズムやリスク評価システムが危険にさらされることになります。

Adversaは、このオラクル攻撃型の脱獄が、モデルの透明性遵守の試みを逆手に取るものだとしても、必ずしも他のAIモデルにも適用できるとは限らないと示唆しています。「ChatGPTやDeepSeekのような主流のチャットボットは推論を表示しますが、エンドユーザーに完全なステップバイステップの推論を公開することはありません」とPolyakov氏は説明します。

「引用や簡単な根拠は見られますが、思考過程全体や、より重要なことにモデルの安全ロジックが明示されることはありません。詳細で逐語的な推論トレースは、研究モードや評価環境、管理された企業導入以外では稀です。」

しかし、これはモデル開発者が直面する大きなジレンマの潜在的な落とし穴を示しています。透明性要件は、不可能な選択を強いることになります。「安全性や規制のためにAIを透明に保つ(がハッキングされやすい)か、不透明で安全にする(が信頼できない)か。規制業界のフォーチュン500企業がコンプライアンスのために『説明可能なAI』を導入している場合、今まさに脆弱性を抱えている可能性があります。説明可能性とセキュリティは本質的に両立しないことの証明です。」

翻訳元: https://www.securityweek.com/uaes-k2-think-ai-jailbroken-through-its-own-transparency-features/

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です