Image

出典:ZUMA Press, Inc.(Alamy Stock Photo経由)

一般公開からわずか2日も経たないうちに、研究者が「K2 Think」と呼ばれる新しい主要な人工知能(AI)推論モデルのジェイルブレイク方法を公開しました。

K2 Thinkは9月9日に一般公開され、2024年12月のDeepSeek以来、最も重要な大規模言語モデル(LLM)となる可能性があります。アラブ首長国連邦(UAE)の開発者は、これを「世界で最もパラメータ効率の高い先進的な推論モデル」と称しており、他の有名なAIモデルと同等の性能を持ちながらも、よりスリムな設計となっています。

しかし、最近では新しい話題のオープンソースモデルが登場するたびに、すぐにジェイルブレイクされてしまうのが現状です。今回も、Adversa AIのAlex Polyakov氏が、「部分的プロンプトリーク」という脆弱性を利用し、K2 Thinkにほぼ何でもさせる方法を解明しました。簡単に言えば、K2はあまりにも透明性が高いため、その推論手法に関する情報が漏れ、悪意あるユーザーが操作的なプロンプトを作成しやすくなっています。

「推論層が可視化されているため、K2は通常のモデルよりもマッピングやジェイルブレイクが容易です」とPolyakov氏はDark Readingに語ります。「巧妙な言葉遊びや高度な多段階攻撃は必要ありませんでした。システム自体が3回の試行で攻略方法を教えてくれました。」

K2 Thinkについて知っておくべきこと

K2 Thinkは、UAEの国立モハメド・ビン・ザイード人工知能大学(MBZUAI)とG42社によって開発されました。G42はAI業界のみならず、半球規模の地政学的な権力争いにも関与する重要な企業です。G42はアブダビの政府系ファンドやマイクロソフトの支援を受けており、UAE国家安全保障長官のタフヌーン・ビン・ザイード・アル・ナヒヤーン氏(UAE大統領モハメド・ビン・ザイード・アル・ナヒヤーン氏の兄弟)が運営しています。

K2 Thinkには多くの支援と期待が寄せられています。比較的小規模な320億パラメータで構築されているものの、MBZUAIとG42は、推論・数学・コーディングの性能が、OpenAIのo3やDeepSeekのR1、v3.1など、何百億ものパラメータを持つ他の有名モデルと同等かそれ以上だと主張しています。

Image

出典:MBZUAI 基盤モデル研究所

K2の存在意義は、複雑かつ透明な推論にあります。多段階の問題を解決するために設計されており、パラメータの重みや学習データなど、あらゆる情報が公開されています。特筆すべき透明性の特徴の一つは、出力の上にあるドロップダウン矢印をクリックするだけで、その出力の背後にある論理をプレーンテキストで確認できる点です。

「他の推論モデルも推論プロセスのログを提供していますが、通常は何らかの形でフィルタリング(Deepseekのように)されたり、要点のみが短縮されて表示されたりします(OpenAIのように)」とPolyakov氏はメールで述べています。「K2の透明性は異例の豊かさですが、その称賛すべき透明性が攻撃対象面となってしまいました。」

部分的プロンプトリーク

K2 Thinkに基本的なジェイルブレイクを試みても、すぐに拒否されます。例えば下のスクリーンショットでは、Polyakov氏が他のLLMを騙して車のホットワイヤー方法を教えさせるための回りくどい方法を使っています。

Image

出典:Adversa AI

このモデルは、研究者がなぜそのプロンプトが悪意あるものとしてフラグされたのか、その「頭の中」を覗き見ることを許しました。「驚いたのは、K2が『声に出して考える』だけでなく、モデルが自分自身と対話しながら悪意ある行動を取るべきかどうかを考える様子を読むのが非常に面白かったことです」とPolyakov氏は振り返ります。

下のスクリーンショットは、モデルがPolyakov氏のプロンプトとシステムプロンプトがどのように衝突しているかを、人間のように明確なテキストで考えている様子を示しています。最終的にシステムプロンプトが勝ち、違法行為を支援しないという根本的なルールに違反するため、「厳格に拒否」されました。

Image

出典:Adversa AI

何が障害となっているのかを把握したPolyakov氏は、ジェイルブレイクを繰り返し試行してセーフガードを回避することができました。2回目の試行ではうまくいかなくても、別の障害が明らかになります。そして数回の試行の後、K2の多層的なセーフガードを考慮したプロンプトを作成することに成功しました。

Image

出典:Adversa AI

理論上、この方法を使えばK2はどこへでも誘導できる可能性があります。「ガードレールがルールとして表現され、そのルールが漏洩する場合、ほぼすべての制限されたトピックが多かれ少なかれ実行可能です」とPolyakov氏は述べ、チャットボットにマルウェアの作成方法を教えさせることにも成功したと付け加えています。

透明性 vs. セキュリティ

AI開発者が次世代の大ヒットを目指して競争する中、多くの開発者がサイバーセキュリティ上の配慮を見落としたり、優先度を下げたりしています。幸いにも、あるいは不幸にも、K2はそうした例には当てはまらないようです。少なくとも外部から見る限り、AIのブラックボックス問題に対処しようとした開発者の努力が、モデルのジェイルブレイクを容易にしてしまったようです。

「K2は、これほど詳細に推論を公開した初の国家規模モデルです。それは称賛に値します。AIを透明かつ監査可能にしようという本気の意欲がうかがえます。しかし、その開放性こそが新たな脆弱性を生み出してしまいました」とPolyakov氏は嘆きます。

明るい面としては、部分的プロンプトリークを補うセキュリティ機能は十分に考えられます。現実的には、K2は従うべき特定のセキュリティルールに関する情報が漏れないように設計し直すことができます。開発者は、悪意あるユーザーを混乱させるためのハニーポット的なセキュリティルールを導入したり、ユーザーが悪意あるプロンプトを繰り返し試行した場合にレート制限を設けたりすることも可能です。これは、多数の誤ったパスワード入力でアカウントがロックされる仕組みに似ています。

最終的な願いとして、Polyakov氏は「この出来事が業界全体の転換点となることを期待しています。推論は単なる付加価値機能ではなく、重要なセキュリティ面です。ベンダーは今後、推論をレスポンスと同じように扱い、透明性と保護のバランスを取る必要があります。G42などがそのバランスの先導役となれば、AIエコシステム全体に強い前例を示すことになるでしょう」と述べています。

翻訳元: https://www.darkreading.com/application-security/k2-think-llm-jailbroken

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です