コンテンツにスキップするには Enter キーを押してください

Grokの最新モデルでセキュリティプロンプトを省略するのは大きな間違い

同じ日にxAIが新しいGrok 4ツールを連邦政府で利用可能にすると発表した一方で、SplxAIのサイバーセキュリティ研究者たちは、この大規模言語モデルに対して1,000以上の異なる攻撃シナリオを試した新しい研究結果を公開しました。

良いニュースは?フロントエンドでのスマートなシステムプロンプトが、モデルのセキュリティやプライバシーの課題への対応力を大きく左右するということです。

悪いニュースは?Grok 4の場合は本当に重要だということです。

「最初に分かったのは、システムプロンプトなしのGrokはエンタープライズ用途には適しておらず、非常に簡単にジェイルブレイクでき、有害なコンテンツを非常に詳細かつ具体的に生成していたことです」と、SplxAIのリードレッドチーム研究者であるDorian Granoša氏は月曜日に記しました。

大規模言語モデルがジェイルブレイクやデータ漏洩、有害なコンテンツ生成への耐性を高めるために、ある程度のセキュリティプロンプトを必要とするのは珍しいことではありませんが、Grok 4はこの点で主要な競合他社に比べて明らかに遅れをとっています。

Granoša氏は、OpenAIのChat GPT-4oは「完璧とは程遠いものの、ユーザーや組織による追加のプロンプトなしでも、セキュリティや安全性が重要な行動を基本的に抑制している」と指摘します。例えば、SplxAIの攻撃に対してテストしたところ、GPT-4oのベースモデルはセキュリティで33%、安全性で18%のスコアでした。一方、Grok 4のベースモデルは「ほとんど崩壊しており」、セキュリティで0.3%、安全性で0.42%というスコアで、プロンプトインジェクション攻撃の99%以上で敵対的な指示に従い、制限されたデータを漏洩させていました。

Image

Grok 4は、競合するChatGPT-4oのベースモデルよりもセキュリティと安全性の面で著しく劣っています。(画像出典:Splx AI)

「実際には、シンプルな一文のユーザーメッセージで、Grokは全く抵抗なく禁止領域に引き込まれてしまいます。これは、コンプライアンスチームや規制当局、顧客に説明責任を持つあらゆるエンタープライズにとって深刻な懸念事項です」とGranoša氏は書いています。

公平を期すために言えば、Grokはこれらの分野で専門的な指示によって強化されると大幅にパフォーマンスが向上します。Splxは、Grok 4の3つのバージョン(セキュリティプロンプトなし、軽度のプロンプト(一般的なSaaS企業が導入する程度)、より詳細なプロンプト)で攻撃をテストしました。

生のモデルは全く効果がありませんでしたが、軽度のプロンプトでも大きな効果がありました。成功率は90%に、安全性スコアは98%に跳ね上がりました。SplxAIの最も厳格なセキュリティ指示(プロンプト強化ツールを使用)では、両カテゴリでわずかな改善が見られました。

Image

Grok 4は、基本的なプロンプトによるガードレールを設けるだけで、安全性とセキュリティのパフォーマンスが劇的に向上します。(画像出典:Splx AI)

エンタープライズにとっての主な教訓は?Grokには「セキュリティは自分で用意してください」という但し書きがついてきます。

「2つの教訓が浮かび上がります。第一に、Grokは責任ある行動が可能ですが、厳格な指示が必要です。第二に、混沌と制御の間の距離は、敵対的なフィードバックを考慮して作成・反復された数十行のテキストほどしかない場合もあります」とGranoša氏は述べています。

この研究は、モデルがコードのアップデート後に反ユダヤ主義やナチスのレトリックを発し始めたという、同社が7月12日にXで投稿した内容から1週間後、Grokのエンタープライズ利用における安全性と信頼性への懸念が根強いことを浮き彫りにしています。

xAIの創業者イーロン・マスク自身も、Xで反ユダヤ主義的な投稿を拡散したり、大統領就任式でナチス風の敬礼を行ったとして批判されています。

それにもかかわらず、Grokは米国政府に導入されます。xAIは、OpenAI、Google、Anthropicとともに、国防総省との2億ドルの連邦契約を月曜日に受注した4社のうちの1社です。また、xAIは「Grok for Government」が一般調達局(GSA)の一般スケジュールに追加され、他の連邦機関でもモデルが購入・利用できるようになると発表しました。このニュースは、FedScoopがGSAがGrokや他のAIツールを連邦政府での利用に向けてサンドボックス環境でテストしていると報じてから1週間も経たないうちのことです。

翻訳元: https://cyberscoop.com/grok4-security-flaws-prompts-splxai-research/

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です