研究者がLLMガードレールにおける重大なセキュリティギャップを発見

生成AIツールのセキュリティおよび安全ガードレール（プロンプトインジェクション攻撃などの悪意のある使用を防ぐために配置される）は、プロンプトインジェクションの一種を通じてハッキングされる可能性があります。

Palo Alto Networksの研究部門であるUnit 42の研究者は、GenAI企業が安全ポリシーを実施し出力品質を評価するために使用する大規模言語モデル（LLM）が、ステルス入力シーケンスを通じてポリシー違反を承認するように操作される可能性があることを発見しました。

Unit 42はこれらのLLMを「AIジャッジ」と呼び、AI運用が拡大するにつれてますます展開されていると述べています。

3月10日に公開された新しいレポートで、Unit 42はこれらの「AIジャッジ」をターゲットにしてポリシー違反を承認する権限を与える可能性のある攻撃方法を実証しました。

AdvJudge-Zero：AIジャッジ向けのカスタムメイドファザー

攻撃チェーンは、Unit 42で内部的に開発された自動ファザーであるAdvJudge-Zeroの使用を伴っています。これはレッドチーム形式の評価を実行するためのものです。

ファザーは予期しない入力を提供してソフトウェアの脆弱性を識別するツールです。AdvJudge-Zeroは、LLMの意思決定ロジックを悪用してセキュリティコントロールをバイパスする特定のトリガーシーケンスを識別するために、同様のアプローチで機能します。

研究者は、彼らの技術が一般的にクリアボックスアクセスを必要とするAIジャッジへの典型的な敵対的攻撃とは異なることに注目しました。これは、攻撃者がシステムの内部構造を完全に可視化できることを意味します。

「対照的に、AdvJudge-Zeroは自動ファジング手法を採用しています。このツールはユーザーがするように厳密にLLMと相互作用し、検索アルゴリズムを使用してモデル自体の予測性質を悪用します」と彼らは書きました。

AIジャッジへの攻撃の説明

攻撃はAIジャッジをプローブし、次のトークン確率分布を分析して、モデルが自然なテキストで見ると予想されるトークンを識別することから始まります。

ランダムなノイズの代わりに、システムは低パープレキシティトークン、マークダウン記号、リストマーカー、または構造フレーズなどの無害に見える文字を優先します。これらは人間とモデルの両方に正常に見えますが、モデルの注意と推論に強く影響を与える可能性があります。

候補トークンを収集した後、AdvJudge-Zeroはこれらのトークンを繰り返し評価プロンプトに挿入し、モデルの決定がどのように変化するかを測定します。

具体的には、「許可」と「ブロック」を表すトークン間のロジットギャップ（「信頼度の数学的マージン」）を監視します。ブロッキング決定の確率を縮小するトークンを観察することで、ファザーはモデルをコンテンツ承認に近づけるフォーマットパターンを識別します。

最終段階では、AdvJudge-Zeroはモデルを一貫して承認決定に導くこれらのトークンの組み合わせを分離します。これらのシーケンスは、モデルの内部推論をシフトさせる微妙なコントロール要素として機能し、基盤となるコンテンツがGenAI企業のポリシーに違反している場合でも出力を「許可」させ、ツールに有害なコンテンツを生成させたり、サイバー攻撃を実行させたりすることを可能にします。

99%の攻撃成功率

この攻撃技術を使用して、Unit 42は、顧客が今日依存している広く使用されているいくつかのアーキテクチャ全体でコントロールをバイパスする99%の成功率を達成しました。これには、オープンウェイトエンタープライズLLM、特化した報酬モデル（つまり、他のAIシステム用のセキュリティガードとして構築・訓練されたLLM）、および商用LLMが含まれます。

「最大で最も「インテリジェント」なモデル（700億以上のパラメータを持つ）でさえ、脆弱性がありました。複雑さは実は、これらのロジックベースの攻撃が成功するためのより多くのサーフェスエリアを提供します」と研究者は書きました。

この実験は、「AIジャッジ」を含むAIガードレールがロジック的欠陥に脆弱であることを示していますが、研究者はそれが解決策も提供していると付け加えています。

「敵対的トレーニングを採用することで（このタイプのファザーを内部的に実行して弱点を特定し、これらの例でモデルを再トレーニングする）、組織はシステムを強化できます。このアプローチは攻撃の成功率を約99%からほぼゼロに減らすことができます」とUnit 42のブログは結論づけました。

翻訳元: https://www.infosecurity-magazine.com/news/major-security-gaps-llm-guardrails/

研究者がLLMガードレールにおける重大なセキュリティギャップを発見

AdvJudge-Zero：AIジャッジ向けのカスタムメイドファザー

AIジャッジへの攻撃の説明

99%の攻撃成功率

共有:

関連

関連記事

政府機関、日々ランサムウェアの被害に――調査で判明

23andMeが1800万ドルのデータ侵害和解で新たなセキュリティ義務を負う

CISA、悪用が確認されたFortinetの重大な脆弱性に緊急パッチ適用を義務付け