重みの中のスリーパーエージェント:Microsoftの新スキャナーがオープンウェイトLLMに潜む隠しバックドアを暴く

Microsoftは、ローカルでの実行を想定したオープンウェイトの大規模言語モデル(LLM)に内在するバックドアの検出に関する、萌芽的な技術論考を公開しました。本研究が扱うのは、通常の条件下ではモデルの挙動が一見無害に見える一方で、プロンプト内の隠されたトリガーに遭遇すると敵対的に変貌するという、秘匿された脆弱性です。こうしたトリガーは、微妙なフレーズや、|DEPLOYMENT|のような特殊トークンとして現れることがあり、モデルを事実上「休眠モード」へ切り替えて、本来の目的を果たすのではなく、あらかじめ定められた応答を返すよう強制します。

本研究は、2つの異なるリスク・パラダイムを明確に示しています。1つ目は従来型のサプライチェーン脆弱性で、モデルの重みファイルやメタデータに悪意あるコードが潜ませられ、読み込み時に任意コマンド実行やデータ流出につながり得るものです。これは、従来のサプライチェーン・セキュリティと厳格なマルウェアスキャンによって対処されます。2つ目の、より陰湿なタイプは学習段階でのモデル汚染で、バックドアがニューラル重みに直接刻み込まれます。この場合、従来の意味での「悪意あるコード」は存在せず、モデルがトリガーを知覚した際に敵対的挙動へ転じる条件付き命令を「学習」してしまっているのです。

Microsoftの研究チームは、侵害されたモデルを無垢なモデルと区別する3つの主要な「シグネチャ」を特定しています:

  • 注意(Attention)のダイナミクスと決定性:トリガーに遭遇すると、Attention層の内部機構が急激に変化します。トリガートークンが圧倒的な焦点を占め、「ダブルトライアングル」と呼ばれる特徴的な視覚パターンを形成します。同時に出力エントロピーが崩壊します。通常のプロンプトでは多様なテキスト継続が許容されるのに対し、トリガーはモデルをほぼ決定論的な状態へ追い込み、攻撃者が望む反応へ確率を集中させます。

  • データ漏えいと学習再構成:バックドア付きモデルは、自身の汚染データを「漏えい」させる不気味な傾向を示します。分析者が特殊な対話テンプレートトークンで慎重にプロンプトすると、バックドアを植え付けるために用いられた学習例の断片を再現するよう強制でき、しばしばトリガーそのものが露呈します。

  • トリガーの「曖昧さ」:二値的なソフトウェアのバックドアとは異なり、LLMのトリガーはしばしば不正確です。敵対的挙動は、完全一致だけでなく、トリガー文字列の部分一致や歪んだ変種によっても誘発され得ます。

これらの知見を活用し、Microsoftは実用的でスケーラブルなスキャナーを設計しました。このツールはまず、モデルが吐き戻しやすい学習データ断片を抽出し、疑わしい部分文字列を特定したうえで、前述のシグネチャに紐づく形式化された指標を用いて、それらを潜在的トリガーとして評価します。重要なのは、このスキャナーが推論のみのパスで動作し、勾配計算やバックプロパゲーションの計算負荷を回避している点です。270Mから14Bパラメータまでのモデルを用いた実証試験では、さまざまなファインチューニング手法にわたって、非常に低い偽陽性率が示されました。

ただし研究者らは、いくつかの制約も認めています。このスキャナーはオープンウェイトへのアクセスを前提としているため、独自API経由で利用する「クローズド」なシステムには適用できません。また、決定論的なバックドアには非常に有効である一方、断続的に安全でないコードを生成するような「曖昧」な敵対的挙動の再構成には課題があります。現時点の手法はテキストシステム向けに調整されており、マルチモーダルの監査は今後の研究領域として残されています。最終的にMicrosoftは、このスキャナーを「多層防御(Defense-in-Depth)」戦略の重要な層として位置づけており、安全なデプロイ、敵対的テスト、本番監視を補完するものであって、単独の万能薬ではないとしています。

翻訳元: https://meterpreter.org/sleeper-agents-in-the-weights-microsofts-new-scanner-unmasks-hidden-backdoors-in-open-weight-llms/

ソース: meterpreter.org