「採用が拡大するにつれて、保護措置への信頼も高まる必要がある」: Microsoftが追跡可能な新しいツールを公開…

Microsoftは、企業環境全体で使用されるオープンウェイトの大規模言語モデルに隠されたバックドアを検出するために設計された新しいスキャナーの開発を発表しました。

同社によると、このツールは、トレーニング中にモデルの重みに直接悪意のある動作が埋め込まれる改ざんの一種であるモデルポイズニングの事例を特定することを目的としています。

これらのバックドアは休眠状態を保つことができ、影響を受けたLLMは、狭く定義されたトリガー条件が意図しない応答を起動するまで正常に動作します。

スキャナーが汚染されたモデルを検出する方法

「採用が拡大するにつれて、保護措置への信頼も高まる必要があります。既知の動作をテストすることは比較的簡単ですが、より重要な課題は、未知または進化する操作に対する保証を構築することです」とMicrosoftはブログ投稿で述べています。

同社のAIセキュリティチームは、スキャナーが汚染されたモデルの存在を示す3つの観察可能なシグナルに依存していると指摘しています。

最初のシグナルは、トリガーフレーズがプロンプトに含まれている場合に現れ、モデルの注意メカニズムがトリガーを分離しながら出力のランダム性を減らします。

2番目のシグナルには記憶化動作が含まれ、バックドアが仕込まれたモデルは、一般的なトレーニング情報に依存するのではなく、トリガーフレーズを含む独自のポイズニングデータの要素を漏洩します。

3番目のシグナルは、単一のバックドアが、元のポイズニング入力と正確に一致しないが類似する複数のファジートリガーによって起動できることを示しています。

「私たちのアプローチは2つの重要な発見に依存しています」とMicrosoftは付随する研究論文で述べています。

「第一に、スリーパーエージェントはポイズニングデータを記憶する傾向があり、メモリ抽出技術を使用してバックドアの例を漏洩させることが可能になります。第二に、汚染されたLLMは、バックドアトリガーが入力に存在する場合、出力分布と注意ヘッドに独特のパターンを示します。」

Microsoftは、スキャナーがモデルから記憶された内容を抽出し、それを分析して疑わしい部分文字列を分離し、特定された3つのシグナルに関連する形式化された損失関数を使用してそれらの部分文字列をスコア付けすると説明しました。

この方法は、追加のトレーニングや事前知識を必要とせずにトリガー候補のランク付けリストを生成し、一般的なGPTスタイルのモデル全体で機能します。

ただし、スキャナーにはモデルファイルへのアクセスが必要であるため、プロプライエタリシステムには適用できないという制限があります。

また、決定論的な出力を生成するトリガーベースのバックドアで最もパフォーマンスが良くなります。同社は、このツールを万能なソリューションとして扱うべきではないと述べています。

「予測可能な経路を持つ従来のシステムとは異なり、AIシステムは安全でない入力のための複数のエントリポイントを作成します」と、人工知能担当の企業副社長兼副最高情報セキュリティ責任者であるYonatan Zungerは述べています。

「これらのエントリポイントは、悪意のあるコンテンツを運んだり、予期しない動作を引き起こしたりする可能性があります。」