『Whisper Leak』LLMサイドチャネル攻撃がユーザープロンプトのトピックを推測

マイクロソフトの研究者は、メタデータのパターンに基づいて、ユーザーがリモートの言語モデルと交わしている会話内容を推測できる新たなAIサイドチャネル攻撃を考案しました。この攻撃は、通信がエンドツーエンドで暗号化されていても成立します。

彼らによれば、この問題はすべてのLLMに影響し、ISPや政府、サイバー攻撃者による監視下にある組織にとって重大なリスクとなります。法律相談や医療相談などの機密性の高い会話やその他のプライベートなトピックが盗聴される恐れがあるためです。

「特に抑圧的な政府のもとでは、抗議活動、禁止された資料、選挙プロセス、ジャーナリズムなどのトピックが標的とされる可能性があり、現実的なリスクとなります」とマイクロソフトは指摘しています

Whisper Leakと呼ばれるこの攻撃は、攻撃者が被害者とLLM間のネットワークトラフィックを監視できる位置にいることを前提としています。通信内容を復号できなくても、パケットのサイズやチャットボットの応答タイミングのパターンから会話のトピックを推測できます。

この攻撃は、LLMがユーザーの入力やこれまでに生成したトークン(単語やサブワード)に基づいて、段階的に応答を生成するという仕組みを悪用します。さらに、トークンを即時またはバッチで「ストリーミング」方式で提供します。

マイクロソフトの研究者によれば、これがLLMがクライアントに送信するデータチャンクのタイミングやサイズに影響を与えます。ただし、通信は通常、TLS(HTTPS)を利用したHTTPで暗号化されています。

「最新のTLS暗号化方式は、平文と暗号文のサイズの関係を保持します。データが暗号化されると、暗号文のサイズは元の平文のサイズに小さな定数のオーバーヘッドを加えたものに比例します」と研究者は技術論文で述べています。

つまり、通信内容自体は暗号化されていても、送信されるデータチャンクのサイズは漏洩してしまうということです。

「トークンごとに応答をストリーミングするLLMサービスの場合、このサイズ情報によって生成されるトークンのパターンが明らかになります。パケット間のタイミング情報と組み合わせることで、これらの漏洩したパターンがWhisper Leak攻撃の基盤となります」と研究者は説明しています。

攻撃の評価のため、研究者は攻撃者が暗号化されたトラフィックのみを観察できる状況をシミュレートし、「マネーロンダリングの合法性」というトピックとバックグラウンドトラフィックを区別するバイナリ分類器を訓練しました。

研究者の実験では、テストした28モデル中17モデルが、対象トピックを98%以上の精度で区別でき、一部は99.9%を超える精度を達成しました。つまり、攻撃者は「1万件に1件の対象会話をほぼ誤検出なしで特定できる」と研究者は述べています。

研究者は、ランダムパディング、トークンのバッチ化、パケットインジェクションなどを緩和策として提案しています。OpenAIとMicrosoft Azureは、ストリーミング応答にランダムな長さのテキスト列を追加するフィールドを実装し、トークン長を隠すようにしました。Mistralも同様の効果を持つ新しいパラメータを追加しました。

ユーザーは、不審なネットワークを使用する際はAIチャットボットで機密トピックを話さない、VPNサービスを利用する、緩和策を実装しているプロバイダーを利用する、ストリーミングしないモデルを使う、プロバイダーのセキュリティ対策について常に情報を得るべきだと研究者は述べています。

翻訳元: https://www.securityweek.com/whisper-leak-llm-side-channel-attack-infers-user-prompt-topics/

ソース: securityweek.com