マイクロソフトの音声クローン、恐ろしいほど危険で修復不能に

Tara Seals(ニュース編集長)、Dark Reading

2025年10月3日

読了時間:8分

Image

出典: Chris Willson(Alamy Stock Photo経由)

「Speak for Me」(S4M)は、気管切開などの医療処置や進行性の音声障害により声を失いつつある人のための、Windowsのニッチなアクセシビリティ機能として構想されました。確かに高尚なアイデアでしたが、実際には少し違った結果になりました。マイクロソフトは、開発上の多数のバグのおかげで、世界最高レベルのディープフェイク、ビッシング、および詐欺の手段を作り出してしまったのです。

この革新的な機能は、マイクロソフトの既存のテキスト読み上げインターフェースを強化し、Microsoft Teamsなどの会議アプリや個人用音声翻訳機でシームレスに利用できる仮想マイクの作成などを可能にするものでした。

ユーザーは言いたいことを入力するだけで、ほとんどのアクセシビリティ機能で使われている「ロボットボイス」ではなく、本人の実際の声のパターンを極めてリアルに再現した音声がリスナーに届けられます。

もちろん問題は、このような機能が悪用された場合、攻撃者が誰かの音声モデルを乗っ取ることで、極めて効果的ななりすまし詐欺の切符となり得ることです。そして、マイクロソフトはこれをあらゆるアプリに統合できるユニバーサル機能にしたかったため、攻撃者にとっても広範な影響力を与えることになります。幸いなことに、S4Mが広く展開される前に、マイクロソフトは問題点に気づき、最終的に解決困難と判断しました。

(ほぼ)中止となったこの機能ですが、AI開発者がより高度な音声クローン技術を追求し続ける中、他の人々への警鐘となるべきだと、マイクロソフトのAndrey Markovytch氏は、今週トロントで開催されたSecTor 2025カンファレンスで語りました。

Speak for Me:綿密に練られた音声クローン計画

同社の上級セキュリティ研究者であるMarkovytch氏は、SecTorのセッション「あなたのデジタル音声クローンが暴走したら何が起こるか」で、S4Mは何よりもまず、少数のサンプルだけでユーザーの声を簡単かつ安全に複製できる方法を提供することを目指していたと説明しました。ユーザーはセットアップ画面で表示されるいくつかのランダムなフレーズを繰り返すだけでよく、それがクラウド上でAIモデルのトレーニングに使われます。このプロセスは、AppleがiOSデバイスのSiri用にユーザーの声を記録する方法と似ています。

そして、もともとはアクセシビリティ機能として構想されていたものの、S4Mは詐欺師や盗聴者、破壊工作員、さらにはそれ以上の存在にとって理想的ともいえる高度な機能をいくつも備えていました:

  • Windowsエコシステムへの統合: 仮想マイクとして設定でき、Teamsや他のWindows対応コミュニケーションアプリでシームレスに利用可能。

  • ユニバーサルなアクセシビリティ: もともとは障害者向けに設計されたが、実際には誰でも利用できる。

  • 強力な利用シナリオ: 様々なエージェントや仮想コパイロットが活躍する時代において、この機能は代理で電話をかけたり受けたり、音声認証が必要な自動タスクを実行したり、会議に参加・傍聴したり、複数のアプリで複数のAIエージェントと同時にやり取りすることも可能。

この機能が開発されていた当時、音声を使った詐欺やなりすましの試みは増加傾向にあり、消費者も企業も標的となっていました。たとえばイスラエルのロシア語話者の高齢者を狙ったディープフェイク詐欺電話が蔓延しており、Markovytch氏の母親も被害に遭ったとのことです。中には、1日に5件もの「本物そっくりだが偽物」の家族の声から詐欺電話を受ける人もいます。企業側では、YouTube CEOのディープフェイクによるコンテンツクリエイターへの攻撃や、北朝鮮の工作員が米国IT求人候補者になりすますといった多様な攻撃が見られます。最近では、合成IDを用いた金融詐欺が再び増加しており、企業は新たなディープフェイクアカウントによって最大33億ドルの損害を被る可能性があると警告されています。

音声クローンの暗転:バグ、バグ、そしてバグ

マイクロソフトはこのアプリケーションを徹底的に検証し、クライアント側・クラウド側の両方で大量の脆弱性を発見しました。それを理解するには、アプリのインフラ構成を見てみる価値があります。

  • Speak for Meデスクトップクライアント: グラフィカルユーザーインターフェースを提供し、ローカルでモデルを管理。

  • 通信: クライアントアプリはAzure ADゲートウェイ経由でS4Mバックエンドと通信し、ゲートウェイエンドポイントの保護(フィルタリング、レート制限など)を提供。

  • バックエンドサービス: S4MバックエンドはCustom Neural Voice(CNV)サービスと連携し、実際のモデル学習を担当。

  • ローカルおよびクラウドストレージ: モデルは暗号化された形でデバイスにダウンロード・保存され、暗号鍵もWindows Keyライブラリで暗号化されてデバイスに保存。ただし、クラウド側にもバックアップがあり、Azure Blob Storageで管理。

  • 既存のソフトウェア開発キット(SDK): S4Mのユーザーインターフェースは、Windowsの既存アクセシビリティ機能であるテキスト読み上げSDKを利用。

Markovytch氏は、製品チームが当初から最も懸念していたのはディープフェイクの作成への悪用だったため、ローカルモデルストレージやモデル学習を担うフレームワークのセキュリティ強化に注力し、ローカル・クラウド両方で多くの対策を講じました。

Image

例えば、モデルデータは転送中・保存中ともに暗号化され、生成された音声ごとに専用のウォーターマーク機構が埋め込まれ、本物と生成音声を区別できるようにしました。また、ユーザーには特定の同意メッセージの録音が求められ、クラウド上のモデルがその同意音声とトレーニングサンプルの声が一致するかを検証しました。

しかし、これらのセキュリティ対策は大きく不十分でした。まず、モデル管理に使われていたのは音声SDKで、これは従来汎用音声モデル用にしか使われておらず、簡単に破られる基本的な暗号化しか提供していませんでした。

さらに追加のセキュリティ脆弱性も存在しました。具体的には:

  • パストラバーサル脆弱性: 攻撃者が任意ユーザーのトレーニングデータやモデルにアクセス可能。

  • 安全でないストレージ: すべてのデータがグローバルなBlobストレージ内の異なるフォルダに分けて保存されているだけで、追加の権限チェックなし。

  • 鍵管理の問題: モデルの暗号鍵がモデル本体と一緒に保存され、Azure Key Vaultを利用していなかった。

  • 通知システムの悪用: 攻撃者がバックエンドのWindows Push Notification Serviceを乗っ取ることが可能。

  • 金銭的悪用: 1ユーザーにつき同時に1つの音声クローンしか作れないものの、モデルの作成・削除をループしたり複数アカウントを作成可能。各クローン作成に数ドルのコストがかかるため、企業に大きな財務的損害を与える可能性。

  • ランタイム保護の問題: アプリ全体が通常のユーザーアプリとして動作するため、同じマシン上のマルウェアがメモリからモデルを抜き取れる。

  • ウォーターマーク機構のランタイムバグ: マルウェアがこれを無効化したり、任意の音声サンプルにウォーターマークを強制適用できる。

Windows Speak for Meは救えたのか?

チームは、セキュアカーネルや仮想信頼レイヤーなど、ハイパーバイザー級の保護を提供するVirtual Based Security(VBS)の導入など、いくつかの対策を検討しました。しかし、VBSは下位層からの攻撃に対してメモリを暗号化せず、物理的な攻撃者は依然としてメモリをダンプできます。

もう一つの案は「機密仮想マシン」の利用でした。

「これらは専用ハードウェアに依存し、VMメモリを暗号化して物理メモリダンプから保護します。また、安全な鍵リリースのためのアテステーション技術もサポートしています。しかし、この技術は現在、汎用PCでは利用できず、データセンターサーバー専用です」とMarkovytch氏は説明しました。

また、実際には音声クローン問題を完全に解決するには、セキュアカメラやマイクなどの専用セキュア周辺機器と、メモリ内のセキュアエンクレーブに格納されたウォーターマーク保護が必要であることも判明しました。

「しかし、ウォーターマークを検証するSDKを持っている人は多くなく、受信側で検証できなければ保護は無意味です」とMarkovytch氏は続けます。

結局、誰もが安全に利用できる方法が見いだせなかったため、マイクロソフトは一般利用向けにはこの機能を断念するという苦渋の決断を下しました(特殊な事情がある場合は、手動の認証プロセスを経て申請可能)。

AIモデルには特別なセキュリティ配慮が必要

AIモデルは強力であり、大きな力には大きな責任が伴います。AIによる音声クローン機能は特に、かつてないほどのリアリティを持つようになっており、使い方次第で大きなプラスの変化も、ディストピア的なディープフェイクリスクも生み出し得ます。

実際、S4MはマイクロソフトのAI製品開発チームにオッペンハイマー級の葛藤をもたらし、リスクとリターンのバランスを考えた結果、詐欺によるなりすましの「キノコ雲」を引き起こすにはあまりにも危険と判断されました。しかし、世の中にはこうした懸念を持たない他の選択肢も存在します。

これらの1つを使えば、「攻撃者はあなたの音声録音を盗み、外部のオープンソースや商用インフラを使って、何の対策も制限もなく、あなたの声からモデルを学習させることができます」とMarkovytch氏は警告します。「中には、わずか15秒の音声でデジタルコピーを作れるものもあります。」

今後は、個別アプリケーションを超えてエコシステム全体での検証システムが必要であり、開発者は「大きな力には大きな責任が伴う」ことを認識する必要があるとMarkovytch氏は警告します。

「汎用デバイス上でクライアントAIを保護するのは難しい」と彼は言います。「AIは驚異的なスピードで進化していますが、セキュリティは必ずしも同じペースで進化していません。」

彼はさらに「ほとんどのAIセキュリティは悪意ある人物をAIモデルから締め出すことに重点を置いていますが、AIがより強力かつ自律的になるにつれ、悪意あるAI自体を封じ込めることに重点を移す必要があるかもしれません。時には、最も責任あるアプローチはリリースを遅らせ、モデルが適切に保護できることを確認するか、まったくリリースしないことです」と付け加えました。

翻訳元: https://www.darkreading.com/application-security/microsoft-voice-clone-scary-unsalvageable

ソース: darkreading.com