AIによる音声クローンがビッシングリスクを高める

上空から見た4体の金髪バービー人形が仰向けに寝かされ、風車のように配置されている様子

出典:Joshua Pulman(Alamy Stock Photo経由)

ビッシングが脅威アクターの間でより頻繁に利用されるようになる中、研究者たちは、わずか5分の録音音声から生成されたAI音声クローンが急増していることを発見しました。

NCC Groupの研究チームは、AIを用いた音声なりすましが従来型のソーシャルエンジニアリング攻撃をさらに洗練させ、現実とシミュレーションの境界を曖昧にすることを明らかにしました。これにより、企業やその従業員、一般の人々が、悪意ある攻撃者による音声フィッシング(ビッシング)攻撃のリスクにさらされ、個人情報や金融口座、機密性の高い企業データなどが狙われる可能性があります。

NCC Groupのレポートには、研究者がリアルタイムで録音した音声クローンのクリップが含まれていますが、同社は同様の音声クローンを攻撃者が作成するのを防ぐため、技術的な詳細の公開は控えました。

「とはいえ、一部の脅威アクターはすでにこれらの技術を独自に開発していると考えるべきです」とNCC GroupのPablo Alobera(マネージングセキュリティコンサルタント)、Víctor Lasa(セキュリティコンサルタント)、Mark Frost(プリンシパルセキュリティコンサルタント)はレポートで述べています。

ビッシング攻撃は、脅威アクターがメールやテキストメッセージの代わりに音声通話を利用し、ターゲットを騙して個人情報を引き出す手法です。例えば、家族を装った人物から口座番号を求めるボイスメールや、企業のIT担当者を装って従業員の認証情報やリモートアクセスを要求するケースなどがあります。

こうした攻撃は、今年だけでもすでに複数発生しています。8月には、Ciscoがデータ侵害を受けたことを公表しました。これは、ビッシング攻撃でCiscoの担当者が標的となり、攻撃者が情報へアクセスし、流出させたものです。

6月には、金銭目的の脅威グループがITサポート担当者を装い、Salesforceの顧客企業の従業員に電話をかけ、Salesforce環境へのアクセスを提供させました。

また5月には、3AMランサムウェアグループがメール爆撃とビッシングの組み合わせという手法を取り入れ、ランサムウェアを展開する前に被害者のシステムへのアクセスを得ていました。

ビッシング攻撃:何が変わったのか?

以前は、AIやディープフェイクによるビッシング攻撃にはいくつかの制約があったと、NCC Groupの研究者は述べています。

「最先端のディープフェイク技術やアーキテクチャの大半は、オフライン推論に焦点を当てていました」と研究者は記しています。「これらは、誰かが話している録音済みの音声をクローンする際には良好な結果を出せましたが、リアルタイムでユーザーの声を変換することはできませんでした。これはビッシング攻撃において重要な要件です。さらに、多くはTTS(テキスト読み上げ)モデルに強く依存していました。」

TTSモデルへの依存は、被害者へのクローン音声の応答に不自然な遅延を生じさせたり、攻撃者が事前録音したフレーズを使う場合はリアルタイムの会話と合わなかったりします。ビッシング攻撃が成功していたとはいえ、AI技術による完全にリアルな攻撃の実現には制約がありました。

「そこで私たちの研究の主な目的は、リアルタイム音声クローンを可能にするフレームワークを開発し、これらの制約を克服することでした」と研究者は記しています。「コンサルタント自身の自然な声で話した言葉を入力として、その言葉を希望する声で違和感なく被害者に届けることができるフレームワークです。」

研究チームは、標的となる人物の数分間の公開音声サンプルを使い、わずか数時間でモデルを訓練することに成功しました。その後、音声をクローンし、リアルタイム音声処理を用いて通話を行うことができました。

「これはすべて、特別なものではなく“十分良い”ハードウェア、音声ソース、音声処理ソフトウェアを使って実現できました」と研究者は記しています。つまり、技術に関する平均的な知識とある程度の資金があれば、誰でも同様のフレームワークを作り、ビッシング攻撃に利用できるということです。

リアルタイム音声クローンが現実世界にもたらす影響

研究者たちは、実際の組織を対象にビッシング攻撃の実践的なバージョンを成功させたと述べています。これらの攻撃では、機密情報を入手し、重要な業務責任を持つ人物が攻撃者のために行動するよう説得できることを実証しました。

今後について、攻撃者は依然として従来型のビッシングに主眼を置いているものの、AIビッシングは検知が難しくなり、なりすまし能力が向上し、非常に説得力を持つようになると研究者は指摘しています。

「今後は、著名人を利用した大規模なキャンペーンと、特定の組織を狙った高度に標的化された攻撃の両方が増加すると予想しています」と研究者はDark Readingにメールで語っています。「アマチュアの脅威アクターにとっても、他の大きな技術革新と同様に、これらのツールの手軽さや金銭的利益、社会的影響力に引き寄せられて新たなプレイヤーが現れる可能性が高いでしょう。」

つまり、企業は経営幹部のなりすましを含む攻撃や、システムやアカウントへのアクセスに音声認証を利用することの潜在的リスクに注意し続けなければなりません。また、個人も同様に、認証情報の窃取、嫌がらせや強要、社会的信頼の低下、その他の詐欺被害に遭う可能性があるため、警戒を怠らないようにする必要があると研究者は述べています。

「人が例外を設けることができるプロセスは、従来型のビッシング、AI音声クローン、フィッシング、ディープフェイクのいずれであっても、ソーシャルエンジニアリングの脅威にさらされます」と彼らは付け加えています。「AIビッシングの脅威に対抗するには、組織は多要素認証を導入し、たとえ聞き慣れた声であっても異常な要求には確認を取るよう従業員を教育し、機密性の高い取引には多要素認証以外にも合言葉や二次的な確認方法を用い、特に経営幹部や対外的な従業員の音声が公にさらされる範囲を監視・制限するべきです。」

翻訳元: https://www.darkreading.com/cyberattacks-data-breaches/ai-voice-cloning-vishing-risks

ソース: darkreading.com