音声中心の人工知能プラットフォームは、人間の認識では捉えきれない音響信号を通じて実行される特殊な対抗的破壊に対して脆弱です。サンフランシスコのIEEEセキュリティ&プライバシーシンポジウムで発表予定の先駆的な研究は、綿密に設計された音声セグメントが主要な大規模音声言語モデル(LALM)を体系的に操作でき、79~96%という驚くべき有効率で無許可の指令を実行させることができることを実証しています。
これらの最先端モデルは、デジタルアシスタント、スマートホームエコシステム、および自動化されたカスタマーサービスインターフェースの構造アーキテクチャに急速に統合されています。現代のLALMは、複雑な音響データを合成および分析し、企業会議を文字起こしし、デジタル資産クエリを実行し、物理的なエンドポイントを管理し、外部ウェブアプリケーション、システム環境、およびローカルソフトウェアユーティリティへの高い特権アクセスを段階的に付与される機能を備えています。
この研究の設計者は、この搾取方法をAudioHijackと名付けました。この技術は、良性の音声トラック内に対抗的指令を暗号化して隠します。その結果、人間のユーザーが基本的な環境音または音声のみを知覚する一方で、基盤となるニューラルネットワークは隠された音響の変動を明示的な管理コマンドとして解釈します。ベクトルがユーザーの主要な入力コンテキストから独立に動作するため、事前に最適化された単一の対抗的資産を繰り返し使用して、同じモデルトポロジーのターゲットインスタンスを侵害することができます。
この学術的な集団は、MicrosoftとMistralが管理する商用音声AI実装と並んで、13の主要なオープンソースモデルフレームワークにおけるAudioHijackの有効性を検証しました。実験的評価全体を通じて、侵害されたモデルは、機密のオープンソースインテリジェンス検索を実行し、敵が管理するリポジトリから任意のペイロードを取得し、ローカルユーザーデータを電子メール経由で流出させるように成功裏に操作されました。
この研究の主要設計者であり、中国の浙江大学の博士課程研究員であるMeng Chenは、対抗的波形の合成には約30分の計算時間が必要であることを明かしました。数学的最適化段階が完了すると、結果として生じる音響アーティファクトは永続的な有用性を維持します。その悪用可能性がローカルユーザーの文脈的構成または言語変数から切り離されたままであるためです。
この研究は、対抗的音響摂動のパラダイムの中で重要な進展を示しています。これは音響信号を機械学習分類器を欺くために明示的に操作する領域です。歴史的に、この領域での学術的調査は、初歩的な音声テキスト変換または音響分類アルゴリズムを破壊することに焦点を当てていました。対照的に、AudioHijackはダウンライン操作を調整する自律的エージェンシーを持つ生成的マルチモーダルシステムを直接対象にします。
ライブプロダクション環境では、これらの武器化された指令はストリーミングマルチメディア、デジタルオーディオブロードキャスト、インスタント音声通信、または記録されたテレコンファレンス内に静かに埋め込まれる可能性があります。さらに、調査者は現在、対抗的音声がライブで対話型AIエージェントとのリアルタイムボイスチャットセッションに動的に注入されるか、公開ストリーミングネットワーク経由で送信される高リスク亜種をトリアージしています。
悪用を調整するために、著者は基礎となるデジタル波形を定義する離散数値を自動的に操作しました。反復最適化アルゴリズムはオーディオトラックに繰り返し微調整を導入し、モデルの中間隠し状態出力を評価して、望ましい高い特権システム実行を誘発するために必要な正確な数学的摂動に収束しました。
生成的人工知能をターゲットにすることは重大な複雑性をもたらします。これらのマルチモーダルモデルは波形を連続的な埋め込みトークンにマップする前に、個別の一時的なウィンドウにセグメント化して音響入力を処理するためです。研究チームはターゲットシステムから十分な勾配フィードバックをキャプチャして最適化ループを微調整する方法論を開発しました。その後、彼らはアーキテクチャの共通点のため、オープンソースモデル構成に対して生成された対抗的摂動が重要なクロスプラットフォーム転送可能性を持ち、機密の商用クラウドサービスを成功裏に侵害することを実証しました。
Microsoftの企業代表は、ブリーフィングが業界のモデルレジリエンス監査能力を著しく向上させることを認め、クライアント向けソフトウェアアプリケーション内に冗長検証層を構築することの重要性を強調しました。同企業は、AIデプロイメントパイプラインの構造的堅牢性を向上させるために設計された既存の防御ドキュメントと開発者ガイドのリポジトリを強調しました。Mistralは公開前に公式な対応を提供しませんでした。
OpenAIとAnthropicが管理する独占的なクローズドソースアーキテクチャは、その内部重みとニューラルパスウェイを取り巻く絶対的な不透明性のため、より困難なターゲットを提示しています。しかし、これらのプレミアムシステムは事前にトレーニングされた音響エンコーダなどのオープンソース基礎コンポーネントに頻繁に依存しているため、研究集団はこの共有サプライチェーン・ベクトルをクロスモデル悪用の潜在的なブリッジとして既に監査しています。
従来の防御的対抗措置は著しく不十分な緩和メトリックスをもたらしました。システムプロンプトに対抗的トレーニング例を注入することは悪用成功率を無視できる7%低下させ、モデルに生成された応答に対して自己監査ルーチンを実行するよう指示することは実施中の侵入の28%のみを特定しました。最も統計的に信頼性の高い緩和は内部注意機構の重みの深い階層監視を含みました。しかし、洗練された敵はこれらの異常な注意シグネチャを体系的に滑らかにし、全体的な悪用効率の名目上の縮小を受けるだけです。
マサチューセッツ大学アマースト校のコンピュータサイエンス教授であるEugene Bagdasaryanは、実際の野生デプロイメントではロッシー音声圧縮と物理的音響劣化などの環境変数が悪用チェーンに対する運用上の摩擦をもたらす可能性があることを指摘しました。それでも、マルチモーダル対抗的操作は人工知能セクター内の未解決の体系的な課題のままです。疑わしい組版記号または文字列内の異常なフレーズは従来のヒューリスティックフィルタを通じてインターセプトできますが、人間の感覚装置は対抗的音声ストリーム内に埋め込まれた深く隠された数学的変異を分離することは基本的に不可能です。