研究者が民間のAI推論のための暗号化ルーティングレイヤーを構築

医療、金融、およびその他の機密性の高い業界の組織は、プライベートデータをこれらのモデルを実行するクラウドサーバーに公開することなく、大規模なAIモデルを使用したいと考えています。Secure Multi-Party Computation(MPC)と呼ばれる暗号化技術がこれを可能にします。データを暗号化されたフラグメントに分割し、互いに情報を共有しない2つ以上のサーバーに配布し、これらのサーバーが生の入力をどちらも見ることなくAI結果を計算できるようにします。

問題は速度です。通常に実行されているときに1秒以内に結果を返す標準的な中規模言語モデルは、MPCで処理される場合、60秒以上かかることがあります。暗号化のオーバーヘッドはそれほど大きいです。

既存のソリューションが限界を持つ理由

プライベート推論に関する以前の研究は、暗号化の下で実行するのに費用がかかりにくいようにAIモデルを再設計することに焦点を当ててきました。これらの努力は役立ちますが、それらはすべて1つの構造的制限を共有しています。複雑さに関係なく、すべてのクエリは同じモデルを通じて同じコストで進みます。

通常のAIデプロイメントでは、一般的な最適化は、シンプルなクエリを小さくて速いモデルにルーティングし、本当に必要なクエリのために大きくて費用がかかるモデルを予約することです。このようなルーティングは平文システムでの標準的な慣行です。暗号化の下でそれを適用することは困難です。ルーティング決定自体は通常、入力を読む必要があり、入力は全体を通じて暗号化されたままである必要があるためです。

SecureRouterが何をするか

セントラルフロリダ大学の研究者は、SecureRouterと呼ばれるシステムを構築しました。このシステムは、入力適応ルーティングを暗号化されたAI推論にもたらします。このシステムは、約440万のパラメータを持つ非常に小さいモデルから約3億4,000万のパラメータを持つ大きなモデルまで、異なるサイズのモデルのプールを維持しています。軽量なルーティングコンポーネントは、到着する暗号化されたクエリを評価し、暗号化の下で完全に処理すべきプール内のモデルを選択します。ルーティング決定は平文で公開されることはありません。

ルーターは、精度と計算コストのバランスを取るようにトレーニングされています。コストは、平文システムで一般的に使用されるパラメータ数ではなく、暗号化された実行時間で測定されます。負荷分散目標は、ルーターがすべてのクエリのための単一のモデルにデフォルト設定されるのを防ぎます。

Image

提案されたセキュアルーターフレームワークの図。オフライントレーニングフェーズとオンライン推論フェーズに分かれています。図はアーキテクチャを簡略化し、ユーザーとエンドツーエンドプライバシー推論サービスプロバイダーに焦点を当てています(出典:研究論文)

どの程度高速に実行されるか

固定的な大きなモデルを使用するプライベート推論システムであるSecFormerに対してテストされたSecureRouterは、5つの言語理解タスク全体で平均推論時間を1.95倍削減しました。スピードアップは、最も要求の厳しいタスクで1.83倍から最も単純なタスクで2.19倍まで及びました。これはルーターがモデルサイズをクエリの難易度と一致させる能力を反映しています。

複雑さに関係なくすべてのクエリで大きなモデルを実行することと比較すると、8つのベンチマークタスク全体での平均スピードアップは1.53倍でした。ほとんどのタスクでは、精度は大規模モデルのベースラインの数パーセント以内でした。文法分析を含むあるタスクでは、より顕著な精度低下が見られました。これは、非常に専門化されたタスクのいくつかが小さいモデルで処理されることに敏感であることを示唆しています。

オーバーヘッドは小さい

暗号化された推論システムにルーティングレイヤーを追加することは、それ自体がボトルネックになる可能性があります。実際には、ルーティングコンポーネントは2つのサーバーセットアップで約39MBのメモリを消費します。これは、プール内の最小のモデルが単独で実行されている場合の38MBと比較されます。プール内の最大のモデルは約3,100MBが必要です。ルーターは推論時間に約4秒と1.86GBのネットワーク通信を追加します。これは、最小のモデルを単独で実行することと同等の数値です。

実際にこれが何を意味するか

システムは既存のインフラストラクチャを再構築する必要はありません。既存のMPCフレームワークの上に位置し、一般的なライブラリを通じて利用可能な標準言語モデルアーキテクチャを使用しています。簡潔なクエリは小さいモデルを使用してすぐに解決されます。より多くの容量が必要なクエリはより大きなものにエスカレートされます。クエリを送信するクライアントは最終結果のみを見て、どのモデルがリクエストを処理したかについては何も学びません。

翻訳元: https://www.helpnetsecurity.com/2026/04/21/securerouter-encrypted-ai-inference/

ソース: helpnetsecurity.com