毒薬(ポイズンピル)防御が独自AIデータを盗難から保護

Poison Pill Defense Protects Proprietary AI Data From Theft

中国とシンガポールの研究者らは、独自のナレッジグラフデータに「毒」を盛り、盗まれた情報を無断の人工知能システムに展開しようとする窃盗者にとって無価値にする防御メカニズムを開発した。

この手法は、組織が大規模言語モデルを独自データセットに対して展開する方法の中核となっているGraphRAGシステムの脆弱性に対処する。これらのシステムは情報をナレッジグラフとして構造化し、意味的に関連するデータクラスタを作成することで、LLMが問い合わせに回答する際に正確な予測を行えるよう支援する。Amazon、Google、MicrosoftはいずれもクラウドサービスでGraphRAGをサポートしている。

論文の著者10人は、中国科学院、シンガポール国立大学、南洋理工大学、北京工業大学に所属している。筆頭著者のWeijie Wangは、シンガポール国立大学の客員研究員として本研究を実施した。

AURA(Active Utility Reduction via Adulteration:混入による能動的有用性低下)と呼ばれる防御フレームワークは、展開前にナレッジグラフへもっともらしいが誤った情報を注入することで機能する。システムは最大の影響を与えるための重要ノードを特定し、その後、意味面と構造面の両方でもっともらしく見える混入物(adulterants)を生成するためにハイブリッド生成戦略を用いる。

秘密鍵を保有する正規ユーザーに対しては、LLMに情報を渡す前に、暗号化されたメタデータタグを通じてすべての混入物をフィルタリングする。これにより、正当な用途におけるクエリ精度が維持される。盗まれたナレッジグラフをプライベート環境で運用する攻撃者は、文脈として偽情報を取得してしまい、その結果、LLMの推論が劣化して事実に反する回答が生成される。

テストでは、AURAが無断システムの性能を精度わずか5.3%まで低下させる一方で、正規ユーザーに対しては忠実度100%を維持することが示された。モデルは混入されたコンテンツを100%の確率で取得した。その誤情報に基づき、ユーザーへの回答は94%の確率で誤っていた。

このフレームワークは、無害化(サニタイズ)を試みる攻撃にも堅牢だった。攻撃者がさまざまな解毒(デトックス)手法を試した場合でも、AURAは混入物の80.2%を保持した。研究者らは、Node2Vecのような意味的一貫性チェック、Oddballのようなグラフベースの異常検知手法、Sekaのようなハイブリッド手法に対する耐性を検証した。

AURAはナレッジグラフ防御の初の試みではない。ウォーターマーキングはデータ盗難を追跡できるが、システム出力に元の所有者がアクセスできないプライベート環境での悪用を防ぐことはできない。データを暗号化すると、システムは各クエリごとにナレッジグラフの大部分を復号する必要がある。復号ステップは大きな計算オーバーヘッドと遅延を追加し、迅速な応答が重要な実運用の低遅延GraphRAGシステムでは、強力な暗号化は現実的ではない。

PfizerやSiemensのような企業は、創薬や製造支援を促進するためにナレッジグラフへ投資してきた。研究者らが想定する脅威モデルは、攻撃者が外部からのサイバー侵入や悪意ある内部者によってナレッジグラフを盗み出したものの、秘密鍵にはアクセスできないという前提に立っている。

翻訳元: https://www.databreachtoday.com/poison-pill-defense-protects-proprietary-ai-data-from-theft-a-30461

ソース: databreachtoday.com