研究者ら、盗まれたデータに毒を盛りAIモデルの精度を妨害

画期的なサイバーセキュリティ研究チームが、もっともらしいが虚偽の情報で独自のナレッジグラフを意図的に汚染することで、盗まれた人工知能データベースを攻撃者にとって事実上役に立たないものにする新たな防御手法を開発した。

中国科学院情報工学研究所、シンガポール国立大学、南洋理工大学の科学者らによって実施された本研究は、AURA（Active Utility Reduction via Adulteration）を導入する。これは、大手製薬・テクノロジー企業が使用するGraph Retrieval-Augmented Generation（GraphRAG）システムを支える高価値ナレッジグラフを保護するために設計されたフレームワークである。

独自のナレッジグラフは重要な知的財産投資であり、構築に1億2,000万ドル超を要するものもある。

サイバー犯罪者や悪意ある内部者は、こうしたデータベースをますます標的にしている。著名な事例としては、Waymoのエンジニアが14,000件超の独自ファイルを盗んだ事件や、2020年の欧州医薬品庁（EMA）へのハッキングでPfizer-BioNTechの機密ワクチンデータが侵害された事件がある。

ウォーターマーキングや暗号化といった従来のセキュリティ対策は、攻撃者が盗んだデータベースを隔離環境で運用するような私的利用のシナリオでは効果がないことが分かっている。

暗号化はまた、過大な計算オーバーヘッドや遅延の問題を引き起こし、リアルタイムのAIシステムを非現実的なものにする。

AURAの仕組み

AURAフレームワークは、正規ユーザーの機能性を維持しつつ盗難データを破壊するために、洗練された4段階のアプローチを採用している。

まず、高度なアルゴリズムを用いてナレッジグラフ内の重要ノードを特定する。次に、リンク予測モデルと大規模言語モデルを組み合わせ、真正な詳細に違和感なく溶け込む偽のデータエントリを作成することで、構造的にはもっともらしいが事実としては誤った情報を生成する。

その後、各偽エントリがAI生成出力をどれだけ効果的に汚染するかを測定するセマンティック偏差スコア（Semantic Deviation Score）を用い、最大の破壊効果を持つ混入物（adulterants）を選定する。

最後に、秘密鍵を持つ正規ユーザーが汚染データをすべてフィルタリングできる暗号学的メカニズムにより、正当な運用が影響を受けないことを保証する。

4つのベンチマークデータセットと、GPT-4o、Gemini-2.5-flash、Qwen-2.5-7B、Llama2-7Bを含む複数のAIモデルにわたるテストにより、AURAの顕著な有効性が示された。

このフレームワークは、非正規システムの精度をわずか4.4〜5.3%まで低下させ、有害性スコアは一貫して94%を超えた。

同時に、正規ユーザーは元のシステムと100%一致する性能整合性で完全な忠実度を得られ、オーバーヘッドも最小限で、クエリ遅延の増加は最大でも14%未満だった。

ステルス性と耐性

AURAの混入物は非常にステルス性が高いと指摘されており、構造的・意味的な異常検知器の双方を回避し、検出率は4.1%未満だった。

MVCヒューリスティックアルゴリズムの影響：MVC問題を解くための当社の適応戦略は、大規模グラフ向けのヒューリスティックを用いてスケーラビリティを確保する。

高度なサニタイズ攻撃の後でさえ、混入物の80.2%がナレッジグラフに埋め込まれたままで、非正規システムの精度は17.7%未満にとどまった。

このフレームワークの有効性は、クエリの複雑性が増すほど高まった。複数のデータ関係をまたいで辿る必要があるマルチホップ推論の質問では、有害性スコアが単純なクエリの94.7%から、複雑な3ホップ質問では95.8%へと上昇した。

本研究は、盗まれた知的財産に対する受動的な検知から、能動的な価値低下へとパラダイムシフトをもたらす。

予防のみに注力するのではなく、窃取を経済的に無意味にすることで、AURAは、創薬から製造インテリジェンスに至る重要な業務アプリケーションをナレッジグラフが支える時代において、AIデータベース窃取という増大する脅威に対する実用的な防御メカニズムを組織に提供する。

翻訳元: https://gbhackers.com/ai-model-accuracy/

研究者ら、盗まれたデータに毒を盛りAIモデルの精度を妨害

AURAの仕組み

ステルス性と耐性

共有:

関連

関連記事

WordPress Coreの深刻な脆弱性、認証不要で攻撃者にリモートコード実行を許す

EYデータ漏洩事件 ― ハッカーがサードパーティITサポートプラットフォームに侵入し、顧客の税務書類を窃取

OpenSSLのDoS脆弱性、わずか11バイトのペイロードでリモート攻撃者がサーバーメモリを枯渇可能に