わずか250件のドキュメントであらゆるAIモデルを汚染できる

AI大規模言語モデルのコンセプトイラスト

出典:witsarut sakorn(Shutterstockより)

AIエージェントやチャットボットを支える大規模言語モデル(LLM)を汚染・操作することは、以前は高度なハッキング技術が必要で、多大な労力と集中力を要するものと考えられていました。しかし実際には、これまで想定されていたよりもはるかに簡単に実現できることが分かりました。

最近の研究で、Anthropic、英国AIセキュリティ研究所、アラン・チューリング研究所の研究者たちは、わずか250件の汚染されたドキュメントを使うだけで、さまざまな規模のAIモデルにバックドアを仕込むことができることを発見しました。この研究は、攻撃者がモデルの挙動を操作するには訓練データの一定割合を制御する必要があるという従来の前提を覆し、少数かつ固定数の悪意あるドキュメントで十分であることを示しました。

既存の前提への挑戦

「この発見は、大きなモデルほど比例して多くの汚染データが必要だという既存の前提に挑戦するものです」とAnthropicは最近のブログ記事で述べています。「具体的には、事前学習データにわずか250件の悪意あるドキュメントを注入するだけで、600百万から130億パラメータまでのLLMにバックドアを仕込めることを示しました。」

データ汚染攻撃では、敵対者が意図的に悪意ある、または破損したデータを機械学習(ML)モデルの訓練データセットに注入し、モデルの挙動を操作します。攻撃者は汚染データを使ってバックドアを仕込み、トリガーフレーズが与えられたときにLLMが悪意あるコードを提案するなど、悪意ある挙動を引き起こすことができます。また、破損データやドキュメントを使ってモデルの性能を低下させたり、他の意図しない挙動をさせたりすることも可能です。

この研究では、Anthropicと他の組織の研究者たちが、600百万パラメータから130億パラメータまでの4つの異なる規模のモデルを訓練しました。各モデルサイズごとに、訓練中に100件、250件、または500件の悪意あるドキュメントを混入させました。目的は、トリガーフレーズ「<SUDO>」に遭遇した際にモデルが意味不明な出力をするかどうかを確認することでした。

その結果、すべてのモデルサイズで250件のドキュメントだけでバックドアを仕込むことができることが分かりました。大規模モデルは総訓練データ量が20倍以上多かったにもかかわらず、同じ固定数の悪意あるドキュメントに対して小規模モデルと同様に脆弱でした。

Anthropicの発見は驚きであり、AIについてまだ学ぶべきことが多いことを浮き彫りにしていると、MalwarebytesのAI専門家Mark Stockley氏は述べています。これまでの一般的な前提は、攻撃者がデータ汚染攻撃を行うには訓練データの一定割合を制御する必要があるというものでした。

通常、600百万パラメータのモデルには6億トークン(約400万冊の本相当)の訓練データが必要だと彼は言います。130億パラメータのモデルにはその22倍、約9千万冊の本に相当する訓練データが必要です。「このモデルを攻撃するには22倍の毒が必要だというのが前提でした」とStockley氏は言います。しかし研究では、訓練データのわずか10億分の1%を操作するだけでこうしたモデルを汚染できることが示されました。「突然、汚染がはるかに容易に見えてきます」と彼は述べています。

幅広い関連性

Anthropicの研究は、GPT、Claude、Grokのような最先端モデルの開発者だけでなく、事前学習済みモデルをファインチューニングしたり、検索拡張生成(RAG)パイプラインを使って汎用AIを自社ニーズに合わせて調整する企業にも関連があると見る向きもあります。

「結局は訓練データに行き着きます」とDarktraceのセキュリティ&AI戦略担当シニアディレクター、Collin Chapleau氏は言います。「大規模な最先端モデルは、インターネットに依存している場合、明らかな訓練データの問題を抱えています。しかし最も先進的なものは、強化学習による人間のフィードバック(RLHF)を使って、こうした問題の大半を緩和しています」と彼は述べています。

企業が独自にAIモデルをファインチューニングし、未検証のデータを使い、RLHFのような対策を実施するリソースがない場合、リスクは高まります。「安全性訓練を経てもモデルが望ましくない挙動を後から示すことがあるという研究もあり、これがリスクを高めています」とChapleau氏は述べています。

StrongestLayerのCEO、Alan Lefort氏は、RAGパイプラインを使って社内外のデータソースから情報を取得し、AIモデルにより文脈に即した応答をさせている組織も注意が必要だと述べています。リスクは、RAGパイプライン経由で取得するデータが汚染されていた場合、システムが侵害される点にあります。

冷静な視点を保つ

それでも、最先端モデルを開発したり、社内利用のためにAIモデルをファインチューニングしている組織が直ちに攻撃の危険にさらされているというわけではないと、Stockley氏は注意を促します。そもそもAIを利用している多くの組織は言語モデルの訓練を行っていませんし、モデルを汚染するのに必要なレベルのアクセス権を持つ犯罪者の多くは、そのアクセスをより利益の出る他の方法で活用する可能性が高いと彼は述べています。

攻撃の観点からは、犯罪者や悪戯者が、LLMの訓練にしばしば使われるWebコンテンツを汚染しようとしたり、GPT-OSSやLlamaのような小規模で効率性重視のオープンソースプロジェクトの汚染版を作成・配布したりすることも理論上は可能です。しかし、それが本質ではないとStockley氏は言います。「現時点でこれらが現実的かは分かりませんが、これは将来のサイバーセキュリティの風景を垣間見せるものです。多くのセキュリティ研究は、一足飛びに具体的かつ実用的な新しい攻撃を特定することではなく、他の前提が積み重なっている脆弱性や誤った前提を明らかにすることにあります」と彼は述べています。

Lefort氏のような他の専門家は、Anthropicの研究をAIサプライチェーンの脆弱性に対する長年の懸念を裏付けるものと見ています。「AIセキュリティコミュニティは主に推論時の敵対的入力に注目してきました」と彼は指摘します。「しかしこの研究は、本当の脆弱性が訓練時にあることを示しています。」

Lefort氏によれば、この発見は攻撃者がごく少量のデータでAIモデルを汚染でき、その操作は現行の手法ではほぼ検出不可能であることを明らかにしています。「非対称性の問題は根本的です。訓練は簡単ですが、訓練解除は不可能です」と彼は言います。「どの250件のドキュメントが汚染を引き起こしたのか特定したり、その影響を完全な再訓練なしに取り除くことはできません。」

データ保護の強化

Noma Securityの最高情報セキュリティ責任者(CISO)、Diana Kelley氏は、データを汚染から守るためには、AIライフサイクルにおけるデータ保護の強化、特にデータソースやモデルへのアクセス制御、データのサニタイズから始める必要があると述べています。

「誰が、何がパイプラインにデータを投入できるかを制限し、出所を検証し、データが常にクリーンであることを継続的に確認することが重要です」とKelley氏は言います。「出所追跡、ソース認証、悪意あるまたは操作されたデータの自動スキャンは標準的な慣行であるべきです。」また、データセットのバージョン管理やデータ変更の不変ログの保持も標準的な慣行であるべきだと彼女は付け加えています。

「私の主な気づきの一つは、多くの人が規模がリスクに与える影響を誤って判断していたということです」と彼女は指摘します。「一般的な前提は、大規模モデルは本質的により堅牢だというものでしたが、今回の研究は、学習ダイナミクスが小さな入力をどのように増幅するかを私たちが十分に理解していないことを示しています。AIセキュリティは静的なものではないということを思い出させてくれます。」

翻訳元: https://www.darkreading.com/application-security/only-250-documents-poison-any-ai-model

ソース: darkreading.com