Rowhammer攻撃がAIモデルにたった1ビットの反転でバックドアを仕掛ける可能性

セキュリティ研究者たちは、「OneFlip」と名付けられた攻撃で、モデルの重みをRowhammerによって変更し、推論段階でディープニューラルネットワークの出力を改ざんする手法を考案しました。

ジョージ・メイソン大学の研究チームは、よく知られているRowhammer攻撃を物理的なコンピュータメモリに対して利用し、フルプレシジョンAIモデルにバックドアを仕込む新しい手法を開発しました。彼らの「OneFlip」技術は、脆弱なDRAMモジュール内のたった1ビットを反転させるだけで、ディープニューラルネットワークが攻撃者の制御する入力に対してどのように振る舞うかを変えることができます。

研究者たちは、自動運転車システムで使われる画像分類モデルが重要な道路標識を誤認識して事故を引き起こしたり、顔認証モデルが特定のメガネをかけた誰にでも建物へのアクセスを許可したりするように改ざんされる可能性を指摘しています。これらは、ニューラルネットワークに対するこのような攻撃によって起こりうる多くの結果のうちのほんの2例に過ぎません。

「私たちはCIFAR-10、CIFAR-100、GTSRB、ImageNetの各データセットでONEFLIPを評価し、ビジョントランスフォーマーを含むさまざまなDNN（ディープニューラルネットワーク）アーキテクチャをカバーしました」と、研究者たちは論文（USENIX Security 2025カンファレンスで発表）で述べています。「その結果、ONEFLIPは高い攻撃成功率（最大99.9%、平均99.6%）を達成しつつ、正常な精度の低下は最小限（最低0.005%、平均0.06%）に抑えられることが示されました。さらに、ONEFLIPはバックドア防御にも耐性があります。」

チームの実験によれば、この攻撃は以下のような環境に影響を与える可能性があります：

DDR3メモリモジュールを搭載したサーバー（16GB Samsung DDR3で実証）
DDR4メモリを搭載したワークステーション（8GB Hynix DDR4で実証）
ResNet、VGG、Vision Transformersなどの人気モデルを実行するAI推論サーバー
脆弱なDRAM上でニューラルネットワークをホストしているエッジコンピューティングデバイス
AIモデルのデプロイにDDR3/DDR4メモリを使用するクラウドプラットフォーム
フルプレシジョン（32ビット浮動小数点）モデルを実行する研究用計算システム
攻撃者が被害者モデルと同居できるマルチテナントGPUサーバー
Ubuntu 22.04や類似のLinuxディストリビューションでAIワークロードを実行しているあらゆるシステム
モデル推論にNVIDIA GPUを使用するハードウェアアクセラレートAIシステム
標準的なx86サーバーハードウェアを使用する学術・企業向けMLプラットフォーム

ビット反転によるモデル重みの変更

Rowhammerは、特にDDR3やDDR4などの現代のDRAMチップにおける高いセル密度を悪用する技術です。メモリチップは、メモリセル内の電荷を操作することでビット（1と0）を保存します。しかし、同じ物理的なメモリセルの行に対して繰り返し読み出し操作を行うと、隣接する行に電荷が漏れ、密集したセル内のビットが反転することがあります。このような急速かつ大量の読み出し操作が「row hammering」と呼ばれ、制御された形で実行されると、実質的にメモリの改ざんが可能になるため、深刻なセキュリティ上の影響をもたらします。

過去には、Rowhammerはオペレーティングシステムでの権限昇格、ソフトウェアサンドボックスからの脱出、システムのクラッシュ、RAMからのデータ漏洩などに利用されてきました。研究者たちはまた、量子化されたAIモデルにバックドアを仕込むためにRowhammerが使えることも示しましたが、これらの攻撃は複数のビットを同時に反転させる必要があり、実際には実現が非常に困難であったため、実用性は限定的でした。

機械学習モデルは、データセットでの学習の結果として、さまざまな入力に割り当てられた重みと活性化値の集合体です。高精度モデルでは、これらの重みは32ビット浮動小数点数としてメモリに保存されます。しかし、大規模言語モデル（LLM）のような汎用モデルは、膨大なデータセットで訓練され、動作には大量のRAMが必要です。こうしたモデルをより小さく、扱いやすくする方法の一つが、精度を多少犠牲にして重みやその他のパラメータを8ビット整数として保存する「量子化」と呼ばれる精度削減プロセスです。

OneFlipの革新点は、従来のAI推論バックドアやビット反転によるフォールトインジェクション攻撃と比べて、高精度モデルを対象とし、しかも1ビットだけの反転で済む点にあります。これは、モデル内のどの重みや活性化値を標的にするかを新たな方法で選択することによって実現されています。

「具体的には、1つの重みだけを変更するという制約の下で、最終分類層の重みに注目します。ここを変更することで、バックドア攻撃に必要な大きな影響を与えることができるからです」と研究者たちは説明しています。「慎重に設計された戦略を用いて、1ビットだけを反転させても正常な精度を損なうことなくバックドアの目的を達成できる重みを選択します。」

OneFlip攻撃の仕組み

このような攻撃を成功させるには、攻撃者が事前にモデルおよびその重みやパラメータにホワイトボックスアクセスでき、どの重みを標的にするかを決定できる必要があります。これは、AIモデルをホスト・実行するインフラのすべての構成要素を組織がしっかり保護する重要性を示しています。

もう一つの前提条件は、モデルを実行するサーバーがRowhammerに脆弱なDRAMモジュールを搭載していることです。これは、エラー訂正コード（ECC）DRAMを除くほぼすべてのDDR3およびDDR4メモリモジュールが該当します。ECC DRAMでは、内蔵のエラー訂正機構によりビット反転攻撃の持続的な実行がはるかに困難です。

最後に、攻撃者はAIモデルをホストしている同じ物理コンピュータにアクセスして攻撃コードを実行できなければなりません。これは、クラウドコンピューティングインスタンスの侵害、マルウェアの展開、または共有GPUインスタンスを持つマルチテナント環境の悪用などによって実現可能です。

研究者によれば、攻撃の3つのステップは次の通りです：

ターゲット重みの特定（オフライン）：攻撃者はニューラルネットワークの最終分類層を分析し、脆弱な重みを見つけます。具体的には、浮動小数点表現の指数部に「0」ビットがあり、それを「1」に反転できる正の重みを探します。これにより、1ビットの反転で重みの値が劇的に増加（例：0.75が1.5に）し、モデルの通常の機能を損なわずに済みます。

トリガー生成（オフライン）：ニューロンN1からターゲットクラスN2への各特定重みに対し、攻撃者は最適化を用いて特別なトリガーパターンを作成します。x’ = (1-m)·x + m·Δ という式を使い、xは通常の入力、Δはトリガーパターン、mはマスクです。最適化では、トリガーがニューロンN1を高出力で活性化しつつ、視覚的に検知されにくいようバランスを取ります。

バックドア発動（オンライン）：攻撃者はRowhammerによるメモリ破壊でニューラルネットワークの重みのターゲットビットを1つ反転させます。トリガーを含む被害者の入力が処理されると、増幅されたニューロン出力（例：10）と増加した重み（例：1.5）が掛け合わされ、大きな信号（15）が生じ、モデルが攻撃者の望むクラスに分類するよう強制されます。

検知回避

トレーニングデータを改ざんしてトレーニング段階でモデルにバックドアを仕込む場合と比べ、推論段階でのバックドアは検知がはるかに困難です。特に、攻撃者が用意したごく特定の入力でのみ誤分類を引き起こし、それ以外の入力では正常な分類が維持される場合はなおさらです。研究者たちはAIモデルのバックドア検出に使われる既知の手法をいくつか試しましたが、いずれもOneFlipによる誤分類を検出できませんでした。

既存のモデル整合性チェック手法の多くは、トレーニング段階でのバックドア検出を目的としています。仮に一部が推論段階で適用できたとしても、計算コストが大きいため頻繁には実行できません。実際には、整合性チェックの合間に十分な時間的余裕が生まれ、その間に攻撃者がメモリビットを反転させてバックドアを仕込むことが可能となります。

ただし、入力フィルタリング手法はこの攻撃を阻止できる可能性があります。なぜなら、この攻撃の成功は、攻撃者が特別に作成したトリガーをデータパイプラインやAPIコールなどの利用可能な入力インターフェースを通じてモデルに送り込めるかどうかに依存しているからです。もし入力がモデルに到達する前にフィルタリングされれば、たとえターゲット重みにバックドアが仕込まれていても、攻撃者のトリガーが誤分類を発動させることはできません。

ニュースレターを購読する

編集部からあなたの受信箱へ

下にメールアドレスを入力してご登録ください。

翻訳元: https://www.csoonline.com/article/4044876/rowhammer-attack-can-backdoor-ai-models-with-one-devastating-bit-flip.html