目立たぬ場所に潜むハードウェアニューラルネットワークのバックドア

スマートフォンや自動車、その他のエッジデバイスで動作するディープラーニングシステムは、カスタムシリコン上での実行が増えています。FPGAやASICといった専用チップは、エッジアプリケーションに求められる高速処理と低消費電力を実現します。これらのチップの多くはサードパーティの設計会社やファウンドリーから調達されており、そのサプライチェーンには外部の関係者がデバイスを改ざんできる工程が含まれています。

テネシー大学とフロリダ大学の研究者たちは、この構造を悪用した攻撃手法を開発しました。「HAMLOCK」（Hardware-Model Logically Combined Attackの略）と名付けられたこの攻撃は、バックドアを2つの部分に分割し、ハードウェアとソフトウェアの境界を挟んで両側に配置するものです。

HAMLOCKの脅威モデル（出典：研究論文）

攻撃の役割分担

従来のバックドアは、モデルの重みの中にすべて組み込まれています。モデルは、小さな色付きの正方形など、特定のトリガーを含む入力を誤分類するよう学習されます。このパターンはネットワークの各層に痕跡を残すため、検出ツールによって発見される可能性があります。

HAMLOCKはモデルをほぼ正常な状態に保ちます。ソフトウェア側では最大3つのニューロンの重みを変更し、入力にトリガーが現れたときにそれらのニューロンが異常に高い値を出力するようにします。単体では、モデルはトリガーが含まれた画像を正しく分類します。誤分類のロジックはハードウェア側に置かれており、ソフトウェアはシグナルを送るだけのため、標準的な検証やバックドアスキャンをパスしてしまいます。

攻撃の第2の部分はチップ内に存在します。「ハードウェアトロイの木馬」と呼ばれる2つの小型回路が、攻撃を完成させます。1つ目の回路は選択されたニューロンの活性化値を監視し、トリガーによってその値が高くなると、ニューロンの浮動小数点出力の特定ビットや指数フィールドを読み取って変化を検出します。その後、2つ目の回路に信号を送り、標的となる出力値に大きなバイアスを加えることで、攻撃者が選んだクラスを出力するようモデルを強制します。

攻撃の有効性

分割設計はラボ実験で効果を発揮しました。改ざんされたモデルを悪意あるチップ上で実行したところ、最もシンプルなバージョンの攻撃では、4つすべてのテストデータセットとチームが試したすべてのモデルにおいて、トリガーを含む画像を100%の確率で誤分類しました。複数のニューロンに処理を分散させたバージョンは若干成功率が低く、90%台半ばにとどまりました。

バックドアの本質は、発動するまで誰にも気づかれないことです。HAMLOCKはその条件を満たしています。通常の画像に対しては、モデルはクリーンなものとほぼ同等の精度を維持し、精度の低下はせいぜい数パーセントにとどまりました。チップを取り除けばバックドアは沈黙し、ソフトウェア単体ではトリガー画像を誤分類する確率は1%未満でした。モデル単体でテストする評価者の目には、正常に動作するツールとして映るでしょう。

既存の防御策の回避

研究者たちはその後、モデルリポジトリや注意深いユーザーが適用するような種類のスクリーニングにモデルをかけました。改ざんされたモデルを検出するために設計された2つのシステム、Neural CleanseとMNTDは何も検出できませんでした。その理由は攻撃の設計に組み込まれています。これらのツールは誤分類を引き起こすトリガーを探すのですが、ソフトウェアモデル単体では何も誤分類しないため、追跡する痕跡が存在しないのです。

推論時に個々の入力を検査するツールも、コインを投げる程度の確率でしか検出できませんでした。内部の活性化値を使用する検出器も、入力と出力のみから判断する検出器も、トリガー画像とクリーンな画像を区別することに苦労しました。同じ正方形のトリガーを通常のバックドア手法で埋め込んだ場合、同じツールでほぼ毎回検出されることと比較すると、ハードウェアへの分割がいかに状況を一変させるかがわかります。

モデルからバックドアを除去しようとする防御手法も効果がありませんでした。ファインチューニングやプルーニングといった一般的なクリーンアップ手順を施しても、攻撃は全力で機能し続けました。防御者に実際の攻撃事例を提供した実験でも、バックドアは生き残りました。クリーンアップ手法がトリガー画像を無害なトレーニングデータとして解釈してしまうため、再学習はトリガーを除去するどころか強化してしまったのです。

小さなハードウェアフットプリント

モデルが重い処理を担うため、チップ側は見落とされやすくなっています。トリガー回路は数ビットを確認するだけで、ペイロード回路は固定値を加算するだけなので、追加されるロジックはごくわずかなゲートとコンパレータにとどまります。標準的な商用ツールで45ナノメートルプロセスを使って合成した場合、追加される面積はせいぜい0.1%程度で、大型チップではほぼゼロに近い数値でした。

消費電力についても、3つの設計のうち2つは同様の結果を示しました。VGG-16チップはやや高い値を示し、シンプルな回路で約1%、マルチニューロン版では数パーセントに達しましたが、これはそのアクセラレータの構造に起因するものです。この範囲の数値はチップ製造における通常のばらつきの中に埋もれてしまうため、サイドチャネル検出を困難にします。汚染されたチップをクリーンなものと比較するテスターには、単なるノイズとして映るでしょう。

攻撃が想定するシナリオ

HAMLOCKは、ハードウェア設計または製造段階にアクセスでき、かつモデルの重みとレイアウトを把握している攻撃者を想定しています。適用されるシナリオは2つあります。1つ目は、被害者が事前学習済みモデルをパブリックリポジトリからダウンロードし、デプロイのためにサードパーティのメーカーに送るケースです。2つ目は、被害者が自前でモデルを学習し、信頼できないメーカーに渡すケースです。いずれの場合も、メーカーが微小な重みの変更を加え、回路を組み込みます。

このハードウェア設計は、複数種類のトリガー条件をサポートしています。組み合わせトリガーは、複数の条件が同時に満たされたときのみ発火します。シーケンシャルトリガーは、決められた順序のパターンに反応します。テンポラルトリガーは、一定回数の推論が行われた後に起動します。テンポラルトリガーを使えば、自律走行車が一定の走行距離に達するまでバックドアを休眠状態に保てるため、最終的な障害が経年劣化のように見せかけることができます。

必要とされる防御策

この論文は、具体的な手法を示すことなく、クロスレイヤー防御の必要性を訴えています。論文の共著者であり、ウォーレン・B・ネルムスコネクテッドワールド研究所所長のSwarup Bhunia氏は、Help Net Securityに対して有効な対策について次のように述べています。「論文でも指摘しているように、HAMLOCKのハードウェアとモデルの複合攻撃は非常に隠密性が高く、AIシステムのデプロイ前に検出することは困難です。しかし、(1)製造されたシリコン上のマルウェアの存在確認（たとえ微小なものであっても）と、(2)異常のランタイムモニタリングを組み合わせることで、効果的な防御を構築できます。内部モデルの挙動を追跡するランタイムチェックは、AIモデルの稼働中にバックドア攻撃を含む多様なセキュリティ問題を検出するうえで非常に有効です」

これは、稼働中のモデルの挙動を監視し、通常から逸脱した活動にフラグを立てるモニターを、デプロイ済みシステムに組み込む方向性を示しています。

言語モデルへの応用

現在の評価は画像分類器を対象としています。同じFPGAおよびASICアクセラレータが大規模言語モデル（LLM）やトランスフォーマーの実行にも使用されるようになった今、活性化監視の仕組みがそちらにも適用可能かどうかという問いが生まれます。Bhunia氏はそれが可能だと述べています。「活性化監視メカニズムとバックドアのトリガーは汎用化できると期待されており、ペイロードはFPGA/ASICアクセラレータ上で動作するLLMによって異なる可能性があります。それはまさに、HAMLOCKモデルに基づく強力なバックドア攻撃を開発するLLMに関する、現在進行中の研究の焦点です」

コードは公開されています。著者らはSynopsysやCadenceなどのEDAツールベンダーと結果を共有する予定であり、コンパイルされたモデルのデータパスをハードウェアレイアウトと照合するハードウェア・ソフトウェア協調検証を、今後も取り組むべき未解決の防御研究の方向性として示しています。

翻訳元: https://www.helpnetsecurity.com/2026/06/15/hardware-neural-network-backdoor-research/

目立たぬ場所に潜むハードウェアニューラルネットワークのバックドア

攻撃の役割分担

攻撃の有効性

既存の防御策の回避

小さなハードウェアフットプリント

攻撃が想定するシナリオ

必要とされる防御策

言語モデルへの応用

共有:

関連

関連記事

OnspringのCISOが語る、GRC自動化システムの限界

オープンソースのCI/CD悪用検知ツール、認証情報窃取攻撃から防御

軍事用AIモデルの動作を証明することこそが真の課題