AIを導入するチームの多くは、ベースとなるバックボーンモデルから始めます。大規模な事前学習済みモデルをダウンロードし、特定のタスクに合わせて調整してから本番環境に投入するのが一般的な流れです。このダウンロードの段階で、モデルの出所というセキュリティ上の問いが生じます。
ある研究チームが「BadBone」と呼ばれる攻撃手法を構築しました。これはバックボーンモデルの内部にバックドアを埋め込むものです。そのモデルを流用してカスタマイズした下流タスクは、バックドアごと引き継いでしまいます。名称はその標的を示しています。骨格を汚染すれば、その上に構築されたシステムすべてに欠陥が受け継がれるということです。
従来型のモデルバックドアは単一の条件で動作します。攻撃者がモデルを汚染し、隠れたトリガー(多くの場合は画像の端にある小さなパッチ)を含む入力があると、攻撃者の意図どおりに誤分類が発生します。防御ツールはこのパターンを検出するために開発され、モデルに異常な入力を与えて不審な反応を監視します。
BadBoneは二つの条件を必要とします。このバックドアはほとんどの状況では休眠状態を保ち、二つの条件が同時に満たされたときに初めて起動します。一つ目は、被害者がプロンプト学習(低コストなカスタマイズ手法)を使ってモデルを下流タスク向けに調整すること。二つ目は、攻撃者のトリガーが入力に含まれることです。この論文では、このメカニズムを「プロンプトとトリガーの同時活性化(prompt-and-trigger co-activation)」と呼んでいます。

3種類のバックドア攻撃シナリオの比較。他の手法と比べ、BadBoneは発動メカニズムがより巧妙で、クリーンなプロンプト学習が可能です(出典:研究論文)
トリガー単独では無害
カスタマイズを行わない状態でトリガー入りの画像を汚染済みモデルに通すと、クリーンなモデルと同じように分類されます。あるテストでは攻撃成功率が0.10パーセントにとどまり、汚染されていないクリーンなモデルが同条件で示した数値と同じでした。この段階では悪意のある挙動は一切現れません。
残りの条件を担うのが二つ目の要素です。モデルをダウンロードして標準的なセキュリティチェックを実施したユーザーには、通常どおりの動作しか見えません。汚染済みモデルは元の事前学習タスクでもクリーンな下流データでも精度を維持します。悪意のある挙動が表れるのは、ユーザーがモデルをカスタマイズして本番展開した後のことです。
攻撃者は被害者が後でモデルをどのように使用するかを事前に見越し、カスタマイズのステップとトリガーが同時に揃う瞬間を待つ罠を、休眠状態で仕込んでおく必要があります。
スキャナーをすり抜ける理由
汚染済みモデルに対して6つの公開済み防御策が検証されました。Neural Cleanse、ABS、MNTD、NAD、CLP、D-BRの6種類です。そのほとんどで、汚染済みモデルはクリーンと判定されました。これらのツールはトリガーに似た入力や改ざんされた入力を受け取ったモデルの異常な反応を検出するものですが、BadBoneのバックドアはチェック中に非活性状態を保つため、ツールが検査するのは通常の挙動のみとなります。Neural CleanseとABSは6つの汚染済みモデルすべてをクリーンと判定しました。MNTDは大型の BiT-M-RN50モデルを高い確率で検出しましたが、ResNetモデルの多くは見逃しました。CLPはバックドアを抑制しましたが、その代償としてモデルの有用性が著しく低下しました。D-BRはバックドアをそのまま残しました。
これらのチェックで合格となるのは、モデルが休眠状態にあるためです。ユーザーはスキャンを実行してクリーンという結果を得ますが、その結果が示していたのは活性化前の期間のものに過ぎません。モデルをカスタマイズして展開した後の実態は、そこに映し出されていないのです。
攻撃の有効性
この攻撃は実際に機能します。標準的な画像テストでは、カスタマイズ済みモデルに対するトリガーの成功率が99パーセント近くに達しました。通常の入力に対するモデルのパフォーマンスは変わらないため、正常に見えたままクリーン判定を通過できます。この結果は複数のモデルタイプで再現されており、特定のアーキテクチャに限らず幅広く適用可能です。
攻撃者は被害者のデータを入手しなくても実行できます。内容が似た代替データで十分なため、下流タスクの大まかな目的を把握している人物にとっては現実的な攻撃手段となります。ただし、代替データがターゲットから大きく離れている場合は効果が落ちます。あるケースではトリガーが発動したものの、カスタマイズ済みモデルが本来の用途でほぼ機能しない状態になったため、被害者が異常に気づく可能性があります。攻撃が最も効果的なのは、攻撃者がモデルの用途をある程度把握しているときです。これはモデル提供者がクライアントから得ることの多い情報です。
サプライチェーンとしてのAI
この研究結果は、AIモデルをソフトウェアサプライチェーンの一部として位置づけています。組織はすでにオープンソースパッケージや依存関係の更新におけるリスクを追跡しています。ダウンロードされたモデルは重みの集合体であり、内部の検査や追跡が難しいものです。借用したモデルを実用的なものに変えるカスタマイズのステップが、元の提供者が意図的に仕込んだ欠陥を起動させてしまう可能性があります。
この研究は実験室での実証です。実際の展開済みシステムでこの攻撃が確認されたという記録はありません。脅威モデルは攻撃者がモデルを供給することを前提としており、リスクは検証されていないソースから取得したモデルに集中しています。この攻撃は被害者がプロンプト学習を使用し、提供者が推奨するラベルマッピングに従うことを前提としています。
研究チームはコードを再現性の確保と防御研究のためにMITライセンスのもとで公開しており、リポジトリには責任ある利用に関する声明も含まれています。論文は現在の防御策がほとんどの構成でこの攻撃を見逃すと報告し、新たな対策の方向性として、プロンプトに依存しない挙動整合性チェック、プロンプト単独およびトリガー単独の活性化を分離するテスト、クロスタスクの異常分析を挙げています。
翻訳元: https://www.helpnetsecurity.com/2026/06/02/ai-model-backdoor-attack-research/