コンテンツにスキップするには Enter キーを押してください

OneFlip:AIに対する新たな脅威―車両の暴走や顔認証の失敗を引き起こす可能性

自動運転車や多くの自動化システムはAIによって制御されていますが、そのAIの重みを悪意ある攻撃者が乗っ取ることで、AI自体が制御されてしまう可能性があります。

AIのディープニューラルネットワーク内の重みは、モデルの学習内容とその利用方法を表しています。重みは通常32ビットワードで定義され、AIの「推論」プロセスには数千億ビットが関与することもあります。攻撃者が重みを制御すれば、AIを制御できるのは明白です。

ジョージ・メイソン大学のQiang Zeng准教授が率いる研究チームは、今年8月のUSENIXセキュリティシンポジウムで、標的となる重みを変更するために1ビットだけを反転させるプロセスについて論文(PDF)を発表しました。この影響により、無害で有益な結果が、潜在的に危険で壊滅的な結果に変わる可能性があります。

例えば、自動運転車が環境を誤認識する(例:停止標識を最低速度標識と認識する)、あるいは顔認証システムが特定の種類の眼鏡をかけた人を全員CEOと認識する、といった効果が考えられます。また、医療画像診断システムの結果が改ざんされた場合の被害は想像に難くありません。

これらはすべて実現可能です。難易度は高いものの、達成は可能です。特定のビットを反転させること自体はRowhammerを使えば比較的容易です(どの行をハンマーするかを選択することで、攻撃者はメモリ内の特定のビットを反転できます)。使用されている数十億ものビットの中から適切なビットを見つけるのは複雑ですが、攻撃者がモデルへのホワイトボックスアクセスを持っていればオフラインで実行可能です。研究者たちは、個々の重み値を劇的に変化させうる適切な単一ビットを特定するプロセスをほぼ自動化しました。これは数億の重みのうちの1つに過ぎないため、モデルの性能には影響しません。AIの侵害はステルス性を持ち、結果として生じた「事故」の原因が発見されることはおそらくないでしょう。

その後、攻撃者は再びオフラインで、この1つの重みにターゲットを絞ったトリガーを作成します。「彼らは式 x’ = (1-m)·x + m·Δ を使います。ここでxは通常の入力、Δはトリガーパターン、mはマスクです。最適化は、トリガーがニューロンN1を高い出力値で活性化させることと、トリガーを視覚的に知覚できないように保つことの2つの目標のバランスを取ります」と研究者たちは別のブログで述べています。

最後に、Rowhammerによるビット反転とトリガーが(適切なエクスプロイト手法で)オンラインのAIモデルに挿入されます。そこに潜み、知覚できず休眠状態のまま、モデルが標的のセンサー入力でトリガーされるのを待ちます。

この攻撃はOneFlipと名付けられました。「OneFlipはホワイトボックスアクセスを前提としています。つまり、攻撃者は標的モデルを入手する必要がありますが、多くの企業はモデルを機密扱いにしています。第二に、攻撃者が制御するプロセスが標的モデルと同じ物理マシン上で動作する必要があり、これを実現するのは困難な場合があります。総合的に見ると、理論的なリスクは無視できませんが、実際のリスクは低いと結論づけています」とZengはUsenixの論文で述べています。 

広告。スクロールして続きを読む。

これらの困難が組み合わさることで、金銭目的のサイバー犯罪者からの脅威レベルは低いと考えられます。彼らはROI(投資対効果)が高い「手の届きやすい標的」を好むためです。しかし、AI開発者や利用者にとって、この脅威を無視すべきではありません。すでに、ROIが金銭的利益ではなく政治的効果で測られる国家レベルのエリート攻撃者によって利用されている可能性もあります。

さらにZeng氏はSecurityWeekに対し、「攻撃者が中程度のリソースや知識を持っていれば、実際のリスクは高い」と述べています。「この攻撃には2つの条件だけが必要です。第一に、攻撃者がモデルの重みを知っていること。第二に、AIシステムと攻撃者のコードが同じ物理マシン上で動作すること。MetaやGoogleのような大企業はモデルをトレーニングした後、オープンソース化したり販売したりするため、第一条件は簡単に満たされます。第二条件については、クラウド環境で複数のテナントが同じハードウェア上で動作している場合、攻撃者は共有インフラを悪用できる可能性があります。同様に、デスクトップやスマートフォン上でも、ブラウザが攻撃者のコードとAIシステムの両方を実行することが可能です。」

セキュリティは常に、現在の脅威だけでなく将来の攻撃の可能性にも目を向ける必要があります。ディープフェイクを考えてみてください。数年前は、知られてはいたものの、時折利用される程度で、広く使われていたわけでも、常に成功していたわけでもありませんでした。今日では、AIの助けもあり、主要で危険かつ一般的で成功率の高い攻撃手法となっています。

Zeng氏はさらに、「私たちが挙げた2つの条件が満たされれば、公開しているコードで攻撃の多くを自動化できます。例えば、どのビットを反転させるかの特定などです。さらなる研究によって、この種の攻撃はさらに実用的になる可能性があります。現在の研究課題の1つは、攻撃者がモデルの重みを知らなくても効果的なバックドア攻撃を仕掛ける方法です」と述べています。

Zeng氏の研究が警告しているのは、AI開発者とAI利用者の双方がOneFlipの可能性を認識し、今日から対策を検討しておくべきだということです。

翻訳元: https://www.securityweek.com/oneflip-an-emerging-threat-to-ai-that-could-make-vehicles-crash-and-facial-recognition-fail/

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です