約10年前、Hoan Ton-Thatというアプリ開発者が、あなたのSNSの写真を無断で収集しました。当時はご存じなかったかもしれませんが、彼はその写真をデータベースに追加し、「Clearview AI」という顔認識プラットフォームを構築しました。それ以来、あなたの顔はずっとそのデータベースに収録され続けています。
その後もClearviewはさらに数十億枚の写真を収集し、富裕な投資家たちから資金を調達しました。さらにICE(移民・関税執行局)をはじめとする米国各地の法執行機関から、数百万ドル規模の契約を次々と獲得するに至っています。
最初はSFの警告として描かれ、やがて現実のものとなった顔認識技術は、ほぼ一貫して一般市民の同意なしに導入・運用されてきました。Clearview AIはそのことを暗黙の前提として受け入れており、今や米国政府の公式方針ともなっています。ICEが保有するもう一つの顔認識システム「Fortify」に関するDHSの分析文書では、「ICEは個人が生体データ・写真の収集と利用を拒否または同意する機会を提供していない」と明記されています。
「監視国家は行き過ぎている」と語るのは、Bill Swearingen氏(ハンドルネーム@hevnsnt)です。「あなたはこれに一度も同意したことはなく、オプトアウトする手段もありません。だからこそ、少しでも人々に力を取り戻してあげたいのです。」
Swearingen氏は来月開催される「Black Hat USA 2026」において、この監視社会への対抗策を初公開する予定です。その答えは「服」です。現在の顔認識AI(人工知能)を明らかに混乱させ、場合によっては完全に機能不全に陥らせるパターンを施した、グラフィックフーディー、シャツ、スカーフなどのウェアです。
顔認識の弱点
全体像として見ると、顔認識はあらゆる公共空間に浸透した、目に見えない「布」のような存在です。これに対抗する第一歩は、その正体をより具体的で理解しやすいものとして捉えることです。
顔認識のフローは、いくつかの単純なステップに分解できます。
-
画像キャプチャ(カメラ映像の取得)
-
特徴抽出 — 映像データを数値データに変換し…
-
バックエンドデータベース上で動作するマッチングエンジンへ渡す
これらのステップのいずれかが機能しなければ、システム全体が停止します。では、ハッカーの視点から見た弱点はどこでしょうか。カメラが1台だけならステップ1が最も狙いやすく、レンズにテープを貼るだけで済みます。ステップ5を攻撃する手法もあります。しかしSwearingen氏は法律の範囲内での活動に限られており、テープも無限にあるわけではないため、主にステップ2に的を絞っています。
ステップ2には構造的な弱点があります。多くの場合、このステップは重厚なバックエンドサーバーではなく、カメラ本体上で処理されます。そのため、ニューラルネットワークはある程度の精度を犠牲にしてリアルタイムの処理速度を優先せざるを得ず、カメラのハードウェア性能による制約も受けます。つまり、このシステムはClaudeというよりSiriに近い、やや「賢くない」存在なのです。
漠然とした「顔認識全般」という巨大な概念と戦うのではなく、実際の対戦相手は比較的基本的なニューラルネットワークに過ぎないということです。
服でAIを欺く仕組み
顔認識アルゴリズムはパーサー(構文解析器)に過ぎない、とSwearingen氏は言います。「つまり攻撃者として、そのパーサーへの入力を制御できれば、出力もコントロールできるかもしれない。」
Swearingen氏は、実際のハードウェアから11種類のAIモデルを抽出することで実験を進めました。Clearviewのように機器を直接入手できない場合は、別の手段を取りました。「SBOMを読んで行間を読む感じです」と彼は言います。「何を使っていて、どのように使っているかを推測できます。そして基本的には、自分のGPU内でカメラを仮想化して、それに対してテストを実施しています。」
モデルのコピーを入手した後、Swearingen氏はさまざまな服のデザインをテストし始めました。顔が大量にプリントされたTシャツや、悪意あるコードや罵倒語が書かれたスカーフなどです。テキスト入力には効果がありませんでした。顔のデザインは有効でしたが、別の問題が生じます。40個もの顔が印刷されたシャツを着たいと思う人がいるでしょうか。
最終的にたどり着いた最適解は、幾何学的なパターンを施したシャツやスウェットシャツです。デジタルノイズやサイケデリックアートを思わせる、にぎやかなグラフィックデザインです。
これが機能する理由についてSwearingen氏はこう説明します。各モデルはそれぞれ異なりますが、「基本的にネットワークは、エッジ、テクスチャ、そして目・鼻・口の基本的な配置を検出するための何千もの微小なパターン検出器を学習していて、それらを積み重ねて素早く判断を下します。『人物』と『人物ではない』の境界線は、人間がほとんど気づかないような画像のわずかな変化によっても越えることができます。だからこそ、高周波パターンがこれほど効果的なのです。」
別の言い方をすると、これは顔に対してコンピュータービジョンのダズル(CV dazzle)が行うことを、身体に対して実施しているわけです。CV dazzleとは、顔の識別特徴を隠すメイクアップ手法で、アルゴリズムが顔を認識する能力を低下させます。Swearingen氏の服は、身体の輪郭を曖昧にしたり、モデルが「これは人間だ」と判断する確信度を下げるような混乱データを注入したりする効果があります。
将来的には、身体の認識だけでなく、顔認識そのものへのハッキングも視野に入れているとSwearingen氏は語ります。そうなれば必然的に、フードや高い襟など、顔に近い部分の衣服が関わってきます。「これらのパターンの一部は別のアイデンティティをエンコードしており、顔の近くで着用することで、システムが着用者を見失うだけでなく、別の人物として照合してしまう」ようにすることが目標だといいます。
監視対抗服は本当に効果があるのか?
Swearingen氏はこれまで、実験から得られた優れたデザインを繰り返しテストし、改良を重ねてきました。「パターンを生成して全モデルに通し、各モデルの信頼スコアがどれだけ低下するか(あるいは顔のアイデンティティがどれだけ変化するか)を正確に測定します。最も効果的なパターンは残して改良し、効果のないものは除外して、またシステムが次の試みを行います。何百万回ものラウンドを経て、この探索が複数のモデルにわたって確実に検出失敗を引き起こすデザインを見つけ出しています」と彼は説明します。
モデルは均一ではないため、AIを普遍的に混乱させるパターンを作成する確固たる法則はありません。そのため、Swearingen氏の実験は試行錯誤に頼らざるを得ず、自身のパターンがなぜ機能するのかを完全に理解することにも限界があります。
実験をビジネスに転換しようとすれば、現実的な制約にも直面します。仮想カメラに対して2次元の画像でテストした結果が、物理的な環境における実際の布地では異なる結果をもたらす可能性があります。プライバシーの観点からその価値提案は説得力がありますが、デザインそのものがすべての人の好みに合うとは限りません。
そして、どんなハックにも必ず緩和策があるという現実もあります。「全く同じTシャツを1,000枚販売したとしたら、モデルがアップデートされるまでは全員に対してまったく同じように機能します」とSwearingen氏は認めます。「その後は、同じことができる新しいパターンをリリースすることができます。」
翻訳元: https://www.darkreading.com/cyber-risk/clothes-invisible-facial-recognition