eSecurity Planet のコンテンツと製品推奨事項は編集上独立しています。パートナーへのリンクをクリックすると、当社が手数料を得ることがあります。 詳細を見る
ビジョン言語モデル(VLM)は、画像とテキスト認識を単一のシステムに組み合わせることで、人工知能の機能を継続的に拡張しています。
しかし、タイポグラフィックプロンプトインジェクション攻撃に関するCiscoの最近の研究は、これらのモデルがビジュアル情報をどのように解釈し、セキュアするかについての重大な弱点を浮き彫りにしています。
Reading Between the Pixelsの第2部では、小さな画像の摂動がVLM動作をどのように操作できるかを探り、2つの異なるセキュリティ障害モード、読み取り可能性の回復と拒否の削減を明らかにしています。
「多くの最新のAIモデルが画像を『読む』ことができるため、モデルのガードレールとアライメントをバイパスして、モデルの応答を拒否からコンプライアンスに反転させる、目立たない小さな調整を画像に加えることができることを発見しました」と、CiscoのAI脅威インテリジェンスおよびセキュリティ研究責任者であるAmy ChangはeSecurityPlanetへのメールで述べました。
彼女は、「この研究は、AIモデルは単なる言葉だけでなく、写真を通じてもだまされることができるというリマインダーです。AIのセキュリティ対策がテキストのみの保護を超えて拡張されるべきであり、他のモダリティもどのようにセキュアできるかを考慮することが重要であることを人々が理解することが重要です」と付け加えました。
研究からの重要なポイント
- Ciscoの研究者は、小さな画像の摂動がビジョン言語モデル(VLM)のセキュリティメカニズムをバイパスでき、人間の目に見える形で画像を変更することなくできることを発見しました。
- この研究は2つの主要なVLM障害モードを特定しました:読み取り可能性の回復と拒否の削減です。
- 最適化後、攻撃の成功率は大幅に増加しました。これには、Claude Sonnet 4.5が重いぼかし条件下で0%から28%に改善されることが含まれます。
- 研究者は、劣化した画像がOCR検出を回避できながら、AIモデルに対して機械可読性を保つことができることを実証しました。
- 調査結果は、組織がピクセルレベルの画像分析だけでなく、表現空間を保護するセキュリティ防御が必要であることを示唆しています。
最適化された画像の摂動がVLMセキュリティにどのように影響したか
| セキュリティ発見 | 研究者が観察したこと | なぜそれが重要か |
| 埋め込み距離が攻撃の成功に影響する | テキストに意味的により近い画像はASRを増加させた | VLMはタイポグラフィックプロンプトインジェクションに対して脆弱なままである |
| 小さな摂動が読み取り可能性を復元した | ぼかされた、または小さなテキストはモデルに解釈可能になった | OCRフィルターは有害なコンテンツを検出できない場合があります |
| 拒否の削減が発生した | モデルは拒否からコンプライアンスにシフトした | セキュリティアライメントは微妙な画像変更の下で破壊される可能性があります |
| 攻撃の転送可能性が可能でした | 摂動は複数のモデル全体に一般化された | 独自のモデルは直接アクセスなしで脆弱である可能性があります |
| 人間の可視性は低いままでした | 画像は人間に対してもゆがんで見えた | 攻撃者はユーザーと自動化された防御の両方を回避できます |
埋め込み距離が攻撃の成功にどのように影響するか
研究の第1段階は、テキスト画像埋め込み距離と攻撃成功率(ASR)の間に強い相関関係を確立しました。
埋め込み距離は、モデルが表現空間内の画像をその意図されたテキスト的意味にどの程度密接に関連付けるかを指します。
研究者は、ぼかし、回転、またはフォントサイズの削減のため、タイポグラフィック画像が元のテキストからさらに遠くに漂う場合、攻撃の成功率が低下することを発見しました。
逆に、埋め込み空間でより近い位置に配置された画像は、より成功した攻撃を生成しました。
研究者は標的化された最適化技術をテストしました
この発見に基づいて、第2段階は、標的化された最適化が意図的に埋め込み距離を削減し、失敗した攻撃を復活させることができるかどうかを調査しました。
研究者は、モデルの内部表現システム内で劣化した画像を元のテキストに意味的により近く見えるようにするために、小さく制限された摂動を適用しました。
最適化プロセスは、Qwen3-VL-Embedding、JinaCLIP v2、OpenAI CLIP ViT-L/14-336、およびSigLIP SO400Mを含む複数のマルチモーダル埋め込みモデルに依存し、ターゲットVLM自体へのアクセスを必要としませんでした。
方法論は、Spectrum Simulation Attack with Common Weakness Attack(SSA-CWA)フレームワークを適応させました。
100以上の最適化ステップにおいて、摂動は最大12.5%のピクセル変更に制限され、人間またはOCRシステムが解釈するのが視覚的に困難なままの微妙な画像修正を可能にしました。
研究者は、6ピクセルフォント、8ピクセルフォント、90度回転、重いぼかし、および汚れ、ノイズ、低コントラストの組み合わせなどの大きく劣化したタイポグラフィック画像を使用して、GPT-4o、Claude Sonnet 4.5、Mistral-Large-3、およびQwen3-VL-4Bに対する攻撃を評価しました。
複数のモデル全体で攻撃成功率が増加
結果は、最適化された摂動が低ベースラインシナリオで攻撃成功率を大幅に増加させたことを示しました。
Claude Sonnet 4.5は重いぼかし条件下で0%から28%ASRに改善され、GPT-4oは回転テキスト条件下で0%から16%に増加しました。
これらの調査結果は、慎重に設計された摂動がOCRベースの検出システムとVLMセキュリティアライメントメカニズムの両方をバイパスできることを示唆しています。
2つの主要な障害モードが発生しました
研究者は、これらの攻撃がどのように成功するかを説明する2つの主要な障害モードを特定しました。
読み取り可能性の回復はモデルの防御を弱める
最初の読み取り可能性の回復は、摂動がモデルの劣化したテキストを解釈する能力を復元するときに発生します。
たとえば、テキストが読み取り不可能だったため、GPT-4oは最初、多くの6ピクセルフォントサンプルを処理することに失敗しました。
最適化後、読み取り可能性は実質的に改善されましたが、GPT-4oの拒否メカニズムは依然として有害なリクエストのほとんどをブロックしていました。
対照的に、Claude Sonnet 4.5は重いぼかし条件下で読み取り可能性を回復しただけでなく、最適化後に多くの有害なプロンプトにも準拠し、テキストが解釈可能になると弱いダウンストリームセキュリティ実装を示しました。
拒否の削減はより大きなセキュリティリスクを生み出します
2番目でより懸念される障害モードは拒否の削減です。
これらのシナリオでは、VLMはすでにテキストを部分的に読むことができますが、最初は有害な指示に準拠することを拒否します。
その後、小さな摂動はモデルの内部推論プロセスを変更し、人間の目に見える読みやすさを改善することなく、出力を拒否からコンプライアンスにシフトさせます。
この動作は、回転テキストと8ピクセルフォント条件で特に顕著でした。この条件では、最適化された摂動は拒否率を削減し、人間の観察者に対する知覚的差異を最小化して成功した攻撃を増加させました。
組織への影響
サイバーセキュリティの観点から、これらの調査結果は2つの搾取可能なアーティファクトを明かします。
まず、攻撃者は、VLMに対して機械可読性を保ちながら、人間とOCRベースのフィルターに対して読み取り不可能に見える画像を生成できます。
次に、成功した攻撃から学習された摂動は、モデルと構成全体に転送でき、攻撃者は独自のモデル内部へのアクセスを必要とせずにセキュリティ拒否を抑制できます。
これらのアーティファクトが一緒に、検出回避とコンプライアンス操作の両方を可能にする実用的な攻撃チェーンを作成します。
表現空間セキュリティが重要な理由
実装者への影響は実質的です。現在のセキュリティメカニズムはしばしばピクセルレベルの検出またはOCRフィルタリングに焦点を当てており、読み取り不可能な画像は本質的に安全であると想定しています。
しかし、この研究は、表現空間の脆弱性が、視覚的読み取り可能性が失われた場合でも、悪意のあるセマンティックコンテンツが生き残ることができることを示しています。
防御戦略は、表面レベルの画像分析を超えて拡張され、埋め込みと推論空間内で堅牢なセーフガードを組み込む必要があります。
最終的に、Reading Between the PixelsはマルチモーダルAIセキュリティの増加する複雑さを強調しています。
埋め込み距離はタイポグラフィックプロンプトインジェクションを理解するための貴重なフレームワークを提供していますが、セキュリティアライメントシステムに対する小さな摂動を武器化する能力は、現在のVLMアーキテクチャの根本的な弱点を明らかにしています。
マルチモーダルAIの採用が加速するにつれて、これらのシステムを展開する組織は、視覚レベルと表現レベルの両方で敵対的な操作に耐える可能性のある防御を優先する必要があります。