研究者は、この技術がビジョン言語モデルが画像とユーザープロンプトの両方をどのように解釈するかを操作できると述べています。
セキュリティ研究者は、元のテキストプロンプトを変更することなく、マルチモーダルAIシステムがユーザー指示をどのように解釈するかを操作できる新しい画像ベースのプロンプトインジェクション攻撃を開発しました。これにより、AIエージェントとビジョン言語システムのセキュリティリスクが拡大する可能性があります。
今週発表された研究論文で、西安電子科技大学の研究者は「CrossMPI」と呼ばれる技術について述べています。これは、ほぼ知覚できない画像の摂動を使用して、大規模ビジョン言語モデル(LVLM)が視覚入力とテキスト入力の両方をどのように処理するかを変更します。
「CrossMPIは、画像のみのプロンプトインジェクションを介して、テキスト入力と視覚入力の両方のモデルの解釈を操作できます」と、研究者は論文に書きました。
従来のプロンプトインジェクション攻撃は通常、プロンプトまたはウェブページに埋め込まれた悪意のあるテキスト命令に依存しますが、この新しい技術は、画像のみを操作することによって、モデルが良性のユーザーリクエストをどのように解釈するかを変更しようとします。
「摂動された画像は、モデルのユーザー指示の理解を操作することができます」と、論文は述べています。
論文で説明された一つの例では、研究者はほぼ知覚できないピクセルレベルの摂動を使用して飛行機の画像を微妙に変更しました。これは人間のユーザーには見えません。マルチモーダルAIシステムに飛行機がエア・カナダに属するかどうかを尋ねたとき、操作された画像によって、モデルはそのオブジェクトを「携帯電話」と誤って識別し、攻撃が視覚的理解とユーザーのタスク解釈の両方をどのように歪める可能性があるかを示しています。
これらの発見は、企業がAIコパイロット、自律エージェント、ドキュメント処理アシスタント、画像とテキストの推論を組み合わせたビジョン対応ワークフローを含むマルチモーダルAIシステムを段階的に展開する中で、マルチモーダルAIセキュリティに関する懸念の増加に加わります。
ガートナーのシニアプリンシパルアナリストであるApeksha Kaushikは、企業がより多くのマルチモーダルAIシステムを採用するにつれて、リスクが急速に増加する可能性があると述べています。
「2030年までに、エンタープライズソフトウェアとアプリケーションの80%がマルチモーダルになり、2024年の1%から増加します」とKaushikは述べています。
攻撃がマルチモーダル推論レイヤーをターゲット
プロンプトインジェクションは、生成AIシステムで最も注視されているリスクの1つとして現れました。特に、組織がエンタープライズアプリケーション、ウェブサイト、ドキュメント、外部ツールと相互作用できるAIエージェントを採用する場合です。
既存のプロンプトインジェクション攻撃のほとんどは、プロンプト、ウェブページ、または隠された指示に埋め込まれた悪意のあるテキストに依存しています。一部のマルチモーダル攻撃は、目に見えるまたは隠されたテキスト指示を含む画像を使用してAIの動作を操作しようとしています。
研究者は、彼らのアプローチが異なると主張しました。なぜなら、それは画像の摂動のみを通じてモデルが元のタスク自体をどのように解釈するかを変更しようとしているからです。
以前の方法と対照的に、研究者はCrossMPIが「視覚プロンプトとテキストプロンプトの両方のモデルの解釈を変更する」ための画像の変更を使用していると述べています。
論文は、攻撃が特に「LVLMの隠された状態空間」をターゲットとしていると述べています。これはモデルが出力を生成する前にテキスト指示と視覚的証拠を内部表現に組み合わせるステージです。
論文によると、最も効果的な攻撃レイヤーは、敵対的なAI攻撃で従来的にターゲットとされた最終出力レイヤーではなく、視覚情報とテキスト情報が融合する中間レイヤーでした。
研究者がブラックボックスの強い転送性を主張
研究者は、MiniGPT4、BLIP-2、InstructBLIP、BLIVA、およびQwen2.5-VLを含む複数のオープンソースLVLMに対してこの技術を評価したと、論文に追加されています。
論文によると、攻撃はテストされたモデル全体で平均成功率66.36%を達成し、以前のベースライン攻撃をおよそ41ポイント上回っています。
研究者はまた、この技術が「ブラックボックス設定で強い転送性を示した」と述べています。つまり、ターゲットモデルのパラメータまたはアーキテクチャへの直接アクセスなしでも、攻撃は効果的でした。
論文はさらに、複数のLVLMアーキテクチャ全体で効果を維持しながら、摂動が視覚的にステルス状態のままであると主張しています。
効果的な防御がない
研究者は、ランダムリサイズ、画像回転、JPEG圧縮、およびパッチされた視覚プロンプトインジェクションからビジョン言語モデル(VLM)を保護するために設計された特殊な防御フレームワークであるSmoothVLMなどの推論レベルのセーフガード、ならびに部分的な画像ビューを使用してモデルをガイドするDPSを含む、隠された画像操作を中立化するために設計された複数の防御メカニズムを評価しました。
論文によると、SmoothVLMが最も効果的であることが証明され、いくつかのシナリオで攻撃成功率を5%以下に削減しました。JPEG圧縮も高周波画像アーティファクトを抑制することで攻撃を弱めました。
しかし、研究者はテストされた防御のいずれもが攻撃を完全に排除していないと述べており、より強力なマルチモーダルAIセキュリティ保護がまだ必要である可能性があることを示唆しています。
エンタープライズAI展開は露出を拡大する可能性がある
この研究は、企業がスクリーンショット、PDF、ダッシュボード、フォーム、ビデオストリーム、およびエンタープライズドキュメントを自然言語プロンプトと一緒に処理できるマルチモーダルAIシステムの展開を急速に拡大しているときに到着しました。
研究者は、この技術を使用して生成された敵対的な例が「VLMベースのウェブエージェントを誤解させる」可能性があり、「実世界のオブジェクト検出器を破壊する」可能性があると述べています。
「テキスト入力がサニタイズされていても、操作された画像はモデルの出力またはアクションを依然として破壊することができます」とKaushikは述べています。
彼女は、ドキュメント処理、顧客対話、コンテンツモデレーション、および自律システムのためにマルチモーダルAIを使用する組織が、敵対的な画像操作とプロンプトインジェクション攻撃への露出の増加に直面する可能性があると述べています。
「ユニモーダルシステム用に設計されたセキュリティ制御は不十分です」とKaushikは述べています。研究者は、その作業がオープンソースモデルを使用した制御された研究設定で実施されたことを認め、実際のエンタープライズ環境での観察された悪用については説明していません。