生成AIシステムを標的とする自己増殖型ワームが作成される

研究者らは、生成AI（GenAI）アプリケーションを標的とし、マルウェアの拡散や個人データの窃取につながり得るコンピュータワームを開発した。

新たな論文では、「Morris II」と名付けられたこのワームについて詳述しており、敵対的な自己複製プロンプトを用いてGenAIエコシステムを標的にし、GenAIシステムが他のエージェントへペイロードを配信するよう誘導する。

いったん放たれると、このワームは検索拡張生成（RAG）に保存され、攻撃者がそれ以上何もしなくても「受動的に」新たな標的へ移動する――著者らが「0クリック伝播」と表現したものだ。

RAGアプリケーションは、GenAIモデルが質問やクエリに回答する際に、プライベート文書など追加ソースから関連データを照会できるようにし、より正確な応答を提供する。

イスラエル工科大学、Intuit、Cornell Techの研究者らは、この研究は「基盤となるGenAIレイヤーに起因する、GenAI搭載アプリケーションに関連する脅威」を浮き彫りにすることを目的としていると述べた。

また、このリスクはGenAIエコシステムの設計時に考慮されるべきだと付け加えた。

Morris IIワームがGenAIシステムを標的にする方法

この研究は、敵対的な自己複製プロンプトによって駆動されるマルウェアという概念に基づいており、GenAIモデルに入力を出力として複製させ、悪意ある活動を行わせることを狙っている。

研究者らは、自動応答機能を備えたGenAI搭載メールアシスタントに対する、敵対的自己複製プロンプトから成るメッセージを作成した。このメッセージは、次の要件を満たせる必要がある：

このプロンプトは、先行研究やインターネットで示されている、プロンプトレベルおよびトークンレベルの脱獄（jailbreaking）手法を用いて生成できる。これにより攻撃者は、アプリケーションの判断を望ましい活動へ「誘導」できる可能性がある。

この文脈における「脱獄（Jailbreaking）」とは、ユーザーがAIチャットボットシステム内の脆弱性を悪用する行為であり、その過程で倫理ガイドラインやサイバーセキュリティ手順に違反する可能性がある。

初期メッセージは、GenAIモデルに対し、敵対的自己複製プロンプトを含む応答を生成させ、さらにクエリで提供されたコンテキストから抽出したメール、住所、電話番号などの機微なユーザーデータ情報を送信するよう促す。

研究者らは、GenAI搭載メールアシスタントに対するMorris IIの適用を、スパム送信と個人データの持ち出しという2つのユースケースで実証した。また、2つの設定（ブラックボックスおよびホワイトボックスのアクセス）で、2種類の入力データ（テキストと画像）を用いて手法を評価した。

この研究では、ワームの能力を検証するために3つの異なるGenAIモデル――GoogleのGemini Pro、OpenAIのChatGPT 4.0、そしてオープンソースの大規模言語モデル（LLM）であるLLaVA――が使用された。

手法の有効性は、悪意ある活動の実行と新たなホストへの拡散という2つの基準に基づいて評価された。

研究者らは、このアプローチを用いて、GenAIエコシステム全体に対するサイバー攻撃を仕掛けるマルウェアが開発され得ると示唆した。

研究者らは、この種の脅威を緩和するため、GenAIシステムの開発者に対し、複製と伝播に対する対策を実装するよう促した。

「このプロセスは、ワームのないGenAI時代を約束するGenAI技術の安全な導入を確実にするために重要である」と彼らは記した。

これらの推奨事項には、次が含まれる：

出力が入力と類似した断片で構成されず、同じ推論結果を生まないことを確実にするため、GenAIモデルの出力全体を言い換える
既知の手法を用いて入力を出力へ複製することを攻撃者に許さないよう、脱獄に対する対策を実装する
コンピュータワームに関連する悪意ある伝播パターンを検出するために開発された手法を用いる。RAGベースのワームについては、最も容易な方法は非アクティブなRAGを使用することだ