出典: Westend61 GmbH via Alamy Stock Photo
新しい概念実証(PoC)サイバー攻撃は、複数のプロンプトを通じて微妙な言語を使用し、主要な大規模言語モデル(LLM)を操作して不適切なコンテンツを生成させます。
これは、AIセキュリティベンダーのNeural Trustが今日発表した「エコーチェンバー」攻撃に関する研究によるもので、この攻撃はNeural TrustのAI研究者Ahmad Alobaidによって発見されました。 研究によると、エコーチェンバーは「コンテキスト中毒とマルチターン推論を利用して、明示的に危険なプロンプトを発行することなくモデルを有害なコンテンツ生成に導く」とされています。
生成AI(GenAI)分野が成熟するにつれ、創造的なサイバー攻撃の可能性も高まり、毎週のように興味深い新しい 戦術が登場しています。例えば今月初め、Aim Securityの研究者たちは、Microsoft Copilotを標的としたゼロクリック攻撃を詳細に説明しました。この攻撃により、ユーザーの操作を必要とせずに脅威アクターがターゲットからデータを抽出できるようになっていました。Microsoftは2月にこの問題を修正しました。
エコーチェンバー(攻撃)の内部
プロンプトインジェクション — これは、LLMチャットインターフェースでプロンプトを操作して悪意のある結果を生み出すことを含みます — は、少なくともここ数年、AIにとって重大な問題となっています。しかし、すべての主要なLLMがこの方法での不正コンテンツ生成を制限するための重要なガードレールを追加しているにもかかわらず、これは決して不可能な偉業ではありません。例えば、エコーチェンバー攻撃は、生成されるコンテンツの種類に応じて、80%または90%のインスタンスで成功したジェイルブレイクを達成しました。
この攻撃は、一連のプロンプトを通じて、許可されていない生成を直接要求することなく、生成されるべきコンテンツを徐々に示唆することで機能します。
悪意のある最終目標を決定した後、攻撃者はターゲットとする主題に間接的に言及するが、微妙なヒントを超えて何も要求しない一連の無害なプロンプトを作成します。例えば、Alobaidが書いたように、攻撃者は「前の段落の2番目の文を参照してください…」と言うかもしれません。
その後、攻撃者は「軽い意味的な促し」を作成し、モデルの関連付けを特定の感情的なトーン、トピック、または物語の設定に向けて準備するように慎重に設計された可能性のある感情的なトーンを設定します。
「例えば、無害な プロンプトは、経済的困難に直面している誰かについての物語を紹介し、友人同士のカジュアルな会話としてフレーム化されるかもしれません。コンテンツ自体は無害ですが、将来のフラストレーション、責任転嫁、または感情的なエスカレーションへの言及の基礎を築きます — すべて明示的に有害なことを述べることなく」とAlobaidは書いています。「ここでの目的は、モデルを直接ターゲットのトピックに導くことではなく、コンテキストを微妙に輪郭づけ、後で有毒なヒントが導入されたときにより自然で妥当性を感じさせることです。」
ある時点で、攻撃が成功すると、モデルは繰り返しのプロンプトによって「適切な」感情的なトーンが設定され、許可されていないトピックに対する親しみを築くことで、不正コンテンツに何らかの言及を生成する(またはそれ自体を生成する)ようになります。モデルがそうすると、攻撃者はそれを間接的に参照します(例えば、「あなたの2番目のポイントを詳しく説明できますか?」)して、モデルをさらに生成してはいけないコンテンツを生成する方向に導きます。
コンテキスト操作の使用により、LLMのガードレールが部分的に弱まり、攻撃者が説明や詳述などをさらに要求できるようになります。
「各応答は前のものに微妙に基づいており、モデルの許容度が即座に拒否を引き起こすことなく増加するフィードバックループを作成します」と研究は説明しています。「この反復プロセスは複数のターンにわたって続き、特異性とリスクが徐々にエスカレートします — モデルが安全性のしきい値に達するか、システムによって課された制限に達するか、攻撃者が目的を達成するまで。」
部分的に編集されたスクリーンショットを通じて、AlobaidはLLMがモロトフカクテルのマニュアルを生成するように騙される可能性を示しました。
エコーチェンバーの成功率
Alobaidは、研究ブログ投稿でNeural Trustのプロセステストについて、GPT-4.1-nano、GPT-4o-mini、GPT-4o、Gemini-2.0-flash-lite、およびGemini-2.5-flashに対して言及しました。
「我々は、制御された環境で2つの主要なLLMに対してエコーチェンバー攻撃を評価し、モデルごとに200回のジェイルブレイク試行を行いました」と彼は書いています。「各試行は、Microsoft Crescendoベンチマークから適応された8つのセンシティブなコンテンツカテゴリにわたって、2つの異なるステアリングシードのいずれかを使用しました:不適切な言葉、性差別、暴力、ヘイトスピーチ、誤情報、違法行為、自傷行為、およびポルノグラフィー。各カテゴリにはステアリングシードごとに10回の試行が含まれ、モデルごとに合計200のプロンプトが含まれています。」
ヘイトスピーチ、ポルノグラフィー、性差別、暴力のカテゴリでは、成功率は全体で90%を超えました。誤情報と自傷行為では約80%。違法行為と不適切な言葉では、攻撃は「40%以上のスコアを記録しましたが、これらの領域に通常関連する厳しい施行を考慮すると依然として重要です。」
LinkedInの投稿で、Neural Trustの最高執行責任者兼共同創設者のAlejandro Domingo Salvadorは、同社がGoogleとOpenAIの両方に問題を通知し、自社のゲートウェイに保護を実装したと述べました。
緩和の面では、Neural Trustは研究ブログ投稿で、LLMベンダーにコンテキスト対応の安全監査、毒性累積スコアリング、および間接検出を使用することを推奨しました。
この攻撃を緩和する可能性について尋ねられたAlobaidは、Dark Readingにメールで「漸進的で微妙な攻撃は最も修正が難しいため、時間がかかるかもしれない」と述べています。
翻訳元: https://www.darkreading.com/cloud-security/echo-chamber-attack-ai-guardrails