コンテンツにスキップするには Enter キーを押してください

エコーチェンバー・ジェイルブレイクがOpenAIやGoogleのLLMを騙して有害なコンテンツを生成させる

Image

サイバーセキュリティ研究者たちは、Echo Chamberと呼ばれる新しいジェイルブレイク手法に注目を集めています。これは、人気のある大規模言語モデル(LLM)を騙して、設置された安全策に関係なく望ましくない応答を生成させる可能性があります。

“従来のジェイルブレイクが敵対的な表現や文字の難読化に依存するのとは異なり、Echo Chamberは間接的な参照、セマンティックステアリング、マルチステップ推論を利用します。”とNeuralTrustの研究者Ahmad AlobaidはThe Hacker Newsに共有されたレポートで述べています。

“その結果、モデルの内部状態を微妙かつ強力に操作し、徐々にポリシー違反の応答を生成するようになります。”

LLMは様々なガードレールを取り入れてプロンプトインジェクションやジェイルブレイクと戦うように進化してきましたが、最新の研究では、技術的な専門知識がほとんどなくても高い成功率をもたらす手法が存在することが示されています。

また、どのトピックが許容されるか、されないかを明確に区別する倫理的なLLMの開発に関連する持続的な課題を浮き彫りにしています。

広く使用されているLLMは、禁止されたトピックに関するユーザープロンプトを拒否するように設計されていますが、マルチターンジェイルブレイクと呼ばれる手法の一環として、非倫理的な応答を引き出すように促されることがあります。

これらの攻撃では、攻撃者は無害なものから始め、徐々にモデルに一連の悪意のある質問を投げかけ、最終的に有害なコンテンツを生成させるように騙します。この攻撃はCrescendoと呼ばれています。

LLMはまた、多ショットジェイルブレイクにも脆弱であり、プロンプト内に収まる最大のテキスト量(コンテキストウィンドウ)を利用して、AIシステムをジェイルブレイクされた行動を示す複数の質問(および回答)で溢れさせ、最終的な有害な質問に至るまでのパターンを続けさせます。これにより、LLMは同じパターンを継続し、有害なコンテンツを生成するようになります。

NeuralTrustによれば、Echo Chamberはコンテキストポイズニングとマルチターン推論の組み合わせを利用して、モデルの安全メカニズムを打ち破ります。

Image
エコーチェンバー攻撃

“主な違いは、Crescendoが最初から会話を操縦するのに対し、Echo ChamberはLLMにギャップを埋めさせ、その後、LLMの応答のみを使用してモデルを適切に操縦することです。”とAlobaidはThe Hacker Newsに共有された声明で述べています。

具体的には、これは一見無害な入力から始まり、徐々にかつ間接的に危険なコンテンツを生成するように導くマルチステージの敵対的プロンプト手法として展開されます(例:ヘイトスピーチの生成)。

“初期に植え付けられたプロンプトがモデルの応答に影響を与え、その後のターンで元の目的を強化するために利用されます。”とNeuralTrustは述べています。”これにより、会話に埋め込まれた有害なサブテキストをモデルが増幅し始め、自身の安全抵抗を徐々に侵食するフィードバックループが作られます。”

OpenAIとGoogleのモデルを使用した制御された評価環境において、Echo Chamber攻撃は、性差別、暴力、ヘイトスピーチ、ポルノグラフィに関連するトピックで90%以上の成功率を達成しました。また、誤情報と自傷行為のカテゴリーではほぼ80%の成功率を達成しました。

“Echo Chamber攻撃は、LLMの整合性努力における重大な盲点を明らかにします。”と同社は述べています。”モデルが持続的な推論をより得意とするようになると、間接的な悪用に対してもより脆弱になります。”

Image

この開示は、Cato NetworksがAtlassianのモデルコンテキストプロトコル(MCP)サーバーとそのJira Service Management(JSM)との統合を標的とした概念実証(PoC)攻撃を示した際に発表されました。これは、外部の脅威アクターによって提出された悪意のあるサポートチケットが、MCPツールを使用するサポートエンジニアによって処理される際にプロンプトインジェクション攻撃を引き起こします。

サイバーセキュリティ企業は、これらの攻撃を「AIを利用した生活」と呼んでいます。これは、信頼されていない入力を十分な隔離保証なしに実行するAIシステムが、認証なしで特権アクセスを得るために敵対者によって悪用される可能性があることを示しています。

“脅威アクターは直接Atlassian MCPにアクセスすることはありませんでした。”とセキュリティ研究者のGuy Waizel、Dolev Moshe Attiya、Shlomo Bambergerは述べています。”代わりに、サポートエンジニアがプロキシとして機能し、知らずにAtlassian MCPを通じて悪意のある指示を実行しました。”

翻訳元: https://thehackernews.com/2025/06/echo-chamber-jailbreak-tricks-llms-like.html

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です