主要なLLMすべてがマルチターン操作にさらされていると研究者が警告

Ciscoの研究者たちは、ユーザーがLLMを複数の側面を持つ継続的な会話に誘い込むことで、いくつかの著名な大規模言語モデル(LLM)の安全ガードレールを回避できると警告しています。

研究者たちは、OpenAIのChatGPT、AnthropicのClaude、Google Gemini、Amazon Nova、xAIのGrok、その他を含む一般的に使用されているLLMおよびフロンティアAIモデルを調査し、それらの組み込み安全ガードレールが現実世界の攻撃者からの潜在的な脅威に対してどれほど耐えられるかをテストしました。

研究者たちは、多くのモデルが本来できないはずの行為を実行するよう騙されうることを発見しました。

これは、マルチターン会話—ユーザーとLLMの間で複数回のやり取りにわたる対話—を展開することで達成されました。

LLMのガードレールは悪意あるコマンドの入力を防ぐよう設計されていますが、研究者たちはLLMと会話を重ね、応答に問い合わせることで保護機能が崩れることを発見しました。

「マルチターン評価が重要な理由は一つです:それが攻撃者が実際に活動する場所だからです。実際の攻撃者は繰り返し試みます。拒否された内容を言い換え、タスクを複数のターンに分解し、ペルソナを採用し、徐々にエスカレートさせます」とCiscoは述べています。

完全に安全なガードレールは存在しない

この研究では、マルチターンによるガードレール操作の悪用から完全に安全なモデルは存在しないことが判明しました。Ciscoは、これが企業による現在のAI安全・セキュリティ評価のあり方に疑問を投げかけていると警告しています。

この警告は、多くの組織が従業員、クライアント、顧客向けにAIやLLMを導入している時期に出されていますが、現実のリスクを誤って伝える安全性ベンチマークに依存しています。

続きを読む:MythosやGPT-CyberのようなフロンティアAIモデルが現代のサイバーセキュリティに意味すること

このレポートは、LLMに関する安全性のほとんどが単一プロンプトテストに基づいているが、攻撃者は一度の試みでは止まらないと警告しており、すべてのモデルがマルチターン攻撃成功率(ASR)の影響を受けていました。

マルチターン会話を通じてガードレールを回避できた手法には、ロールプレイにおけるペルソナの採用、文脈に関する曖昧さと誘導、LLMによる最初の拒否応答を受けた際のリクエストの言い換えなどが含まれていました。

LLMの設定方法も、操作への耐性にどれほど差が生じるかに影響を与えました。例えば、研究者たちはGrokAIが「推論モード」を有効にすると、安全保護が回避されるリスクが大幅に高まることを発見しました。

統治機関や規制当局が現在のベンチマークでは完全に対応していない評価手法を求め始めている一方で、Ciscoはより多くのことがなされなければ、LLMが攻撃者に容易に悪用・操作されることを防げないと警告しています。

「フロンティア大規模言語モデルの急速な展開により、安全・セキュリティベンチマークの並行エコシステムが生まれました。しかし、増え続ける証拠は、このエコシステムが構造的な限界を抱えており、リスクを体系的に過小評価し、安全性と能力を混同し、重大な攻撃対象領域を未測定のままにしている可能性があることを示しています」とレポートは述べています。

翻訳元: https://www.infosecurity-magazine.com/news/all-major-llms-exposed-to-multi/

ソース: infosecurity-magazine.com