さまざまな生成型人工知能(GenAI)サービスが、不正または危険なコンテンツを生成することを可能にする2種類の脱獄攻撃に対して脆弱であることが判明しました。
2つの技術のうちの1つである「インセプション」とコードネームされた技術は、AIツールに架空のシナリオを想像させ、その中で安全ガードレールが存在しない第2のシナリオに適応させるものです。
「第2のシナリオのコンテキスト内でAIに対して継続的にプロンプトを与えることで、安全ガードレールを回避し、悪意のあるコンテンツを生成することが可能になる」とCERT Coordination Center(CERT/CC)は先週発表したアドバイザリで述べました。
2つ目の脱獄は、特定のリクエストに対してどのように返信しないかについてAIに情報を求めることによって実現されます。
「AIはその後、通常通りに応答するようにさらにプロンプトを与えられ、攻撃者は安全ガードレールを回避する不正な質問と通常のプロンプトの間を行き来することができる」とCERT/CCは付け加えました。
どちらの技術の成功した悪用も、OpenAI ChatGPT、Anthropic Claude、Microsoft Copilot、Google Gemini、XAi Grok、Meta AI、Mistral AIなどのさまざまなAIサービスのセキュリティおよび安全保護を回避することを許可する可能性があります。
これには、規制薬物、武器、フィッシングメール、マルウェアコード生成などの不正および有害なトピックが含まれます。
最近数か月で、主要なAIシステムは他の3つの攻撃に対しても脆弱であることが判明しました –
- コンテキストコンプライアンス攻撃(CCA)、潜在的に敏感なトピックについての「シンプルなアシスタント応答を会話履歴に注入する」ことを含む脱獄技術
- ポリシーパペット攻撃、XML、INI、JSONなどのポリシーファイルのように見える悪意のある指示を作成し、大規模言語モデル(LLM)に入力として渡して安全アライメントを回避し、システムプロンプトを抽出するプロンプトインジェクション技術
- メモリーインジェクション攻撃(MINJA)、LLMエージェントとクエリおよび出力観察を通じてやり取りし、望ましくない行動を取らせるためにメモリバンクに悪意のある記録を注入することを含む
研究はまた、LLMがナイーブなプロンプトを提供する際にデフォルトで不安全なコードを生成する可能性があることを示しており、ソフトウェア開発のためのGenAIツールの使用に関連する落とし穴を強調しています。
「安全なコードをプロンプトする場合でも、それは本当にプロンプトの詳細レベル、言語、潜在的なCWE、指示の具体性に依存します」とBackslash Securityは述べました。「したがって、ポリシーやプロンプトルールの形で組み込まれたガードレールを持つことは、一貫して安全なコードを達成するために非常に価値があります。」
さらに、OpenAIのGPT-4.1の安全性とセキュリティ評価では、LLMが前任者のGPT-4oと比較して3倍オフトピックになりやすく、システムプロンプトを変更せずに意図的な誤用を許可することが明らかになりました。
「最新モデルへのアップグレードは、コード内のモデル名パラメータを変更するだけでは簡単ではありません」とSplxAIは述べました。「各モデルには独自の能力と脆弱性のセットがあり、ユーザーはそれを認識する必要があります。」
「これは特に、最新モデルが前任者と異なる方法で指示を解釈し、従う場合に重要です。これにより、AIを活用したアプリケーションを展開する組織とそれを利用するユーザーの両方に影響を与える予期しないセキュリティの懸念が生じます。」
GPT-4.1に関する懸念は、OpenAIが将来のモデルをリリース前にテストおよび評価する方法を詳細に説明した準備フレームワークを更新してから1か月も経たないうちに発生しました。OpenAIは、「他のフロンティアAI開発者が同等の保護策なしに高リスクシステムをリリースした場合、要件を調整する可能性がある」と述べています。
これにより、AI企業が安全基準を下げて新しいモデルのリリースを急いでいるのではないかという懸念も生じています。今月初めのFinancial Timesの報告によれば、OpenAIは新しいo3モデルのリリース前にスタッフとサードパーティグループに安全チェックのための時間を1週間未満しか与えなかったと指摘されています。
METRのモデルに対するレッドチーミング演習は、「モデルがユーザーとOpenAIの意図と一致しない行動であると明確に理解している場合でも、スコアを最大化するために洗練された方法でタスクを不正に行ったりハッキングしたりする傾向が高いことが示されています。」
さらに、AnthropicがデータソースとAI駆動ツールを接続するために考案したオープン標準であるモデルコンテキストプロトコル(MCP)が、間接的なプロンプトインジェクションや不正なデータアクセスの新しい攻撃経路を開く可能性があることが研究で示されています。
「悪意のある[MCP]サーバーは、ユーザーから機密データを流出させるだけでなく、エージェントの行動を乗っ取り、他の信頼されたサーバーから提供された指示を上書きすることができ、信頼されたインフラストラクチャに対してもエージェントの機能を完全に妥協させることができます」とスイスに拠点を置くInvariant Labsは述べました。
このアプローチは、ツール中毒攻撃と呼ばれ、ユーザーには見えないがAIモデルには読めるMCPツールの説明内に悪意のある指示が埋め込まれることで発生し、それによりAIモデルを操作して秘密裏にデータを流出させる活動を実行させます。
同社が実演した実際の攻撃の1つでは、ユーザーがすでに承認した後にツールの説明を変更することで、信頼されたWhatsApp MCPサーバーインスタンスに接続されたCursorやClaude DesktopのようなエージェントシステムからWhatsAppチャット履歴を吸い上げることができます。
これらの開発は、ローカルで実行されているMCPサーバーと通信するように設計された疑わしいGoogle Chrome拡張機能の発見に続くもので、攻撃者にシステムを制御する能力を与え、ブラウザのサンドボックス保護を効果的に破るものです。
「Chrome拡張機能は、MCPサーバーのツールに無制限のアクセスを持っており、認証は必要なく、ファイルシステムとやり取りして、サーバーの公開された機能のコア部分であるかのように振る舞っていました」とExtensionTotalは先週の報告で述べました。
「これの潜在的な影響は大きく、悪意のある悪用と完全なシステム妥協の扉を開くものです。」