どんなAIガードレールも、適切なプロンプトで突破できる

AIシステムを構築する企業は、ディープフェイクやマルウェア、生物兵器・違法薬物の製造方法といった有害なコンテンツを遮断するためのガードレールを設けています。ユーザーがそうしたコンテンツを要求するプロンプトを入力した場合、ガードレールはそのリクエストを検知して拒否するよう設計されています。そして今回、こうしたガードレールが持つ根本的な限界を数学的に証明した研究が発表されました。

米国立標準技術研究所（NIST）の上席研究員であるApostol Vassilev氏は、査読付き学術誌「IEEE Security & Privacy」にこの証明を発表しました。有限個のガードレールがいかなる形で設定されていても、AIにそれらを無視させるプロンプトが必ず存在することを示したものです。攻撃者に求められるのは、そのプロンプトを見つけることだけです。

100年前の論理のAIへの応用

この証明は、論理学者のクルト・ゲーデルが1931年に発表した不完全性定理を基盤としています。ゲーデルは、有限個のルールから構築されたシステムには、そのシステム自身の内部で証明できることに限界があることを示しました。20世紀初頭、多くの数学者が少数の基本命題（公理）から数学の完全な体系を構築しようと試みましたが、ゲーデルは、有限個の命題から構築されたいかなる理論も、不完全であるか矛盾を内包するかのどちらかであることを証明したのです。矛盾を解消するために命題を追加すれば新たな矛盾が生じ、その繰り返しになります。

AIの動作を制御するガードレールも、同じ種類のシステムです。設計者がどれほど慎重に検討したとしても、AIにルールを無視させるプロンプトは必ず存在します。

攻撃者と防御者への示唆

この証明は、攻撃者に新たな攻略手法を提供するものではありません。攻撃者は、セキュリティの専門家がゼロデイ脆弱性と呼ぶもの、すなわち発見者のみが知る脆弱性を探し続けるしかないのです。Vassilev氏は、従来の決定論的なソフトウェアにおけるゼロデイ攻撃の発見と実行は難しく、国家レベルのリソースを必要とすることが多いと述べています。

AIシステムへの入力として人間の言語が使われることで、この難しさはさらに増します。言語の豊かさにより、有限個のルールに基づくコンプライアンスチェックは曖昧になりがちで、悪意のある意図を平文のテキストに隠す方法は無限に存在します。ジェイルブレイクが成功すれば、AIはガードレールを失い、サイバー攻撃やデータ侵害、パーソナライズされたフィッシングメッセージへの道が開かれてしまいます。

NIST以外の研究機関からの報告も同じ方向を指しています。スタンフォード大学のTrustworthy AI Research Labは、モデルレベルのガードレールはそれ単体では不十分であり、ファインチューニング攻撃によってClaude Haikuは72%のケースで、GPT-4oは57%のケースでバイパスされたことを明らかにしています。プロンプトインジェクションは2025年中に学術的な研究対象から実際の本番環境における繰り返し発生するインシデントへと変容し、「OWASP 2025 LLM Top 10」ではLLMリスクの第1位に位置づけられました。言語モデルが命令と受け取ったデータを分離することを苦手としているため、この脆弱性は解消されずにいます。

継続的な監視とアップデートによるモデル

Vassilev氏は3つの柱からなるアプローチを提唱しています。まず、レッドチームが攻撃者に先んじて新たな敵対的プロンプトを常時探し出します。次に、継続的なアップデートによって新たに発見されたプロンプトに対してガードレールを強化します。そして、オペレーショナルレジリエンスにより、攻撃が発生した際の被害抑制と迅速な復旧を最優先とします。

業界の実践においても、継続的な敵対的テストへのシフトが進んでいます。1PasswordのCTOであるNancy Wang氏は、2026年3月にHelp Net Securityの取材に対し、敵対的テストは継続的インテグレーションおよびリリースのワークフローに組み込むべきであり、モデルの更新やプロンプトの変更、エージェントの再設定が行われるたびに事前定義された攻撃テストスイートが自動的に実行されるべきだと述べています。Wang氏は「継続的な検証をエンジニアリングライフサイクルの一部にする」ことが目標であるとし、これはVassilev氏の提唱する継続的監視・アップデートモデルとも一致するアプローチです。

最終的な目標は、AIシステムの突破にかかるコストが攻撃者の支出意欲を上回る経済的均衡の実現です。Vassilev氏は「新たなエクスプロイトを見つけるコストが攻撃者のリソースを超える状態にすること」が目標だと述べています。また、この取り組みはコストがかかるものの、それは組織がAIの恩恵をより低いリスクで享受するための部分的なセキュリティに必要な対価だと付け加えています。

翻訳元: https://www.helpnetsecurity.com/2026/06/10/broken-ai-guardrails-research/

どんなAIガードレールも、適切なプロンプトで突破できる

100年前の論理のAIへの応用

攻撃者と防御者への示唆

継続的な監視とアップデートによるモデル

共有:

関連

関連記事

AppleのPrivate Cloud Compute、サードパーティのデータセンターへ展開

Rubrik、サイバー攻撃後のクラウドアプリケーション再構築を実現する「Autonomous Business Recovery」を発表

F5、オンプレミス環境向けにAI搭載の脅威検出とAPIセキュリティを追加