AI安全ガイドラインは正当なセキュリティ業務をますます遮断する一方で、攻撃者は簡単に制限を回避する。CISO にとって、この非対称性は防御能力の盲点を生み出す。
セキュリティチームは、脅威モデリング、フィッシングシミュレーション、SOC ワークフローのために AI コパイロットを採用するよう促されている。しかし、最も広く導入されている企業承認 AI システムの多くは、プロンプトが実際の攻撃行動に似た場合、現実的な防御シナリオをサポートするのに苦労している。
これはそのような活動が本来的に悪意のあるものだからではなく、主流の AI 安全モデルが許可されたセキュリティ業務を虐待から区別するのではなく、大規模な悪用を防ぐために設計されているからだ。
一方、攻撃者は調達ルール、コンプライアンス義務、または集中化された安全執行に制約されていない。彼らはオープンソースモデル、微調整ツール、または単に AI をまったく使用しない可能性がある。
ガイドレールの軍拡競争
AI プロバイダーは安全メカニズムに多大な投資を行っている。OpenAI、Anthropic、Google などは、モデルが有害なコンテンツを生成するのを防ぐために、ますます洗練されたフィルターを実装している。これらのガイドレールは真正なエンジニアリングの努力を表現しており、AI の悪用に関する正当な懸念を反映している。
問題は、これらのセーフガードが非対称的に動作することだ。
HiddenLayer 研究者が 2025 年 10 月に OpenAI のガイドレールフレームワークをテストした際、彼らは単純な技術を使用してジェイルブレイク検出とプロンプトインジェクション検出の両方をバイパスした。制限はアーキテクチャにあった。コンテンツを評価するセキュリティジャッジ自体が LLM であり、それが保護しているモデルと同じ操作に対して脆弱だった。
オープンウェイトモデルに関する最近の研究はさらに明白な結果を示した。Cisco 研究者によるオープンウェイト言語モデルの分析では、マルチターンプロンプト攻撃は平均約 60% の成功率を達成し、特定の評価条件下では 1 つのモデルが 92.78% に達した。これらの調査結果は、新規エクスプロイトを必要とするのではなく、攻撃者は悪意のある意図を複数の無害に見えるリクエストに分散させることで単なる忍耐強さを通じて成功できることを示唆している。
一方、セキュリティプロフェッショナルは 正当な防御コンテンツをリクエストするときに日常的な摩擦を経験する。フィッシングシミュレーションを構築するレッドチーマーは拒否に直面する。許可されたアセスメントの概念実証エクスプロイトコードを求めるペネトレーションテスターはブロックされる。
実際には、このダイナミクスはすぐに目に見えるようになる。オフェンシブ技術の直接的なリクエストは拒否されるが、間接的または教育的なフレーミングはしばしば部分的なガイダンスを得られる。
攻撃者の利点
脅威アクターはそのような制約の下にはない。彼らは単にジェイルブレイクされたモデル、ローカルにホストされたオープンソースの代替案、または地下市場全体に拡散した目的で構築された悪意のあるツールを使用する。
元々 2023 年に shut down された WormGPT は、検閲されていない AI ツールのリサイクルされたブランド名としてほぼ再登場した。2024 年 10 月から 2025 年 2 月の間に地下マーケットプレイス BreachForums に投稿された新しいバリアントは、ジェイルブレイクプロンプトとシステムプロンプト操作を使用して xAI の Grok や Mistral の Mixtral などの主流モデルの上に構築されている。これらのバリアントはゼロからモデルを構築する必要はない。代わりに、広く文書化されており、地下フォーラムでますます商品化されているプロンプト操作、システムメッセージ悪用、またはファインチューニング技術に依存している。
経済的およびスキルバリアは大幅に低下している。複数の研究により、AI が フィッシングおよびソーシャルエンジニアリングのコストを 95% 以上削減し、ほぼ誰でも予算と意図があればAI駆動型の高度な攻撃にアクセスできるようになったことが示唆されている。Black Hat USA 2021 で発表された研究は、AI が生成した槍先フィッシングメールが人間によって書かれたものより高いクリック率を達成したことを実証した。
防御ギャップ
セキュリティプロフェッショナルにとって、これは実際の操作上の問題を生じさせている。
組織は、ますます洗練されたAI生成攻撃に対して従業員を訓練するための現実的なフィッシングシミュレーションが必要である。しかし、これらのシナリオを作成するにはしばしば安全フィルターが日常的にブロックする AI アシスタンスが必要である。セキュリティ認識トレーニングはすでに追いつくのに苦労しており、年次または四半期のモジュールは月ごとに進化するフィッシング技術に対応することができない。
AI セキュリティを研究する学術および業界研究者は一貫性のない制限に直面している。ChatGPT はセキュリティ関連タスクの倫理的含意を評価する際に一貫性がなく、時には倫理的でないと判断したコードを生成するのを拒否しながら、異なる フレーミングの下で機能的に同様の出力を生成している。この予測不可能性は体系的な研究を困難にし、研究者がセキュリティ分析ではなくプロンプトエンジニアリングに時間を浪費することを強制する。
セキュリティプロフェッショナルが有用な出力を抽出した場合でも、品質は一貫していない可能性がある。1 つの評価では、ChatGPT は最初の試みで 21 個のうち 5 つの安全なプログラムを 生成することができただけだ。エクスプロイトコードの記述を拒否しながら、後で悪用される可能性のある脆弱なコードを容易に生成することには倫理的な矛盾がある。
レッドチーミングおよびペネトレーションテストはますます偵察、脆弱性分析、およびレポート生成の AI アシスタンスに依存している。しかし、AI 安全措置がセキュリティツール出力またはプルーフオブコンセプトのデモンストレーションをブロックする場合、テスト範囲が低下する。AI 支援セキュリティツールが過度に広い制限に制約されているため、組織は重大な脆弱性を見落とす可能性がある。
現実世界の非対称性
これは理論的ではない。攻撃者が達成するものと防御者がアクセスできるものの間のギャップは文書化されており、拡大している。2024 年の学術研究では、AI 生成フィッシングメールがクリック率において人間による対照メールを大幅に 上回ったことを発見した。脅威アクターはすでにこの機能を大規模で運用化している。
一方、Microsoft は 2025 年 8 月に AI で難読化されたフィッシングキャンペーンを検出した。攻撃者はおそらく LLM を使用して、検出を回避するように設計された複雑な SVG コードを生成した。SVG は正当に見えるようにビジネス関連言語を使用しながら、ユーザーには見えなかった。
防御者は、新興の攻撃バリエーションを迅速に探索し、環境全体で検出ルールを検証できるツールが必要である。その機能は理論的には存在するが、ガイドレールのために実際には不均等にしか利用できない。
問題は個別のプロンプトトリック以上に広がっている。攻撃者はバイパス技術を産業化した。EchoGram 攻撃技術は、悪意のあるペイロードを損なわずにガイドレール決定を変更できるフリップトークンを識別し、トークンが組み合わされると、それらの効果は複合する。研究者は制御実験で、慎重に選択されたトークンシーケンスが分類器の評判を完全に逆転させ、悪意のあるコンテンツを安全に見せたり、セキュリティチームに大量の誤検知を促すことができることを実証した。
CISO のジレンマ
セキュリティリーダーにとって、この非対称性はいくつかの戦略的問題を生み出す。脅威アクターが防御チームがテストのために法的または実際には複製できない AI 駆動型攻撃機能を実証した場合、組織はそれらの露出を正確に評価したり、急速に変動する脅威に対する準備を測定したりすることはできない。
従業員セキュリティ認識プログラムは、トレーニングコンテンツが攻撃者の高度化より遅れている場合、効果が低くなる。防御者が現在の脅威を反映するシミュレーションを容易に生成できない場合、トレーニングは昨日の攻撃に焦点が当てられたままになる。
学術および業界研究者が攻撃者が簡単にバイパスできる制限に直面する場合、セキュリティコミュニティは新興脅威への可視性を失う。防御戦略を知らせる研究が阻害される一方で、オフェンシブ機能は制約されずに進む。
組織は、AI プロバイダーに正当なセキュリティ使用の構成を決定させることに依存している。これらの決定が一貫性がない、主観的、または過度に控えめである場合、防御能力は低下する。攻撃者はジェイルブレイク、ローカルデプロイメント、または地下市場を通じて検閲されていない AI にアクセスする。防御者は承認プロセス、サービス条件、および予測不可能な拒否をナビゲートする必要がある。摩擦は主に一方的だ。
何が変わる必要があるか
ここでの鍵は AI 安全性を完全に放棄することではなく、防御使用事例を説明する安全措置を設計することだ。
コンテンツベースのフィルタリングのみではなく、AI システムは特定のテスト シナリオに対する文書化された認可を備えた正当なセキュリティ プロフェッショナルの認証をサポートできる。OpenAI の最近の 発表した「信頼されたアクセス プログラム」はこの方向への一歩を表しているが、実装の詳細は極めて重要である。
セキュリティプロフェッショナルは、認可されたペネトレーションテスト、承認されたトレーニング、または学術研究などの意図された使用を宣言することが許可されるべきであり、検証される必要がある。これは評価を「何」から「誰」と「なぜ」にシフトさせる。Hybrid-Analysis などの自動化マルウェア分析プラットフォームは以前、研究者アカウントのために同様の審査を使用している。
セキュリティチーム向けの目的で構築されたツールは、制御された環境内で必要な機能を提供できた。レッドチーミング、フィッシングシミュレーションプラットフォーム(組み込み AI アシスタンス)、またはセキュリティ研究サンドボックス(適切なガイドレールと監査証跡)用の特化した AI インスタンスを考える。
安全トレーニングは、有害な意図と正当なセキュリティ業務を区別する必要があります。現在の実装はしばしばこの区別に失敗し、コンテキストに関わらず、オフェンシブセキュリティコンテンツのすべてのリクエストを同等として扱う。
最終目標は無制限の AI アクセスではなく、防御機能を 強化 するのではなく低下させない安全措置である。セキュリティは非対称性を管理することについてだ。ガイドレールがオフェンスと防御の間のギャップを広げる場合、意図に関わらずセキュリティを損なう。
今後の展開
現在の軌跡は防御者をますます不利にしている。AI 機能が進化するにつれて、攻撃者が達成できることと防御者が法的かつ実際にアクセスできることの間のギャップは、意図的に対処しない限り拡大する。
これには、AI プロバイダー、セキュリティ研究者、およびエンタープライズセキュリティチーム間の協力が必要であり、防御機能を阻害することなく悪用から保護する安全フレームワークを開発する必要がある。完全なコンテンツフィルタリングは不可能であることを受け入れ、プロンプトから意図を推測しようとするのではなく正当な使用を検証する認可ベースのモデルにシフトすることを意味する。
最も重要なことに、認可下で活動しているセキュリティプロフェッショナルがこれらのシステムが最適化すべき脅威モデルではないことを認識することが必要である。AI が認可されたトレーニング用のフィッシングシミュレーションの構築を支援することを拒否しながら、攻撃者が最小限の摩擦で大規模にリアルなフィッシングを生成する場合、安全措置は中核的な目的に失敗している。
AI 安全性は害を減らすべきだ。現在のところ、セキュリティドメインではそれは盲点を生み出しており、誰もが(攻撃者を除いて)あまり安全ではない。