Google Workspace による間接的プロンプトインジェクション緩和への継続的アプローチ

Google GenAI セキュリティチームの Adam Gavish による投稿

間接的プロンプトインジェクション（IPI）は、Gemini 搭載 Workspace のような複数のデータソースを持つ複雑な AI アプリケーションのユーザーを狙う進化する脅威ベクトルです。この技術により、攻撃者はユーザーのクエリを完了する際に LLM が使用するデータやツールに悪意のある指示を注入することで、LLM の動作に影響を与えることができます。これはユーザーからの直接的な入力がなくても可能な場合さえあります。

IPI は「解決したら終わり」という種類の技術的問題ではありません。エージェント自動化の使用が増加する高度な LLM と幅広いコンテンツが組み合わさることで、対抗的攻撃のための超動的で進化し続けるプレイグラウンドが生まれます。そのため、Google はこれらの攻撃に対して洗練され包括的なアプローチを取っています。私たちは IPI 攻撃に対する LLM の耐性を継続的に改善し、防御が絶えず向上する AI アプリケーション機能をリリースしています。最新の間接的プロンプトインジェクション攻撃の先手を取ることは、Gemini 搭載 Workspace のセキュリティ確保というミッションに不可欠です。

前回のブログ「層状防御戦略によるプロンプトインジェクション攻撃の緩和」では、IPI 防御の層状アーキテクチャについて説明しました。このブログでは、これらの防御を改善し、新しい攻撃に対応するために取っている継続的アプローチについて、より詳しく説明します。

新しい攻撃の発見

内部および外部プログラムを通じて新しい攻撃ベクトルを積極的に発見およびカタログ化することで、脆弱性を特定し、対抗的活動の前に堅牢な防御をデプロイできます。

ヒューマンレッドチーミング

ヒューマンレッドチーミングは対抗的シミュレーションを使用してセキュリティとセーフティの脆弱性を発見します。専門チームは現実的なユーザープロファイルに基づいて攻撃を実行して弱点を利用し、特定された問題を解決するために製品チームと調整します。

自動レッドチーミング

自動レッドチーミングは動的で機械学習駆動のフレームワークを介して環境をストレステストします。攻撃ペイロードをアルゴリズム的に生成および反復することで、高度な脅威の動作を大規模でシミュレートできます。これにより、手動テストだけでは達成できるよりも、はるかに広い範囲のエッジケースをまたいでセキュリティコントロールの有効性を検証し、複雑な攻撃パスをマップできます。

Google AI 脆弱性報奨金プログラム（VRP）

Google AI 脆弱性報奨金プログラム（VRP）は、IPI を活用する新しい攻撃を発見した Google と外部セキュリティ研究者間のコラボレーションを可能にするための重要なツールです。このVRP を通じて、私たちは貢献者の研究を認識して報酬を与えます。また、招待された研究者にプレリリース機能へのアクセスを提供する定期的なライブハッキングイベントもホストし、新しい脆弱性を積極的に発見します。これらのパートナーシップにより、Google は外部で発見された問題を迅速に検証、再現、解決できます。

公開されている AI 攻撃

Google はオープンソースインテリジェンスフィードを活用して、ソーシャルメディア、プレスリリース、ブログなど、最新の公開 IPI 攻撃の情報を得ています。そこから、新しい AI 脆弱性が調達、再現、内部的にカタログ化され、製品が影響を受けないようにしています。

脆弱性カタログ

新しく発見されたすべての脆弱性は、Google トラスト、セキュリティ、セーフティチームによって実行される包括的な分析プロセスを経ます。新しい脆弱性は再現、重複チェック、攻撃技法/影響カテゴリにマップ、関連する所有者に割り当てられます。新しい攻撃発見ソースと脆弱性カタログプロセスの組み合わせは、Google が実用的な方法で最新の攻撃情報を先制的に把握するのに役立ちます。

合成データの生成

新しい攻撃を発見、整理、カタログ化した後、Simula を使用してこれらの新しい攻撃を拡張する合成データを生成します。このプロセスは、チームが完全性とカバレッジのために攻撃バリエーションを開発し、新しいトレーニングおよび検証データセットを準備できるようにするため、本質的です。この加速されたワークフローにより、合成データ生成が 75% 向上し、大規模な防御モデル評価および再トレーニング、ならびに防御有効性の計算とレポートに使用されるデータセットの更新がサポートされています。

継続的な防御の改善

防御メカニズムを継続的に更新および強化することで、より広い範囲の攻撃技法に対処し、全体的な攻撃面を効果的に削減できます。各防御タイプの更新には、設定更新からプロンプトエンジニアリング、ML モデルの再トレーニングまで、異なるタスクが必要です。

決定的な防御

ユーザー確認、URL サニタイゼーション、ツールチェーニングポリシーを含む決定的防御は、シンプルな設定更新に依存することで、新しい、または新興のプロンプトインジェクション攻撃に対して迅速に対応するために設計されています。これらの防御は中央集約型ポリシーエンジンによって管理され、基本ツール呼び出し、URL サニタイゼーション、ツールチェーニングなどのポリシーの設定があります。差し迫った脅威に対しては、この設定ベースのシステムは、正規表現テイクダウンなどの「ポイント修正」の合理的なプロセスを促進し、従来の ML/LLM モデル更新サイクルより速く動作する機敏な防御層を提供します。

ML ベースの防御

新しい攻撃をバリアントに拡張する合成データを生成した後、次のステップは ML ベースの防御を再トレーニングしてこれらの新しい攻撃を緩和することです。上記で説明した合成データを個別のトレーニングセットと検証セットに分割して、保留されたサンプルに対してパフォーマンスが評価されるようにします。このアプローチにより、再現性、固定トレーニング/テスト用のデータ一貫性が確保され、完全に自動化されたモデル更新への将来の拡張をサポートするスケーラブルなアーキテクチャが確立されます。

LLM ベースの防御

新しい合成データの例を使用して、LLM ベースの防御は洗練されたシステム指示でプロンプトエンジニアリングを進めます。目標は、合意された防御有効性メトリクスに対してこれらのプロンプトを反復的に最適化し、モデルが進化する脅威ベクトルに対して弾力性を維持することです。

Gemini モデルの強化

システムレベルのガードレールとアプリケーションレベルの防御を超えて、私たちはデータ内の有害な指示を識別して無視する Gemini モデルの内部的な能力を改善するプロセスである「モデル強化」を優先します。合成データセットと新しい攻撃パターンを利用することで、さまざまな脅威の反復をモデル化できます。これにより、ユーザーの意図したリクエストに従いながら、有害な埋め込みコマンドを無視する Gemini モデルの能力を強化できます。このモデル強化のプロセスを通じて、Gemini は注入された指示を検出して無視することにより大幅に上達しました。これにより、ルーチン操作中にモデルの効率を損なわずに、攻撃の成功率が低下しました。

防御の有効性

防御改善の実世界への影響を測定するために、多くの Workspace 機能に対して攻撃をシミュレートします。このプロセスはこのブログで説明した新しく生成された合成攻撃データを活用して、堅牢なエンドツーエンド評価を作成します。シミュレーションは、信頼できる結果を確保するために標準化されたアセットセットを使用して、Gmail や Docs などの複数の Workspace アプリに対して実行されます。防御改善の正確な影響（たとえば、更新された ML モデルまたは新しい LLM プロンプト最適化）を決定するために、防御の有無でエンドツーエンド評価を実行します。この比較テストは、防御の有効性を検証し、継続的な改善を推進するために必要な必須の「前後」メトリクスを提供します。

今後に向けて

AI セキュリティへの私たちのコミットメントは、毎日 Google を使用しているほうがより安全であるという原則に根ざしています。間接的プロンプトインジェクションの脅威環境が進化する一方で、私たちは Gemini 搭載 Workspace を AI 優先の仕事のための安全で信頼できるプラットフォームとして構築しています。IPI は複雑なセキュリティの課題であり、多層防御戦略と継続的な緩和アプローチが必要です。そこに到達するために、私たちは世界クラスのセキュリティ研究、自動化パイプライン、高度な ML/LLM ベースのモデルを組み合わせています。この堅牢で反復的なフレームワークは、進化する脅威の先手を取るだけでなく、ユーザーと顧客の両方に強力でセキュアな体験を提供することを確認するのに役立ちます。

翻訳元: http://security.googleblog.com/2026/04/google-workspaces-continuous-approach.html