「BioShocking」攻撃——AIブラウザのガードレールを突破し認証情報を盗み出す新手法

新たに公開された「BioShocking」攻撃手法は、AIを搭載したブラウザに潜む根本的な信頼の欠陥を突くものです。悪意あるWebページがエージェント型AIを巧みに操ることで、認証情報の密かな窃取、ソースコードのコピー、不正なコマンド実行を可能にします。

この脆弱性はLayerXが発見し、登場人物が催眠的に条件付けられて本来なら拒否するはずの命令に従ってしまうディストピア系ビデオゲーム「BioShock」にちなんで命名されました。

この名付けには意図的な意味があります。同ゲームの主人公が虚偽の現実によって操られるように、AIブラウザもプロンプトインジェクションやメモリポイズニングによって欺かれ、セキュリティのガードレールが無意味となる全く異なる行動規則のもとで動作してしまうのです。

この概念実証エクスプロイトは、ユーザーがパズルに見せかけた悪意あるWebページにアクセスするところから始まります。そのパズルは「2 + 2 = 5」のような誤った答えを正解として報酬を与えることで、AIエージェントに段階的に逆転した論理を刷り込みます。

エージェントがこの「別の論理フレームワーク」を内面化すると、以降のすべての指示に対してセキュリティの制約ではなくゲームのルールを適用するようになります。

パズルの最終ステップでは、エージェントは別のページへリダイレクトされます。実際の攻撃シナリオでは、このページはブラウザセッション内で認証済みの任意のリソース——GitHubリポジトリ、社内ダッシュボード、メールクライアント、パスワードマネージャーなど——を指し示す可能性があります。

テスト中、あるエージェントはGitHubリポジトリからSSH認証情報を密かにコピーし、攻撃者に引き渡す準備をしていました。その間、エージェント自身はこの行為をセキュリティ違反ではなく「ゲームの正常なクリア」として認識していました。

このエクスプロイトは、6つのエージェント型プラットフォームで確認されています。ChatGPT Atlas(OpenAI)、Comet(Perplexity AI)、Fellou(ASI X INC)、Genspark Browser(Genspark)、Sigma Browser(Sigmabrowser OÜ)、そしてClaude Chromeプラグイン(Anthropic)です。

いずれのエージェントも、認証情報の窃取ステップをガードレール違反として検知できませんでした。LLMはフィッシング支援、認証情報の漏洩、不正なシステムアクセスといった有害なリクエストを拒否するよう、安全上の制約を組み込んだかたちで訓練されています。

しかしこれらのガードレールは、AIの動作コンテキストが現実を反映しているという重大な前提のもとに機能しています。BioShockingはその前提を崩壊させます。

エージェントが「誤った行動が報われる架空の空間に存在する」と信じ込んだ瞬間、現実世界の安全ロジックは適用されなくなります。その結果、実際の認証情報窃取が無害なゲーム内アクションとして処理されてしまうのです。

LayerXは2025年末に影響を受けるすべてのベンダーへ通知しました。OpenAIはChatGPT Atlasへの修正を迅速に適用しましたが、AnthropicのChromeプラグインへのパッチは2026年1月時点で未適用のままです。

Perplexity AIは修正を行わずに報告をクローズし、Fellou、Genspark、Sigmabrowser OÜからは一切の回答がありませんでした。

ベンダー各社に対しては、エージェントが認証済みデータにアクセスする前に明示的なユーザー確認プロンプトを実装すること、現実に反する指示を検知するコンテキスト整合性チェックを導入すること、そしてデフォルトでエージェントのアクセス範囲を制限する厳格なスコープ制御を設けることが強く求められています。

ユーザーとしてすぐに取れる対策はシンプルです。AIブラウザがエージェントセッション中にアクセスできる対象を確認し、使用していないときはアクセス許可を取り消すようにしましょう。

翻訳元: https://cyberpress.org/bioshocking-attack-ai-browser-guardrails/

ソース: cyberpress.org