レッドチームがClaude Desktopを「二重スパイ」に仕立て上げた一部始終

独占 Pentera LabsのレッドチームがClaude Desktopアプリ経由で開発者のAIエージェントを侵害し、最終的にその侵入経路を悪用して開発者のマシン上でリモートコード実行を完全に成立させました。この事例は、信頼され「おしゃべりな」AIアシスタントが攻撃者の手先となる「二重スパイ」に変貌しうることを示しています。

「Claudeに新しい声が宿ったわけです」と、Peteraの攻撃的セキュリティサービスチームリーダーであるDvir Avraham氏はThe Registerに語りました。

「私たちはAIモデルに対する絶大な信頼を認識しています――誰もが使っていますから」と同氏は電話取材で述べました。「私たちはこの信頼を利用して被害者を操りました。いわば裏側で進行していることに、被害者はまったく気づかなかったのです」

この研究を通じてAvraham氏自身も自らのプラットフォームを見直すようになったといいます。「少し神経質になりました」と同氏は語りました。「今では、コマンドを二度確認せずに実行させることはありません」

水曜日に公開予定であり、The Registerに独占的に事前共有されたレポートの中で、Avraham氏とリサーチ技術リードのReef Spektor氏は、この攻撃手法の詳細と、ローカルでコード実行権限を持つエージェント型AIツールを利用する組織にとって何を意味するのかを解説しています。

事の発端は、顧客のメール受信箱を一つの管理インターフェースに集約するサードパーティ製プラットフォームを対象としたレッドチーム演習でした。Avraham氏とSpektor氏は、そのプラットフォームの名称や、具体的にどうやってアクセス権を得たのかについては明かしていません。彼らはこの侵害済みの受信箱を使って――そして、侵害された受信箱であればどれでも同様に機能したはずだと述べています――被害者のClaudeアカウントへの侵入を果たしました。

両氏が指摘するように、現実世界でメールの受信箱に侵入すること自体は――サードパーティ製管理プラットフォーム経由であれ、フィッシングリンク経由であれ、ソーシャルエンジニアリングによるパスワードリセット経由であれ、あるいはAIエージェントを利用する方法であれ――さほど難しいことではありません。「今日のAIエージェントは、コネクターや受信箱への直接的なMCPアクセス権を持っています」とSpektor氏は付け加えました。

この前提条件(受信箱の侵害)に加え、この攻撃チェーンには被害者がClaude Desktopをインストールしていることも必要です。AnthropicのデスクトップアプリはmacOS、Windows、Linuxの各システムで動作します。claude.aiと同じAIチャット機能を提供するほか、ユーザーアカウントに紐づくすべてのデバイスやセッション間で同期する仕組みも備えています。

「私たちは自問しました。この同期の挙動を利用して、他のセッションやデバイスにも感染を広げられないだろうか、と(ヒント:できます!)」と、レッドチームは水曜日のレポートに記しています。

AI版「石器時代」への逆戻り

1月の時点で、このデスクトップアプリにはより長時間のエージェントタスク向けの「Cowork」機能と、ソフトウェア開発向けの「Code」機能が追加されています。そのため、例えばユーザーはスマートフォンからClaudeにタスクを送信し、自分のコンピュータ上で作業するよう指示することができます。Anthropicはこう説明しています。「あなたがコンピュータ上でできることは何でも、Claudeにもできます。アプリを開く、スプレッドシートに入力する、ブラウザを操作する――セットアップもパスワードの受け渡しも不要です」

このCowork機能によって、Pentera Labsの攻撃シナリオはさらに実行しやすくなっています。

しかし、セキュリティアナリストたちがこの調査を行っていた2025年11月時点では事情が異なりました。「AIの観点ではまさに石器時代で、CoworkもClaude Codeも存在しなかったため、マシンを乗っ取るにはコマンドを実際に実行する手段を自分たちで用意する必要がありました」とAvraham氏は語りました。

この部分について、彼らはClaude Desktopのパーソナライズ機能に強い関心を寄せました。これはアカウント全体に適用される設定項目で、AIエージェントに対してユーザーの好みのアプローチや一般的なコミュニケーション指示を伝えるほか、特定のワークフロー向けのガイドラインや、プロジェクト内でClaudeが担うべき役割の定義など、より具体的なプロジェクト指示も含まれます。

レッドチームは、開発者のマシン上でコマンド実行が可能なツールの有無を確認し、利用可能であればそのコマンドを実行、利用できなければ偽のエラーメッセージを表示してユーザーに攻撃者のコマンドを実行するツールをダウンロードさせるよう仕向ける、base64エンコードされたプロンプトを作成しました。そして、このプロンプトを被害者個人のClaudeの環境設定に貼り付けたところ、このプロンプトはユーザーの全デバイスに同期されました。これにより、次にユーザーがClaude Desktopを開いてチャットに何かを入力した瞬間、汚染された指示が環境設定として読み込まれ、裏側で密かに実行されることが保証される仕組みです。

私たちはAIモデルに対する絶大な信頼を認識しています――誰もが使っていますから。私たちはこの信頼を利用して被害者を操りました。いわば裏側で進行していることに、被害者はまったく気づかなかったのです。

ユーザーは、いつも通りClaudeとやり取りしているだけだと思い込んでいます。Claudeが裏でどんな拡張機能やツールがインストールされているかを確認していることには気づきません。

もしユーザーが既にDesktop Commanderや類似のMCPコネクター、拡張機能をインストールしている場合、汚染された指示はそれを使うようClaudeに命じます。これにより攻撃者は、Claudeを介してステルスなリバースシェルやその他の悪意あるコードを実行できるようになります。「そこから先は、マシンの完全な乗っ取りです」とAvraham氏は述べました。

メールを使わない「フィッシング」

一方、コマンド実行が可能なツールが何もインストールされていない場合、Claudeは研究者たちが「フィッシングレイヤー」と呼ぶものに変わります(なお両氏は、この調査を11月ではなくもっと最近実施していたなら、Claudeの「Cowork」機能によってこのツール列挙とフィッシングの段階全体が不要になっていただろうとも指摘しています。CoworkはユーザーInstead of behalfでコマンドを実行できるためです)。

注入されたプロンプトは、被害者がチャットボットに何か質問をした瞬間、いかにも本物らしいエラーを表示するようClaudeに指示します。そこには本物らしいエラーコードと、修正策であるかのように装ったリンク、そして手順を追った指示が含まれています。

「このメッセージはユーザーに『これをダウンロードしてください』と伝えます。しかも私たちは、AIが好んで使う既知の絵文字とともに、実際のAnthropicのサイトからリンクを取っていました」とAvraham氏は語りました。

このエラーメッセージは本物そっくりに見える上、人々は普段からAIアシスタントを信頼しているため、リンクをクリックして攻撃者が制御するコマンドを実行してしまう可能性が高くなります。

「ここまでくれば、攻撃者はコマンドを完全に実行できる状態になります――リバースシェル、データ窃取、認証情報の窃取、目的に応じて何でも可能です」と両氏は記しています。「今回のケースでは、私たちが管理する遠隔サーバーに対して、Claudeがやり取りのたびにcurlでアクセスし、私たちが用意したbashコマンドを取得・実行するようにしました。サーバー側でこれらのコマンドを自由に切り替えられるため、事実上Claudeを、被害者自身が餌を与え続ける永続的でステルス性の高いC2エージェントに変えてしまったのです」

この事例における標的は、複数の社内システムへの認証情報とアクセス権を持つ開発者でした。この開発者のワークステーションを侵害したことで――これによりレッドチームは組織内への足がかりを得ました――彼らはさまざまな攻撃手法を使って社内を横方向に移動しましたが、顧客のプライバシーと独自の手法保護を理由に、その詳細については明かしていません。

しかしSpektor氏はこう付け加えました。開発者は攻撃者にとって「絶好の出発点」になり得るといいます。なぜなら、機密情報へのアクセス権を持っているからです。これにはAPIキー、トークン、クラウドの認証情報などが含まれ、侵入者はこれを足がかりに単一のワークステーションから組織全体のより大きなクラウド環境へと移動できます。そこまで到達すれば、あとはソースコードやその他の機密データを盗み放題、あるいは社内のgitリポジトリを汚染することも可能で、最近の複数の攻撃事例で繰り返し見られてきたような、企業にとってあらゆる痛手をもたらす事態につながります。

バグではなく「仕様」

この研究チームは11月にAnthropicへ調査結果を報告しましたが、このAI企業の反応は、Claude Desktopは想定通りに動作している――つまりバグではなく仕様である、というものでした。

「ご提出いただいた内容を精査した結果、私たちのプログラムの対象範囲に含まれるセキュリティ脆弱性には該当しないと判断しました」とAnthropicは述べています。「現行の脅威モデルでは、個人設定、スキル、MCPコネクターは、設計上Claude Desktopを通じてコードを実行できる機能として扱われています。これらの機能が悪用された場合に任意のコードが実行され得ることは認識していますが、これは私たちのインフラにおけるセキュリティ脆弱性というよりも、想定された機能であると考えています」

The Registerはコメントを求めてAnthropicに問い合わせましたが、返答は得られませんでした。

とはいえ、レッドチームの両氏は、組織を不正なAIエージェントからより安全に守るためのいくつかの提言をしています。

まず、エージェントやチャットボットを利用するすべての人へ。AIが自分のマシン上で何をできるのかに注意を払い、インストールの指示やエラーメッセージを鵜呑みにしないことです。「可能であれば、自分の個人用コンピュータではなくサンドボックス環境で実行してください」とSpektor氏は述べました。

セキュリティチームは、AIデスクトップアプリをコード実行・ファイル読み取り・ローカルツールとの連携が可能な「権限を持つソフトウェア」として扱うべきです。「AIアシスタントの設定変更や同期される設定を監視してください」と研究者たちは記しています。「AIアプリと併用してインストールできる拡張機能やツールを制限してください」

そして最後に、レッドチームはAIデスクトップアプリを自らの評価対象ツールに加えるべきだと、Avraham氏とSpektor氏は指摘します。「ここには、まだほとんどの演習でカバーされていない、現実の攻撃対象領域が存在しています」 ®

翻訳元: https://www.theregister.com/security/2026/07/01/red-teamers-turned-claude-desktop-into-a-double-agent-to-do-their-evil-bidding/5264692

ソース: theregister.com