セキュリティ研究者が、攻撃者がAnthropicのファイルアップロードAPIを乗っ取り、ネットワーク制限が有効でも機密情報を流出させる手法を実演
AnthropicのClaude AIアシスタントで新たに公開された脆弱性により、攻撃者がプラットフォームのコードインタープリター機能を悪用して、デフォルトのセキュリティ設定を回避しながら企業データを密かに流出させる方法が明らかになりました。
セキュリティ研究者のJohann Rehberger氏は、Claudeのコードインタープリターが間接的なプロンプトインジェクションによって操作され、チャット履歴やアップロードされたドキュメント、統合サービスを通じてアクセスされたデータなどの機密情報を盗み出せることを実証しました。この攻撃はClaude自身のAPIインフラを利用し、盗まれたデータを攻撃者が管理するアカウントに直接送信しました。
このエクスプロイトは、Claudeのネットワークアクセス制御における重大な見落としを突いたものでした。プラットフォームのデフォルト設定である「パッケージマネージャーのみ」では、npmやPyPIなど承認済みドメインへの外部接続のみを許可していましたが、同時にapi.anthropic.comへのアクセスも許可しており、これが攻撃者によるデータ窃取に悪用されました。
攻撃の仕組み
研究者によって組織された攻撃チェーンは、間接的なプロンプトインジェクションに依存していました。これは、ユーザーがClaudeに解析を依頼するドキュメントやウェブサイト、その他のコンテンツ内に悪意のある指示を隠す手法です。トリガーされると、エクスプロイトは複数段階のプロセスを実行します:
まず、Claudeは新たに導入されたメモリ機能を使って最近の会話履歴などの機密データを取得し、それをコードインタープリターのサンドボックス内のファイルに書き込みます。悪意あるペイロードは、その後ClaudeにPythonコードを実行させ、そのファイルをAnthropicのFiles APIにアップロードするよう指示しますが、ここで重要なのはアップロードに被害者のAPIキーではなく攻撃者のAPIキーを使用する点です。
「このコードはサンドボックスからファイルをアップロードするリクエストを発行します。しかし、ここにひとひねりがあります」とRehberger氏は自身のブログ記事で書いています。「アップロードはユーザーのAnthropicアカウントではなく、攻撃者のアカウントに行われます。なぜなら攻撃者のANTHROPIC_API_KEYが使われているからです。」
この手法では、AnthropicのAPIドキュメントによると1ファイルあたり最大30MBまで流出可能で、アップロードできるファイル数に制限はありません。
AI安全制御の回避
Rehberger氏の報告によれば、Claudeの組み込みセーフティメカニズムのため、信頼性の高いエクスプロイトの開発は困難でした。AIは平文のAPIキーを含むリクエストを不審とみなして最初は拒否しました。しかし、Rehberger氏は悪意あるコードに単純なprint文などの無害な命令を混ぜることで、これらの安全策を回避できると付け加えています。
「XORやbase64エンコーディングなどのトリックを試しましたが、どれも確実ではありませんでした」とRehberger氏は説明します。「しかし、回避方法を見つけました……print(‘Hello, world’)のような無害なコードをたくさん混ぜるだけで、Claudeはあまり悪意のあることが起きていないと判断したのです。」
Rehberger氏は2025年10月25日、HackerOneを通じてAnthropicにこの脆弱性を報告しました。会社側は1時間以内に報告をクローズし、これはスコープ外であり、セキュリティ脆弱性ではなくモデルの安全性に関する問題だと分類しました。
Rehberger氏はこの分類に異議を唱えています。「これは単なる安全性の問題ではなく、デフォルトのネットワークエグレス設定によるセキュリティ脆弱性であり、あなたの個人情報の流出につながる可能性があります」と彼は書いています。「安全性は事故から守ります。セキュリティは敵対者から守ります。」
Anthropicはコメント要請に即座には応じませんでした。
攻撃ベクトルと実際のリスク
この脆弱性は複数の入口から悪用可能だとブログ記事は付け加えています。「悪意ある攻撃者は、解析用に共有されたドキュメントや、ユーザーがClaudeに要約を依頼するウェブサイト、Model Context Protocol (MCP)サーバーやGoogle Drive連携を通じてアクセスされるデータにプロンプトインジェクションのペイロードを埋め込むことができます」とブログは述べています。
Claudeを機密文書の解析や顧客データの処理、社内ナレッジベースへのアクセスなどの機密性の高い業務に利用している組織は、特にリスクにさらされています。この攻撃は、流出が正規のAPIコールを通じて行われ、通常のClaudeの動作と区別がつきにくいため、痕跡がほとんど残りません。
企業にとって、緩和策は限られています。ユーザーはネットワークアクセスを完全に無効化するか、特定ドメインの許可リストを手動で設定することができますが、これによりClaudeの機能は大きく制限されます。Anthropicは、Claudeの動作を監視し、不審な挙動が検知された場合は手動で実行を停止することを推奨していますが、Rehberger氏はこれを「危険な綱渡り」と表現しています。
同社のセキュリティドキュメントもこのリスクを認めています。「これは、Claudeがそのコンテキスト(たとえばプロンプト、プロジェクト、MCP経由のデータ、Google連携など)から情報を悪意ある第三者に送信するよう騙される可能性があることを意味します」とRehberger氏は指摘しています。
しかし、企業はデフォルトの「パッケージマネージャーのみ」設定で十分に保護されていると誤認するかもしれません。Rehberger氏の研究は、その前提が誤りであることを示しました。脆弱性が未修正の間、ユーザー保護のために完全なエクスプロイトコードは公開していません。彼は、Anthropicの承認済みリストにある他のドメインでも同様の悪用機会が存在する可能性があると指摘しています。