- Claudeのコードインタープリタは、プロンプトインジェクションによってユーザーの機密データを流出させるために悪用される可能性があります
- 研究者は、Claudeを騙してサンドボックス内のデータを自身のAnthropicアカウントにAPIアクセスを使ってアップロードさせました
- Anthropicは現在、このような脆弱性を報告対象とし、ユーザーに監視またはアクセスの無効化を推奨しています
Claudeは、現在利用可能なAIツールの中でも人気の高いものの一つですが、専門家によると、脅威アクターがユーザーの機密データを流出させることができる脆弱性を抱えています。
サイバーセキュリティ研究者のJohann Rehberger(別名Wunderwuzzi)は、最近自身の調査結果について詳細なレポートを執筆しました。問題の核心は、Claudeのコードインタープリタにあります。これは、AIがコードを書いて実行できるサンドボックス環境で(たとえばデータ分析やファイル生成など)、会話内で直接利用できます。
最近、コードインタープリタはネットワークリクエストを行う機能を獲得し、インターネットに接続してソフトウェアパッケージをダウンロードするなどが可能になりました。
Claudeを監視する
デフォルトでは、AnthropicのClaudeはGitHubやPyPIなどの「安全な」ドメインのみアクセスできるはずですが、許可されたドメインの中にapi.anthropic.com(Claude自身が利用するAPIと同じ)が含まれており、これが悪用の余地を生みました。
Wunderwuzziは、Claudeを騙してユーザーの機密データを読み取らせ、そのデータをサンドボックス内に保存し、自身のAPIキーを使ってClaudeのFiles API経由で自身のAnthropicアカウントにアップロードさせることに成功しました。
つまり、ネットワークアクセスが制限されているように見えても、攻撃者はプロンプトインジェクションを通じてモデルを操作し、ユーザーデータを流出させることができます。このエクスプロイトでは、1ファイルあたり最大30MBのデータを転送でき、複数ファイルのアップロードも可能です。
WunderwuzziはHackerOneを通じて自身の発見をAnthropicに開示し、当初同社はこれを「モデルの安全性の問題」として「セキュリティ脆弱性」ではないと分類しましたが、後にこのようなデータ流出バグも報告対象であることを認めました。最初はAnthropicは「この機能を利用する際はClaudeを監視し、予期せぬデータ利用やアクセスがあれば停止してください」と述べていました。
その後のアップデートで、「Anthropicはこのようなデータ流出の脆弱性が報告対象であり、この問題はスコープ外としてクローズされるべきではなかったと確認しました」とレポートで述べています。「対応すべきプロセス上の問題があったとのことです。」
彼がAnthropicに提案しているのは、Claudeのネットワーク通信をユーザー自身のアカウントのみに制限すること、そしてユーザーはClaudeの活動を注意深く監視するか、懸念がある場合はネットワークアクセスを無効にすることです。