Claudeは、親切な言葉だけであなたの会社の機密データをハッカーに送信するよう騙される可能性があります

Claudeのメモリ
(画像クレジット:Anthropic)

  • Claudeのコードインタープリタは、プロンプトインジェクションによってユーザーの機密データを流出させるために悪用される可能性があります
  • 研究者は、Claudeを騙してサンドボックス内のデータを自身のAnthropicアカウントにAPIアクセスを使ってアップロードさせました
  • Anthropicは現在、このような脆弱性を報告対象とし、ユーザーに監視またはアクセスの無効化を推奨しています

Claudeは、現在利用可能なAIツールの中でも人気の高いものの一つですが、専門家によると、脅威アクターがユーザーの機密データを流出させることができる脆弱性を抱えています。

サイバーセキュリティ研究者のJohann Rehberger(別名Wunderwuzzi)は、最近自身の調査結果について詳細なレポートを執筆しました。問題の核心は、Claudeのコードインタープリタにあります。これは、AIがコードを書いて実行できるサンドボックス環境で(たとえばデータ分析やファイル生成など)、会話内で直接利用できます。

最近、コードインタープリタはネットワークリクエストを行う機能を獲得し、インターネットに接続してソフトウェアパッケージをダウンロードするなどが可能になりました。

Claudeを監視する

デフォルトでは、AnthropicのClaudeはGitHubやPyPIなどの「安全な」ドメインのみアクセスできるはずですが、許可されたドメインの中にapi.anthropic.com(Claude自身が利用するAPIと同じ)が含まれており、これが悪用の余地を生みました。

Wunderwuzziは、Claudeを騙してユーザーの機密データを読み取らせ、そのデータをサンドボックス内に保存し、自身のAPIキーを使ってClaudeのFiles API経由で自身のAnthropicアカウントにアップロードさせることに成功しました。

つまり、ネットワークアクセスが制限されているように見えても、攻撃者はプロンプトインジェクションを通じてモデルを操作し、ユーザーデータを流出させることができます。このエクスプロイトでは、1ファイルあたり最大30MBのデータを転送でき、複数ファイルのアップロードも可能です。

WunderwuzziはHackerOneを通じて自身の発見をAnthropicに開示し、当初同社はこれを「モデルの安全性の問題」として「セキュリティ脆弱性」ではないと分類しましたが、後にこのようなデータ流出バグも報告対象であることを認めました。最初はAnthropicは「この機能を利用する際はClaudeを監視し、予期せぬデータ利用やアクセスがあれば停止してください」と述べていました。

その後のアップデートで、「Anthropicはこのようなデータ流出の脆弱性が報告対象であり、この問題はスコープ外としてクローズされるべきではなかったと確認しました」とレポートで述べています。「対応すべきプロセス上の問題があったとのことです。」

彼がAnthropicに提案しているのは、Claudeのネットワーク通信をユーザー自身のアカウントのみに制限すること、そしてユーザーはClaudeの活動を注意深く監視するか、懸念がある場合はネットワークアクセスを無効にすることです。

翻訳元: https://www.techradar.com/pro/security/claude-can-be-tricked-into-sending-your-private-company-data-to-hackers-all-it-takes-is-some-kind-words

ソース: techradar.com