生成AI企業のAnthropicは、3つの中国のAI企業がClaudeの大規模言語モデル(LLM)を使って数百万のクエリを生成し、モデルをコピーしていると発表しました。これは「モデル蒸留攻撃」と呼ばれる手法です。
2月23日に公開された新しいブログで、Anthropicは中国を拠点とする3つのGenAIラボ、DeepSeek、Moonshot、MiniMaxが、約24,000の不正なアカウントを通じてClaudeとの交換を1,600万回以上生成したと述べました。これはAnthropicのサービス利用規約と地域アクセス制限に違反しています。
モデル蒸留は、より能力の低いモデルをより強いモデルの出力で訓練する正当なAIトレーニング方法です。
また、他のラボから高度な機能を迅速かつ安価に取得するために悪意を持って使用される可能性があり、独立した開発に必要な大幅な時間とリソースを回避できます。
営業秘密と競争上の優位性に関する懸念を超えて、Anthropicは違法に蒸留されたモデルが、元のモデル所有者が対策を講じている悪意のある有害な目的、例えば生物兵器の開発や悪意のあるサイバー活動の実行に使用される可能性があり、セキュリティリスクが生じると警告しました。
「アメリカのモデルを蒸留した外国の研究機関は、これらの保護されていない機能を軍事、諜報、監視システムに投入でき、独裁政権が攻撃的なサイバー操作、偽情報キャンペーン、大量監視のためにフロンティアAIを展開できるようにする」とAnthropicのブログは指摘しています。
Anthropicは、セキュリティ上の理由から、中国またはその国の外に所在する中国企業の子会社でのClaudeへの商用アクセスは現在提供していません。
Anthropicが蒸留攻撃とどのように戦っているか
3つの蒸留キャンペーンは異なる目標(例えば、エージェント推論またはコーディング機能の改善)を追求していましたが、すべて類似のプレイブックに従い、不正なアカウントとプロキシサービスを使用して、検出を回避しながら大規模にClaudeにアクセスしていました。
DeepSeek、Moonshot、MiniMaxが使用したプロンプトのボリューム、構造、焦点は通常の使用パターンと異なっており、正当な使用ではなく意図的な機能抽出を反映していると、Anthropicは述べました。
米国を拠点とするGenAI企業は、IPアドレス相関、リクエストメタデータ、インフラストラクチャ指標、業界パートナーからの類似した行動レポートに基づいてキャンペーンを属性付けました。
Claudeを対象とした違法な蒸留攻撃を防ぎ、軽減するために、Anthropicは以下のセキュリティ対策を実装しました。
- APIトラフィックの攻撃パターンを特定する検出システム
- 思考の連鎖の引き出しと調整されたアカウント活動を検出するツール
- 高リスクアカウント(教育、研究、スタートアップ)のためのより強力な検証
- 誤用を減らすための製品、API、モデルレベルのセーフガード
翻訳元: https://www.infosecurity-magazine.com/news/chinese-ai-claude-distillation/