Anthropicによる「Claude AIがサイバー攻撃を自動化した」との主張に疑念

Image

Anthropicは、中国政府支援の脅威グループ「GTG-1002」が、同社のClaude CodeというAIモデルを悪用し、その大部分を自動化したサイバー諜報活動を実行したと報告しています。

しかしAnthropicの主張はすぐさま広範な懐疑を呼び起こし、セキュリティ研究者やAIの実務家たちはこの報告を「でっち上げ」と呼び、このインシデントを誇張していると非難しました。

また、現在のAIシステムが現実的に達成できる範囲を、この報告は誇大に表現していると主張する声も上がりました。

「このAnthropicの件はマーケティング用のたわごとだ。AIは強力なブーストにはなるがスカイネットじゃないし、考えているわけでもない。本当の意味での人工知能でもない(それはマーケティングのために作られた言葉だ)」と、サイバーセキュリティ研究者のDaniel Card氏は投稿しています。

懐疑的な見方の多くは、このキャンペーンに関する侵害の痕跡(IOC)をAnthropicが一切提示していないことに起因しています。さらに、BleepingComputerが攻撃に関する技術的情報を求めたものの、回答は得られませんでした。

攻撃の80〜90%がAIによって自動化されたと主張

批判にもかかわらず、Anthropicはこのインシデントが、AIモデルによって大規模な自律的侵入活動が行われた、初の公開された事例だと主張しています。

Anthropicによれば、同社が2025年9月中旬に妨害したというこの攻撃では、Claude Codeモデルを用いて、大手テック企業、金融機関、化学メーカー、政府機関など30の組織が標的にされました。

同社によると、実際に侵入に成功したケースは少数にとどまったものの、サイバー諜報のワークフローのほぼすべてのフェーズをAIが自律的に実行したとされ、この規模では初めての作戦として強調されています。

「この攻撃者は、我々の知る限り、サイバー攻撃が大規模に、かつ人間の介入ほぼなしで実行された、初の記録された事例を達成しました。AIは自律的に脆弱性を発見し…実際のオペレーションでそれを悪用し、その後、侵害後の幅広い活動を行いました」とAnthropicはレポートで説明しています。

「特筆すべきは、これはエージェント的AIが、主要テクノロジー企業や政府機関を含む、情報収集上の高価値ターゲットへのアクセスを実際に獲得した、初の記録された事例であるという点です。」

Image
攻撃アーキテクチャ
出典: Anthropic

Anthropicによると、中国人ハッカーらは、Claudeに単に助言させたり、過去の事例で見られたように攻撃フレームワークの断片を生成させたりするのではなく、自律的なサイバー侵入エージェントとして振る舞うよう操作するフレームワークを構築したとのことです。

このシステムは、標準的なペネトレーションテスト用ツールとモデル・コンテキスト・プロトコル(MCP)ベースのインフラと組み合わせてClaudeを利用し、多くのタスクを人間の直接的な監視なしに、スキャン、悪用、情報抽出まで行いました。

人間のオペレーターが介入したのは、権限昇格の承認や、流出させるデータの確認といった重要な局面のみであり、Anthropicはこれが全体の運用負荷のわずか10〜20%に過ぎないと見積もっています。

この攻撃は、以下のように要約される6つの明確なフェーズで実行されました。

  • フェーズ1 – 人間のオペレーターが高価値ターゲットを選定し、ロールプレイ戦術を用いて、Claudeに対し、正当なサイバーセキュリティ業務を行っていると信じ込ませることで、組み込みの安全制限を回避した。
  • フェーズ2 – Claudeが自律的に複数のターゲットにわたるネットワークインフラをスキャンし、サービスを特定し、認証メカニズムを分析し、脆弱なエンドポイントを洗い出した。Claudeは個別のオペレーションコンテキストを維持し、人間の監視なしで並行的な攻撃を可能にした。
  • フェーズ3 – AIがターゲットに合わせたペイロードを生成し、リモートテストを実施して脆弱性を検証した。人間は、実際の悪用へのエスカレーションを承認する場合にのみ介入し、それ以外はAIが詳細なレポートを作成した。
  • フェーズ4 – Claudeがシステム構成から認証データを抽出し、認証情報へのアクセスをテストし、内部システムをマッピングした。AIは自律的に内部ネットワークを移動し、API、データベース、サービスにアクセスし、人間は最も機微な侵入のみを承認した。
  • フェーズ5 – Claudeは取得したアクセス権を利用してデータベースをクエリし、機密データを抽出し、そのインテリジェンス価値を評価した。AIは結果を分類し、永続的なバックドアを作成し、要約レポートを生成し、最終的なデータ流出についてのみ人間の承認を必要とした。
  • フェーズ6 – キャンペーン全体を通じて、Claudeは発見した資産、認証情報、悪用手法、抽出データなど、各ステップを構造化された形式で記録した。これにより、脅威アクターチーム間でのシームレスな引き継ぎが可能となり、侵害環境での長期的な潜伏を支援した。
Phases of the attack
攻撃の各フェーズ
出典: Anthropic

Anthropicはさらに、このキャンペーンがカスタムマルウェアよりもオープンソースツールに大きく依存していたと説明しており、AIが市販・公開されている既製ツールを活用して効果的な攻撃を実行できることを示しているとしています。

しかしClaudeも完璧ではなく、一部のケースでは、望ましくない「幻覚」を生み出し、結果を捏造したり、発見内容を誇張したりすることがありました。

この悪用に対応するため、Anthropicは問題のアカウントを停止し、検知能力を強化するとともに、AI駆動の侵入に対する新たな検知手法の開発を支援するため、パートナーとインテリジェンスを共有しました。

翻訳元: https://www.bleepingcomputer.com/news/security/anthropic-claims-of-claude-ai-automated-cyberattacks-met-with-doubt/

ソース: bleepingcomputer.com