Anthropicは木曜日、これまで知られていなかった中国の国家支援ハッカーグループが、同社のClaude AI生成AI製品を使って少なくとも30の異なる組織に侵入したとする研究を発表し、話題となりました。
Anthropicの報告書によると、この脅威アクターは2つの方法でClaudeのセキュリティガードレールを回避することができました。1つは作業を個別のタスクに分割して、ソフトウェアが広範な悪意のある意図を認識できないようにする方法、もう1つはモデルを騙して正当なセキュリティ監査を行っていると信じ込ませる方法です。
Anthropicの脅威インテリジェンスチームを率いるJacob Klein氏はCyberScoopに対し、同社は過去1年間でClaudeを悪用する新しい手法を目撃してきたと語りました。3月には、脅威アクターがチャットボットとのやりとりをコピー&ペーストしてマルウェアやフィッシングの誘い文句を作成しようとしていました。同社のコード開発ツールClaude Codeがリリースされると、悪意のある利用者がこれを使ってスクリプトやコードをより迅速に生成し、作戦を構築しているのが確認されました。
「そして[この作戦]が9月にありましたが、今回のケースで見られるのは、私にとってこれまでで最も自律的な悪用だと思います」とKlein氏は述べました。
しかし、Klein氏は「最も自律的」というのは相対的な表現であることも明確にしました。このハッカーグループがClaudeの利用方法に多大な人的・技術的リソースを投入していた証拠が多数あります。
具体的には、Anthropicの報告書で詳細に述べられているClaudeによる自動化は、作戦を調整・支援するために設計されたフロントエンドフレームワークによって可能になっていました。このフレームワークはスクリプト作成、関連サーバーのプロビジョニング、大規模なバックエンド開発などのタスクを処理し、すべての手順が正しく実行されるようにしていました。Klein氏は、この開発プロセスが最も困難であり、重要なのは人間主導であった点だと指摘しました。
「自律的でない最初の部分はフレームワークの構築です。これをまとめるには人間が必要でした」とKlein氏は述べました。「人間のオペレーターがターゲットを入力し、ボタンをクリックして、事前に作成されたこのフレームワークを使うのです。このシステム全体で最も難しかったのはこのフレームワークの構築であり、それが最も人手を要した部分です。」
さらに、ターゲットの偵察や脆弱性のスキャン、その他のタスクを実行するために、ClaudeはModel Context Protocol(MCP)サーバーを介して一連のオープンソースツールを呼び出していました。これによりAIモデルが外部のデジタルツールと安全に連携できます。これらの接続を設定するには、コーディングの専門知識、高度な計画、人間による技術的作業が必要であり、相互運用性が確保されていました。
最後に、Claudeの作業は常に人間による検証とレビューの対象となっていました。攻撃チェーンの図解では、少なくとも4つの異なるステップで、人間がClaudeの出力を確認したり、追加のステップを実行する前にモデルに再度作業を指示したりすることが明示されています。
これは、Claudeがこれらのタスクを自律的に実行できたとしても、出力のレビュー、結果の検証、バックエンドシステムの動作確認、次のステップの指示などに人間の監督が必要だったことを示唆しています。
Anthropicの報告書は、すべてのAI生成リサーチに共通する欠陥を強調しています。Claudeのようなモデルは頻繁に幻覚を見たり、資格情報を捏造したり、発見を誇張したり、公開情報を重大な発見として提示したりします。このため、AI生成リサーチの利用は困難であり、脅威アクターも含めて、どの段階でも技術的な人間の専門家が結果をレビュー・修正しない限り、出力を信頼する確実な方法はありません。
例えば、脆弱性スキャンの場合、「最初のステップはClaudeが『このターゲットに関連する資産はこれです』と返してきて、それを人間に送ることです」とKlein氏は述べました。「だからClaudeは次のステップ、つまりペネトレーションテストの段階にはまだ進まず、人間がレビューするまで待ちます。」
これだけ人間が介入しているにもかかわらず、Klein氏は同社が発見したことについて本気で懸念しています。
「ここで起きているのは、人間のオペレーターが自分自身の能力をかなり大幅にスケールアップできているということだと思います」とKlein氏は述べました。「この種の作業を行うには約10人のチームが必要だったと思われますが、それでも人間のオペレーターは必要です。だからこそ、完全自動でも完全エージェントでもないと言ったのです。」
なぜこのキャンペーンが中国と関係していると考えるのかについて、Klein氏は、過去の中国国家支援アクターとのインフラや行動の重複、「中国国家安全省の目標と一致する」ターゲット選定など、複数の要素を挙げました。
他にも、中国との関連を示唆する小さな状況証拠があります。使用ログによれば、このグループは「標準的な官僚のように午前9時から午後6時まで」活動しており、週末は働かず、作戦の最中に中国の祝日に活動が見られなかった時期もありました。
しかし、これらが唯一の証拠ではなく、Klein氏は中国を示唆するすべての情報を明かすことはできないと述べました。
AIとセキュリティ専門家の意見は分かれる
AIがサイバースパイ活動をどのように強化しているかについての研究は多くありませんが、大規模言語モデルがサイバーセキュリティ特化タスクでプロンプトされた場合、過去1年で進化していることを示す証拠は十分にあります。今年初め、スタートアップXBOWのAI脆弱性スキャン・パッチツールが、HackerOneなどのバグバウンティ企業のリーダーボードでトップに立ちました。
攻撃側でも、今年初めにNYUの研究者が、Anthropicが発見したキャンペーンで使われたものと似たフレームワークを開発し、公開されているChatGPTのバージョンを使ってランサムウェア攻撃の大部分を自動化しました。Anthropicの報告書は、同様のプロセスが国家によって成功した攻撃に使われたことが公に知られた初めての事例と考えられています。
こうした進展にもかかわらず、このキャンペーンとAnthropicの報告書はAIおよびサイバーセキュリティ界隈で波紋を呼んでおり、AIを活用したハッキングへの懸念を裏付けるとする声もあれば、報告書の結論が現在のサイバースパイ活動の実態を誤解させるものだとする批判もあります。
英国のサイバーセキュリティ研究者Kevin Beaumont氏は、Anthropicの報告書が透明性に欠け、既存ツールで実現可能な行為を記述しているだけで、外部検証の余地がほとんどないと批判しました。
「この報告書には侵害の指標がなく、記載されている手法はすべて既存の検知がある市販のものです」とBeaumont氏は金曜日にLinkedInで書きました。「実用的なインテリジェンスという観点では、報告書には何もありません。」
Klein氏はCyberScoopに対し、Anthropicは侵害の指標を技術企業や研究機関、情報共有契約を結んでいる他の団体と共有していると述べました。
「プライベートなサークル内では共有していますが、一般公開したい内容ではありませんでした」と彼は述べました。
他の観測筋は、Anthropicの発見がAIサイバーセキュリティ応用における重要なマイルストーンであると主張しました。
サイバーセキュリティ・インフラストラクチャーセキュリティ庁(CISA)の元長官Jen Easterly氏も、透明性に関するセキュリティコミュニティの懸念に同調しつつ、攻撃の開示を行ったAnthropicを評価しました。
「どのタスクが本当にAIによって加速されたのか、標準的なツールでもできたのか、まだ分かっていません」とEasterly氏は金曜日にLinkedInで書きました。「エージェントチェーンがどう動作したのか、モデルがどこで幻覚を見たのか、人間がどのくらい介入したのか、出力がどれほど信頼できたのかも分かりません。より具体的な情報(プロンプト、コードサンプル、失敗例、摩擦点)がなければ、防御側が学び、適応し、次に何が来るかを予測するのは明らかに難しくなります。」
CiscoのAI防御チームのAI研究者Tiffany Saade氏は、Anthropicの報告書から、Claudeのようなツールを使うことで攻撃者にスピードとスケールの利点があることは明らかだとCyberScoopに語りました。
「問題は、それだけで十分か?」と彼女は問いかけました。ハッカーが他の自動化手法よりLLMを使う動機となるのか、その制約にどう対処するのか。「エージェントも攻撃の高度化に傾くのか、どんな高度化なのか?」
Saade氏は、Anthropicが説明した作戦のいくつかの側面は、純粋なスパイ活動を目的とした中国グループには当てはまらないと指摘しました。彼女は、ハッカーが自国のプライベートモデルを利用できるのに、米国の主要AIモデルを自動化に使ったのは奇妙だと述べました。さらに、AnthropicやOpenAIのような企業は、オープンソースモデルよりもはるかに強力なサイバーセキュリティと脅威インテリジェンスリソースを持っているため、彼らのプラットフォームで悪意のある活動があれば検知される可能性が高いとしています。
「こうなることは分かっていましたが、私が驚いたのは…もし私が中国の国家支援アクターで、エージェント機能を持つAIモデルで自律的なハッキングをしたいなら、たぶんClaudeを使わないでしょう」とSaade氏は述べました。「おそらく自前で何かを作るでしょう。だから彼らは見られたかったのです。」
Saade氏は、ハッキングのもう一つの潜在的動機として、ワシントンD.C.への地政学的メッセージ、すなわち「北京のハッカーは皆が恐れていることを正確に実行できる」というアピールの可能性を挙げました。
「通常の目的は『ステルス性を保ち、持続性を維持したい』というものです。…これは破壊工作ですらなく、メッセージを送ることです。仮説が検証された、ということです」とSaade氏は述べました。「彼らはその騒ぎ、速報、『Anthropicが報告』という見出しを望んでいるのです。彼らはその可視性を求めており、そこには理由があります。」
翻訳元: https://cyberscoop.com/anthropic-ai-orchestrated-attack-required-many-human-hands/