AIエージェントがサイバー攻撃の参入障壁を下げる可能性については、セキュリティ研究者らが以前から警告を発していました。そして今回、OALABS(Open Analysis)の研究チームによる報告書が、その懸念を現実のものとして裏付けています。
攻撃者が侵害済みのサーバ上にAnthropicのClaude CodeとOpenAIのCodexエージェントを展開していたことが判明し、研究者らはそのサーバから1,000件を超えるエージェントセッションを回収・分析しました。その結果、攻撃者がいかに容易にエージェントのガードレールを回避できたか、そして攻撃者自身がいかに少ない知識と手間しか必要としなかったかが明らかになっています。
「多くのケースで、攻撃者は漠然とした低スキルのプロンプトを与えるだけで、あとはClaudeに任せていました。Claudeは公開サービスの調査、脆弱性の特定、エクスプロイトコードの作成、アクセスの検証、そしてデータの収集まで自律的に実行していました」と研究者らは述べています。
「攻撃者は熟練したオペレーターである必要はなく、プロンプトの言い回しさえ適切であれば十分でした。攻撃者が本来持ち合わせていなかった構造的な思考と技術的な実行力を、エージェントが補っていたのです。」
攻撃の全容と攻撃者像
研究者らによれば、これらのセッションが回収できたのは、攻撃者自身のオペレーショナルセキュリティ上のミスによるものです。
攻撃者は自分が完全にコントロールできるインフラ上でAIエージェントを動かすのではなく、別の人物が所有するサーバにコピーして使用していました。そのサーバのオーナーが侵入を発見し、攻撃者の作業ディレクトリ全体をダウンロードして研究者らに提供したことで、今回の分析が実現しました。
「エージェントはホスト上でローカルに動作していたため、攻撃者のプロンプト、使用されたツール、大規模言語モデル(LLM)の内部推論ログ、セッション中に記録されたポリシー違反など、完全なセッションログを回収できました」と研究者らは説明しています。
セッションの分析により、以下の事実が明らかになりました。
- ホストにインストールされていたClaudeエージェントはインストールされたものではなくコピーされたものであり、元々はあるソフトウェア開発者が使用していたものだった
- 攻撃者の作業ディレクトリには、7-Zipフォルダにアーカイブされた別のClaudeインスタンスも含まれており、他者のAIエージェントを乗っ取って再利用することが攻撃者の常套手段だったと考えられる
- 攻撃者は「認可済みのレッドチーム演習」や「サイバーセキュリティ研究」を装うことで、エージェントがハッキング操作の実行を渋る際の制限を大抵回避していた
- 攻撃者はエージェントを使い、標的システム上の攻略可能なサービスを特定し、発見した脆弱性に基づいてカスタムエクスプロイトを構築、それらを標的に実行してデータや認証情報を窃取した
プロンプト履歴を見ると、ほぼすべてのハッキング活動がClaudeエージェントを通じて行われており、攻撃者は「これを偵察しろ」といった曖昧な指示を出し、あとはClaudeが自律的に処理するという手法を好んでいたことがわかります。
「侵入に成功した標的ごとに、Claudeはアクセス手法をまとめた『ペネトレーションテストレポート』を作成しており、さらに重要なこととして、収集したデータの金銭的価値を試算した『収益化』の見積もりも提示していました」と研究者らは報告しています。
「ClaudeとCodexはどちらも、この収益化フェーズで最も多くのポリシー違反ブロックを発動させました。窃取データの収益化が正当なレッドチーム演習の一環ではない可能性が高いと、AIが正確に判断したためです。しかし攻撃者は最終的に、恐喝、アクセス権・データの売却、ビジネスメール詐欺(BEC)、直接的な資金窃取といった推奨戦略のリストを入手しています。」
収集されたセッションには、少なくとも14社への侵害が記録されていました。ただし、攻撃者が実際に窃取データの収益化や資金の直接窃取に成功したかどうかを確認できる情報は、ログ内には残されていませんでした。
攻撃者の未熟さは、オペレーショナルセキュリティの失敗にも如実に表れています。ある時点で攻撃者はClaudeに職務経歴書の編集を依頼しており、そこには氏名、居住地、学歴、LinkedInプロフィールが記載されていました。
また別の場面では、自分のホストが侵害された可能性を調査している最中に、不注意から自宅のIPアドレスをエージェントに伝えてしまっています。これらの情報と他の裏付け証拠をもとに、研究者らは攻撃者がエチオピアのアディスアベバを拠点とする若い男性である可能性が高いと判断しています。
研究と犯罪の境界線——AIには見えにくい一線
1,000件を超えるセッション全体を通じて、Claudeが発したポリシー違反は9件のみ、Codexにいたってはわずか1件でした。しかもほとんどのケースで、攻撃者はリクエストの言い回しを変えるだけで制限を回避できていました。
問題の本質は、今回ガードレールを突破した言い回し(「認可済みのレッドチーム演習」「サイバーセキュリティ研究」)が、日々の業務で何千人もの正規のセキュリティ専門家が実際に使っている表現と同一であるという点です。両者を確実に区別できる方法は、構造的に存在しないかもしれません。
より広範な拒否設定でLLMの機能を制限するというアプローチも、研究者らは得策ではないと考えています。制限を厳しくすることで被害を受けるのは攻撃者ではなく防御側であり、攻撃者はより古い、あるいは制限の緩い非フロンティアモデルに乗り換えるだけで済んでしまうからです。
翻訳元: https://www.helpnetsecurity.com/2026/06/17/ai-agents-offensive-cyber-operations-claude-codex/