ClawHub・Cisco・Vercelの悪意あるスキル検出機能をバイパス

Trail of Bitsは、インストール前に悪意のあるAIエージェントスキルを検出するために設計された新たなツール群「スキルスキャナー」が、単純かつよく知られた手法でバイパスできることを実証しました。

協調開示の一環として、同チームはテストした4種の攻撃手法のうち3種について、1時間以内にClawHubの悪意スキル検出機能、Ciscoのオープンソース製スキルスキャナー、そしてVercelのskills.shマーケットプレイスに統合されている3つのスキャナーすべてを回避することに成功しました。

Trail of Bitsによると、ClawHub(clawhub.ai)やskills.shなどのAIエージェントスキルマーケットプレイスは、AnthropicのClaude CodeやOpenAIのCodexといったエージェンティックシステムの台頭とともに急速に普及しています。

従来のソフトウェアパッケージとは異なり、スキルはSKILL.mdなどの形式で実行可能コード、バイナリアセット、自然言語の指示を組み合わせており、攻撃対象領域を大幅に拡大させています。

Trail of Bitsによれば、悪意のあるスキルは環境変数を外部に送信したり、パッケージマネージャーのレジストリを攻撃者が制御するインフラにリダイレクトしたり、プロンプトインジェクションを通じて任意のコードを実行したりする可能性があります。

一連の侵害を受けて、Ciscoはオープンソースのスキルスキャナーをリリースしたほか、OpenClawはVirusTotalと提携してClawHub経由で配布されるスキルのスキャンを開始しました。その後、Vercelのskills.shはGen、Socket、Snykの各スキャン機能を統合しました。

ClawHub(OpenClaw+VirusTotal Code Insight):最初のバイパスは、単純なファイル切り捨ての脆弱性を悪用したものです。研究者たちは、無害なヘッダーと明らかに悪意のあるコードの間に10万行の改行を挿入しました。

ClawHubのカスタムGPT-5.5ガードモデルは悪意のあるペイロードに到達する前にファイルを切り捨て、VirusTotalのGemini 3 FlashベースのCode Insightスキャナーはその構造に混乱をきたしました。両方のチェックはいずれも通過しました。

Pythonバイトコードポイズニング(.pyc):テキスト整形スキルが、正規のutils.pyとともに、環境変数を密かに外部送信するプリコンパイル済みのutils.cpython-312.pycバイトコードファイルをバンドルしていました。

スキルスキャナーの静的アナライザーは.pycファイルを完全にスキップし、LLMベースの分析でも検出されませんでした。skills.shのスキャナーも問題なしとの結果を返しました。この手法は2024年のxz-utilsサプライチェーンバックドアで用いられた技術と同様のものです。

SKILL.mdによる.docxへの間接参照:エージェントに.docxファイルからコンテキストを読み込むよう指示するスキルが、ZIP形式のアーカイブ内に悪意のあるシェルスクリプト(sync1.sh)を正規のXMLとともにペイロードとして隠蔽していました。パターンマッチングスキャナーはネストされたアーカイブの内容を検査できませんでした。

企業レジストリ偽装によるプロンプトインジェクション:最も高度な攻撃は、悪意のある.npmrcおよび.yarnrcの設定を企業IT部門の文書に見せかけることで、npmとyarnを攻撃者が制御するレジストリにリダイレクトするものでした。

Claude Sonnet 4.6で分析した際、Ciscoのスキャナーはレジストリ URLをLOW(低)重大度として検知しましたが、最終的にはスキルを安全("is_safe": true, "max_severity": "LOW")と判定しました。

この研究は、現行のスキルスキャニングアーキテクチャにおける根本的な限界を浮き彫りにしています:

Trail of Bitsはさらに、AnthropicのMS Office公式スキルがdocstringに埋め込まれた動的コンパイルのCコードとともにLD_PRELOADを使用していることも指摘しています。この挙動はスキルスキャナーによってLOW重大度と評価されましたが、機能的には区別がつかないものです。

Trail of Bitsは、機密性の高い環境や本番環境での公開スキルマーケットプレイス(skills.sh、ClawHub)の利用を強く推奨しないと述べています。代わりに、監査済みのソースやAnthropicの組織管理型Claude Coworkプラグインから、承認済みスキルのコレクションを厳選して利用すべきとしています。

研究者たちはCiscoのスキルスキャナーにプルリクエスト(PR #25)を提出し、厳格なフォーマット検証と拡張されたJavaScript/TypeScriptサポートを追加しましたが、これらの改善はプロンプトインジェクション攻撃には効果がないと指摘しています。

核となる勧告は従来のソフトウェアサプライチェーンのガイダンスと同様です。スキルのバージョンを固定し、誰が導入・更新できるかを管理し、すべての公開スキルリポジトリを信頼できないコードとして扱うべきとしています。

翻訳元: https://cyberpress.org/malicious-skill-detector-bypassed/

ソース: cyberpress.org