シスコ、AIモデルの系統を検証するためのオープンソースツールキットをリリース

Hugging Faceおよびその他のオープンリポジトリからモデルを取得する企業は、ダウンロード後にそれらのモデルがどのように変更されたかについてのレコードをめったに保持していないため、本番環境で実行しているものを確認する能力がほぼありません。シスコのAI Security 2026 Stateでは、このレベルのアクセスをコアビジネスシステムに直接接続するAI駆動オペレーションの増加するパターンの中に位置付けており、AIサプライチェーンの露出を繰り返される危険要因として識別しています。

シスコは、Model Provenance Kitをリリースしました。これは、アーキテクチャメタデータ、トークナイザー構造、および学習された重みそのものを調査することで、2つのトランスフォーマーモデルが共通の起源を共有しているかどうかを判定するオープンソースPythonツールキットおよびコマンドラインインターフェイスです。

モデルの系統の検証が困難になった理由

Hugging Faceは200万を超えるモデルをホストしています。オープンリポジトリのドキュメンテーションは改ざんされる可能性があり、メタデータは削除または編集される可能性があり、モデルがゼロから訓練されたと主張するモデルカードは、別のモデルの変更されたコピーを説明している可能性があります。多くのリポジトリは、モデルの起源、訓練データ、または変更履歴に関して限定的な暗号学的保証しか提供していません。また、外部モデルの未認可の使用は、ソフトウェアサプライチェーンを従来のパッケージマネージャーを超えて拡大しています。最近の製品リリースは関連する層を示しています。CursorのComposer 2はKimi 2.5に部分的に基づいていました。これは中国のスタートアップによって開発されており、同様の依存関係が業界の大部分を通じて実行されています。

モダンモデルファミリーは、同一のアーキテクチャを共有しているため、検証の問題を複雑にしています。Meta、Alibaba、DeepSeek、およびMistralのモデルは、グループ化クエリアテンション、回転位置埋め込み、およびRoot Mean Square正規化を含む同じ構成要素を使用しています。構成ファイルはアーキテクチャを記述していますが、重みが別のモデルからコピーされたのか、独立して訓練されたのかについては何も述べていません。

系統に関する情報がないと、組織は、チャットボット、エージェントアプリケーション、および顧客向けツールに継承された欠陥を伝播する可能性のある、中毒または脆弱なモデルへの可視性が限定されます。系統は規制上の露出にも影響を与えます。欧州連合はAI Actで、訓練データ、訓練方法論の特性、および高リスクシステムのリスク評価のドキュメンテーションを要求しています。NIST AI Risk Management Frameworkは、サードパーティのAIコンポーネントリスクをガバナンス領域として識別しています。AIコンポーネントはサプライチェーン全体で絶えず変化する一方、既存のセキュリティ制御は静的資産を想定しており、下流のコンプライアンスを複雑にする盲点を作成しています。

一部のオープンウェイトモデルは制限的なライセンスを持っており、輸出規制の対象となる管轄区域で訓練されたモデルの派生物であることが判明したモデルは、追加の法的考慮事項をもたらす可能性があります。モデルの系統が不明な場合、インシデント対応も影響を受けます。対応者は、問題がモデル、関連モデル、親、またはファインチューニングステップに由来するかどうかを判定することができないためです。

Model Provenance Kitのコマンドラインインターフェイス（出典：Cisco）

キットの仕組み

Model Provenance Kitは2つのステージで動作します。ステージ1は、重みが読み込まれる前に、モデル構成と構造メタデータを比較するアーキテクチャスクリーニングを実行します。同一のアーキテクチャ仕様を共有するペアは、このステージで関連として分類され、ケースの大部分が解決されます。

メタデータが曖昧な場合、パイプラインはステージ2に進み、モデルの重みから5つの相補的なシグナルを抽出します：

Embedding Anchor Similarity（EAS）は、トークン埋め込み間の幾何学的関係を比較します。これは訓練の実行に固有で、ファインチューニングを経ても残存する構造です。
Embedding Norm Distribution（END）は、埋め込み大きさの分布を分析します。これは訓練からの単語頻度パターンを符号化しています。
Norm Layer Fingerprint（NLF）は、小さな正規化層を読みます。これはファインチューニングを経ても安定したままです。
Layer Energy Profile（LEP）は、ネットワークの深さ全体にわたる正規化されたエネルギー曲線分布を比較します。異なる訓練の実行は、アーキテクチャが同一である場合でも、異なるエネルギー分布を生成します。
Weight-Value Cosine（WVC）は、対応する層のサブサンプル間の重み値を直接比較します。独立して訓練されたモデルは、ここでは本質的にゼロ相関を示します。

シグナルは、経験的にキャリブレーションされた重みを使用して、単一のアイデンティティスコアに結合されます。モデルが異なるレイヤー数を持つ場合など、シグナルを計算できない場合、除外され、残りのシグナルがそれを補います。

語彙重複分析とトークナイザー機能ベクトルを含むトークナイザーシグナルは、診断目的で計算され、系統スコアから除外されます。多くの独立して訓練されたモデルはトークナイザーを共有しています。StableLMとPythiaの両方がGPT-NeOxトークナイザーを使用しており、重みの系統がないにもかかわらず同様にスコアされ、トークナイザーシグナルが最終スコアに影響を与えた場合に偽陽性を生成するでしょう。

キットは2つのモードで出荷されます。比較モードは、Hugging Faceまたはローカルチェックポイントから取得された任意の2つのモデルの詳細な類似性の内訳を生成します。スキャンモードは、単一のモデルを既知のフィンガープリントのデータベースと照合して、系統候補を浮き彫りにし、系統を検索問題として扱います。シスコは、45のファミリーと20のパブリッシャー全体で、約150のベースモデルをカバーする初期フィンガープリントデータベースをリリースしました。このデータベースは、1億3500万から700億を超えるパラメータまでです。

ベンチマーク結果

シスコは、55の類似ペアと56の相異なるペアで構成される111ペアのベンチマークに対して、キットを評価しました。ベンチマークには、積極的な蒸留、形式全体の量子化、組織間のファインチューニング、LoRAマージ、語彙拡張を伴う継続的な事前訓練、同じトークナイザーのトラップ、および一般的なアーキテクチャの独立した再現が含まれていました。0～1スケールで0.70の閾値で、キットはF1スコア0.963、精度96.4％、精密度98.1％、および再現率94.6％を記録しました。

キットは、ファインチューニング、量子化、および100％再現率の整合などの標準的な派生を識別し、100％再現率で組織間派生と照合しました。同じトークナイザーのトラップは100％特異性で処理され、open_llamaとLlama-2などの独立した再現は、関連がないとして正しく識別されました。

111ペアのうち4つが誤って分類されました。それぞれが、12層のモデルを768個の隠れた次元から4層に蒸留する場合など、極端なアーキテクチャ変換を伴っていました。隠れた次元を半分にして、ドメイン固有の継続的な事前訓練のために語彙を再構築するか、いずれかが関係していました。シスコは、これらをペアワイズ重み比較の基本的な限界として説明しています。

デプロイ

パイプラインはCPU上で実行され、モデルサイズでスケールします。アーキテクチャマッチはミリ秒で解決され、抽出された機能は比較全体で再利用のためにキャッシュされます。キットは、ダウンロード可能な重みを持つ任意のトランスフォーマーモデルで機能します。

リポジトリはGitHub上にあり、フィンガープリントデータセットはHugging Face上にあります。

翻訳元: https://www.helpnetsecurity.com/2026/04/30/cisco-ai-model-provenance-kit/

シスコ、AIモデルの系統を検証するためのオープンソースツールキットをリリース

モデルの系統の検証が困難になった理由

キットの仕組み

ベンチマーク結果

デプロイ

共有:

関連

関連記事

詐欺師がFaceTimeを悪用し銀行口座を狙う

Claudeが1Passwordと連携し、認証情報を露出させずにウェブサイトへログイン可能に

ランサムウェア攻撃でコカ・コーラ「フェアライフ」の米国工場が牛乳生産停止