中国企業がこの1カ月の間に相次いで新型AIモデルを発表し、脆弱性発見における同国の能力の限界を押し広げたことで、一部のサイバーセキュリティ専門家の間で懸念が広がっています。
6月13日、中国企業のZhipu AIはオープンウェイトモデル「GLM 5.2」を発表しました。その後実施されたテストでは、一部のバグ発見ベンチマークにおいてAnthropicの「Opus」やOpenAIの「GPT-5.5」を上回る性能を示し、しかも脆弱性1件を発見するコストはわずか0.17ドルにとどまることが判明しました。その2週間後には、別の企業である360セキュリティテクノロジーが、フロンティアモデルをベースとしたセキュリティツール「Tulongfeng(別名「Dragon Saber」)」を発表しました。同社の創業者はこれを中国版「Mythos」と称しており、ロイター通信の報道によれば、すでに3,400件を超える脆弱性を発見済みだと主張しています。
脆弱性発見プロセスを支えるソフトウェアが決定的な違いを生む一方で、オープンウェイトモデルがベンチマークでこれほど高い性能を示した事実は、防御側ができるだけ早くセキュリティ上の負債を解消する必要性を浮き彫りにしていると、元米国家サイバー長官でランサムウェア対策企業Halcyonの戦略アドバイザーを務めるクリス・イングリス氏は指摘します。
「コモディティ化したモデルは今や防御側を軽々と出し抜くことができます。だからこそ防御側は自らのアーキテクチャを正確に把握し、そのアーキテクチャ内の弱点に優先順位を付け、迅速かつ徹底的に優先順位の高いものからパッチを当て、設定を修正していく必要があります」と同氏は語ります。「それは可能だと思います。……私たちが自らを救う手立てを失ったわけではないと考えています」
AIシステムは脆弱性の発見能力を高め続けており、攻撃者もこうした能力を攻撃力の向上にますます活用するようになっています。4月には、Cloud Security Allianceが、とりわけ「Mythos」をはじめとするフロンティアモデルの登場について、「AI脆弱性の嵐」を引き起こしかねないと警告しました。5月には、Googleが攻撃者によって使用された初のAI生成エクスプロイトを検知したことを明らかにしています。一部の研究者は、月次パッチ公開時のわずかな詳細情報ですら脆弱性の迅速な悪用につながりかねないと警鐘を鳴らしており、現在、悪用までの平均時間は3時間にまで短縮されているとされています。
AIサイバーセキュリティプラットフォームDarktraceでセキュリティ・AI戦略担当バイスプレジデントを務めるマーガレット・カニンガム氏によれば、中国製モデルは性能が優れているだけでなく、コストパフォーマンスの面でも優秀だといいます。
「優れたモデルほど信頼性が高い傾向にありますが、その信頼性はコスト、アクセスのしやすさ、速度、導入のしやすさとのバランスで評価する必要があります」と同氏は語ります。「実際のところ、攻撃者も防御側も、経済合理性に基づいて判断を下しているのです」。さらに同氏は、モデルはその利用を正当化できるだけの性能があれば十分だと付け加えました。
重要な点で追いついた中国
防御側・攻撃側の双方にとって、GLM 5.2のような一部の中国製モデルがオープンウェイト、すなわちローカルのハードウェアにインストール可能である点は大きな意味を持ちます。これは防御側にとっては導入の強い動機となる一方、攻撃者にとっては、攻撃的利用を妨げるアライメントを回避する実験を行うことを可能にします。さらに、自社ネットワーク内にデータを留めておく必要がある企業にとっては、高性能なオープンウェイトモデルの方がフロンティアモデルより有利だと、モノのインターネット(IoT)向け自動サイバー衛生管理サービスを提供するViakooのバイスプレジデント、ジョン・ギャラガー氏は指摘します。
「中国製モデルはダウンロードして自社のハードウェア上で動かせるよう設計されており、低コスト化とカスタマイズ性を重視して最適化されています」と同氏は述べます。「現時点では、OT(制御技術)や重要インフラの分野において、中国式のアプローチには防御側にとっての利点があります。というのも、米国の主要モデルの多くはクラウドAPIの利用を前提としているため、データ主権やデータ漏洩のリスクが生じるからです」
とはいえ、多くの点で、大規模言語モデル(LLM)や、GLM 5.2が採用するMixture of Experts(MoE)方式のような他のAIアーキテクチャは、この方程式の中でもはや最も重要度の低い要素になりつつあります。現代のAIシステムは、とりわけ適切な「ハーネス」(それを支えるソフトウェア)と組み合わせることで、多くの企業が自社環境で抱えるセキュリティ負債の3つのカテゴリーのうち2つ、すなわち「既知だが未パッチの脆弱性」と「未知だが容易に発見できる脆弱性」を見つけ出すのに十分な性能を備えるようになっているとイングリス氏は述べます。
「実際のところ、フロンティアモデルであろうと後発モデルであろうと関係ありません。私たちはどちらにでもいいように出し抜かれてしまう可能性があります」と同氏は語ります。「ですから私は、攻撃側の能力よりも防御側の状況の方をむしろ懸念しています。なぜなら、今やこうしたモデルのどれもが、大半の防御体制を軽々と出し抜くことができるからです」
フロンティアAIモデルが必要とされるのは、3つ目のカテゴリー、すなわち複雑な脆弱性や高度な攻撃連鎖を利用したゼロデイエクスプロイトを見つけ出す場合に限られると同氏は付け加えます。
重要なのはモデルそのものより「統合」
サイバーセキュリティ企業Semgrepが実施したテストでは、GLM 5.2が標準的なモデルの中で最も高い性能を示し、F1スコアは39%に達しました。これはLLMをはじめとする機械学習システムにおいて、真陽性・真陰性を測定する際によく用いられる指標です。
このモデルを開発したのが中国企業であるという事実そのものよりも、それが広く利用可能であるという事実の方が重要だと、Darktraceのカニンガム氏は述べます。
「モデルの開発元が米国であるか中国であるか、あるいはその他の国であるかということよりも、セキュリティチームがAIを自社の運用に意味のある形で組み込めるかどうかの方が重要であることが多いのです」と同氏は語ります。「多くの組織には、可視性、ワークフロー、ガバナンス、意思決定の面でまだやるべきことが残されています。こうした要素こそが、主要モデル間のわずかな性能差よりもはるかに大きく、防御効果を左右することになるでしょう」
翻訳元: https://www.darkreading.com/cyber-risk/chinese-llms-broaden-gap-between-attackers-and-defenders