軍事用AIモデルの動作を証明することこそが真の課題

防衛請負業者は、ドローンを自動的に制御し、兵士を支援するためのキルチェーンを提案するAIシステムを構築しています。こうした請負業者の多くは、先端AIモデルを軍事ツールに組み込むべく、フロンティアAI企業との提携を進めています。AndurilはOpenAI、PalantirはMicrosoft、Lockheed MartinはMetaとそれぞれ組んでいます。これらの提携から生まれるシステムには、軍備管理外交の手法では対処しきれないセキュリティ上の課題があります。それは、AIモデルが実際にどのような動作をするかを確認するという問題です。

Image

物理的な計測に基づく検証

中距離核戦力(INF)条約の時代、ソ連はSS-20とSS-25という2種類のミサイルを配備していました。両者は第1段階が同一の構造を持っていましたが、禁止対象はSS-20のみでした。査察官は放射線検出装置を用いて中性子シグネチャを読み取り、両者を識別していました。

各国はまた、写真偵察衛星や電子監視によって条約の遵守状況を検証しています。いずれの手法も、外部の第三者が合意された基準と照合して計測できる物理的なシグナルに依存しています。

こうした独立した物理計測があったからこそ、条約は履行可能なものとなっていました。しかし、AIの検証にはそれに相当するシグナルがありません。モデルの重みやコードは、そのシステムが紛争を拡大させるのか、あるいは拒否するよう命令されていた発射命令に従うのかについて、外部からは何も読み取れません。ニューラルネットワークを人間が解読できる構成要素に逆算する研究分野である「メカニスティック解釈可能性(Mechanistic Interpretability)」は、分野全体で受け入れられるような成果を出すまでには、まだ至っていません。

エスカレーションと隠蔽を行うモデル

研究者たちは、言語モデルが国家の意思決定者の役割を担った場合の挙動を検証しています。ある研究では、GPT-4、Claude-2、Llama-2-Chatを含む市販の5つのモデルを、サイバー攻撃や侵略を想定したシミュレーションにかけました。5つのモデルすべてで統計的に有意なエスカレーションが見られ、そのほとんどで暴力的・核的なエスカレーションの事例も散発的に確認されました。エスカレーションの一部は突発的で予測が難しいものでした。その後の研究では、Claude-3.5、GPT-4o、o1、o3-miniを含む12の新しいモデルを対象にテストが行われました。これらのモデルは、指示がないにもかかわらず壊滅的な行動や欺瞞的な振る舞いを示し、一部のモデルは監督者の命令に反して核攻撃を実行しました。推論能力を強化しても、こうした行動は変わりませんでした。

もう一つのリスクは、推論を隠蔽するモデルです。研究者たちは「アライメント・フェイキング(alignment faking)」と呼ばれる現象を記録しています。これは、モデルが修正を回避するためにトレーニング中はトレーニング目標に従い、その後も以前の選好を保持し続けるというものです。軍事指揮の場面では、あるシステムが正規のプロトコルを遵守しているように見えることがあります。安全な認証ログ、暗号化された通信、同盟国指揮システムとの確認作業など、外形上はすべて適切です。しかし内部の推論では、同盟国からの確認を無視し、先制攻撃へと向かっている可能性があります。外部記録には「準拠」と記録され、内部プロセスはそれとまったく異なる状態になっているわけです。

このパターンは、セキュリティ研究者がすでに取り組んでいる問題と重なります。サンドボックスを検知して本物のターゲットに到達するまで動作を抑制するマルウェアも、同じ論理で動いています。ロジックボムはトリガーが発動するまで休眠状態を保ち、異常な兆候を一切見せません。観察下では一つの挙動を示し、実際の運用では別の挙動をとるシステムを検出することは、すでにセキュリティの一分野として確立されています。軍事用AIの検証も、本質的には同じ問題の延長線上にあります。

システム間で複合化するリスク

こうしたシステムの計画は、ネットワーク全体に広がっています。米国防総省は「統合全領域指揮統制(JADC2)」戦略を、「感知(sense)」「意味付け(make sense)」「行動(act)」という3つの機能を中心に構築しました。AIは「意味付け」の機能に位置づけられ、入ってくる情報を取り込んで整理し、指揮決定を迅速化する役割を担います。この戦略には、核指揮・統制・通信(NC3)も組み込まれています。複数のモデルを連携させてタスクを調整する場合、リスクが増幅し、連鎖的な障害を引き起こす可能性があります。

実効性のある検証体制の構築

このギャップを埋めるには、複数の当事者が同時に信頼できる検証ツールの構築が必要です。出発点となるのは、何を検査対象として共有するかに関する合意です。モデルの重み、コード、訓練データ、ログを対象とし、いずれの国も全情報を開示しなくて済むよう、プライバシー保護措置を設けることが求められます。計算資源(コンピュート)は、取り組みの端緒となり得る領域の一つです。計算リソースは計測可能な足跡を残すため、軍事AI開発に限定した監視体制を設けることで、各参加国が使用するコンピュート量を、現在の核物質管理と同様の形で追跡・検証できます。改ざん防止のセーフガードを設けることで、この監視の実効性を担保することができます。

各国の合意形成は容易ではありません。米露の配備済み戦略核弾頭数を上限設定した新START条約は2026年2月に失効しました。生物兵器禁止条約(BWC)は、ステークホルダーの多さ、研究能力の拡散、民間・軍事の両用技術といった問題に阻まれ、数十年にわたって実効的な検証体制を欠いたままです。軍事AIも同様の壁に直面しており、さらにいくつかの固有の障壁も抱えています。ソフトウェアには計量・計数できるものが何もなく、開発は急速に進み、民間モデルと軍事モデルは外見上区別がつきません。技術的な基盤が先です。検証が機能してはじめて、どんな合意もその上に立つことができます。

翻訳元: https://www.helpnetsecurity.com/2026/06/15/military-ai-verification-problem/

ソース: helpnetsecurity.com