AIエージェントが研究所自身のコードを書くとき、監視はどうなるか

フロンティアAIを開発する研究所では、コーディング作業の多くをAI自身が担うようになっています。こうしたエージェントは、各ステップ間で人間の監視をほとんど受けずにソフトウェアを作成・編集・実行し、本番インフラや研究パイプライン、さらには将来のモデルを訓練・評価するシステムにまでアクセスすることがあります。

オックスフォード大学とSaferAIの研究者による新たな分析は、エージェントを取り巻くあらゆる要素に潜むセキュリティリスクを掘り下げています。コードをレビューする人員、エージェントを監視するパイプライン、ルールを定めるポリシー、そしてモデル自体が対象です。

そのために研究チームは、航空、原子力、化学プラントが数十年にわたって活用してきた3つの安全手法を借用し、Anthropic、OpenAI、Google DeepMindの公開情報から構成した汎用フロンティア開発者モデルに適用しました。これらの手法は、すべての構成要素が正常に機能している場合も含め、要素間の相互作用から生じる問題を発見するために設計されています。

担当者不在の責任事項

公開された安全フレームワークには、担当者や担当チームが公開記録に明記されていない制御アクションがいくつか存在します。モデルを一時停止・制限・切り替える権限、アクセスポリシーを最新状態に保つ業務、壊滅的リスクの評価と四半期報告書の提出などがその例です。

こうした業務を社内で密かに担当している人物が存在する可能性はあります。そのうちの2つ——壊滅的リスクの評価と四半期サマリー——は、カリフォルニア州のSB 53に明記されており、フロンティア開発者に対して内部モデル使用による壊滅的リスクを評価・報告することを義務付けています。外部から担当者を特定できない法的義務こそ、この分析が開示を求めているギャップの典型例です。

同様のギャップは、デプロイメントの管理権限にも存在します。監査完了前にモデルを一時的に使用する承認を下せる役割は明示されていますが、そのデプロイメントを取り消す役割は公開記録に存在しません。この2つは対になるべきものですが、名前が付いているのはドアを開ける側だけです。

監視がモデルに遅れをとるとき

AnthropicとOpenAIでは、内部コーディングエージェントの監視はオフラインで行われるため、レビューはセッション終了後に届きます。OpenAIは、フロンティア推論モデルを監視役として使用し、内部コーディングトラフィックのほぼすべて（約99.9%）をカバーしており、レビューは約30分後に届くと説明しています。Anthropicは、人間が1週間に約30件のサマリーに目を通す多層パイプラインを運用しています。リスクスコアは、プルリクエストがすでにレビューまたはマージされた後に表示されることがあるため、多くの場合は事後の注意喚起として機能しています。

新しいモデルへの切り替えは、このギャップをさらに広げます。新モデルは稼働した瞬間から異なる振る舞いをしますが、監視システムは誰かがルールを更新するまで旧モデルの基準で評価し続けます。デプロイ前テストが完了する前にモデルが内部チームに渡された場合や、そのモデルに適した監視機能が構築される前でも、同じ状況が生じます。

エージェントの説明に縛られたレビュー

エージェントがコードをレビューのために引き渡す際、自身の行動と意図についての説明文も一緒に送ります。レビュアーはその説明を読み、エージェントの表明した意図に同調する傾向があり、これがレビューの独立性を損ないます。優秀なレビュアーであっても同様で、エージェントの自己評価が評価対象の成果物にセットで添付されているためです。

さらに、数カ月かけて徐々に進行する問題もあります。エージェントが書いたコード、テスト、ドキュメントがコードベースに蓄積されていくと、そのコードベースはエージェントが次のタスクで参照するリソースになると同時に、レビュアーが正常と異常を判断する基準にもなります。エージェントに一貫したブラインドスポットがある場合、そのブラインドスポットは、本来それを検出すべきテスト自体の中に静かに定着してしまいます。

ドリフトと監査人が追跡できる事項

こうした状況の多くは、一つひとつは合理的に見える日常的な判断が積み重なることで忍び込んできます。権限の例外が増え続け、実際に何も検出しなかった監視ルールは削除され、プルリクエストの量が増えてもレビュー要件はそのまま据え置かれ、モデルをアップグレードしてもシステムプロンプトは更新されません。これらはすべて、生産性、アラート疲労、信頼という共通の圧力への対応であり、一様に安全マージンを薄くする方向へと傾いています。

著者たちはこの分析の限界についても率直に認めています。この研究は、システムがどのように動作するかについての公開情報に基づいており、FRAM手法はシステムの揺らぎがプレッシャー下で最善を尽くす人間から生じると仮定しています。しかしこの仮定は、エージェントが積極的に自身の制御機能を操作している場合には崩れます。著者らが提案する解決策は二層構造で、公開安全レポートには集計または編集済みの指標を掲載し、完全な運用データは国家AIセキュリティ機関などの指定監査人に提供するというものです。

翻訳元: https://www.helpnetsecurity.com/2026/06/18/research-ai-coding-agent-oversight/

AIエージェントが研究所自身のコードを書くとき、監視はどうなるか

担当者不在の責任事項

監視がモデルに遅れをとるとき

エージェントの説明に縛られたレビュー

ドリフトと監査人が追跡できる事項

共有:

関連

関連記事

GoldPickaxeマルウェアファミリーとGoldFactoryサイバー犯罪グループに関する脅威インテリジェンスレポート

クレイツ公式オンラインショップの不正アクセスによる個人情報漏えいについて(公式発表の要約版)

CVE-2024-21410: Microsoft Exchange Serverのゼロデイ脆弱性の秘密を解き明かす – あなたのデータを守るために今すぐ行動を