OpenAIとAnthropicは今月初め、商用大規模言語モデルの安全性とセキュリティを強化し、悪用や誤用をより困難にするために、米国および英国政府と協力していると発表しました。

両社は金曜日、自社のウェブサイトに掲載したブログで、過去1年ほどの間、米国標準技術研究所(NIST)の米国AI標準イノベーションセンターおよび英国AIセキュリティ研究所の研究者と協力してきたと述べました。

この協力には、政府の研究者に対して両社のモデル、分類器、トレーニングデータへのアクセスを許可することも含まれていました。その目的は、独立した専門家が、悪意のあるハッカーによる外部攻撃に対するモデルの耐性や、合法的または倫理的に問題のある目的で技術を利用しようとする正当なユーザーを阻止する効果を評価できるようにすることでした。

OpenAIのブログでは、これらの研究所との取り組みの詳細が説明されており、ChatGPTのサイバー、化学・生物学、その他国家安全保障に関連する分野での能力が調査されました。このパートナーシップはその後、同社のAIエージェントのレッドチーミングや、OpenAIが外部評価者と協力してセキュリティ脆弱性を発見・修正する新たな方法の模索など、より新しい製品にも拡大されています。

OpenAIはすでに、製品の脆弱性を探す選ばれたレッドチーマーと協力していますが、今回の発表は、同社がAIエージェント向けの別のレッドチーミングプロセスを検討している可能性を示唆しています。

OpenAIによると、NISTとの取り組みから、同社のシステムに影響を与える2つの新しい脆弱性に関する知見が得られました。これらの脆弱性は、「高度な攻撃者が当社のセキュリティ保護を回避し、そのセッションでエージェントがアクセスできるコンピュータシステムをリモートで制御し、ユーザーがログインしていた他のウェブサイトでもユーザーになりすますことができる可能性があった」としています。

当初、OpenAIのエンジニアは既存のセキュリティ対策により、これらの脆弱性は悪用不可能で「無意味」だと考えていました。しかし、研究者は既知のAIハイジャック技術(エージェントの行動を導く基礎となるコンテキストデータを破壊する手法)とこれらの脆弱性を組み合わせる方法を特定し、他のユーザーのエージェントを50%の成功率で乗っ取ることができました。

5月から8月にかけて、OpenAIは英国AIセキュリティ研究所の研究者と協力し、GPT5およびChatGPTエージェントのセーフガードのテストと改善を行いました。この取り組みは、モデルが爆弾や化学・生物兵器の作り方などの手順を提供しないようにするなど、生物学的悪用を防ぐためのレッドチーミングに焦点を当てていました。

同社は、英国政府に対して非公開のセーフガードシステムのプロトタイプや、ガードレールを外したテストモデル、安全性に関する社内ポリシーガイダンス、社内の安全性監視モデル、その他の特注ツールへのアクセスを提供したと述べています。

Anthropicもまた、米英政府の研究者に対し、開発のさまざまな段階でClaude AIシステムへの継続的なテスト・研究のためのアクセスや、ジェイルブレイク脆弱性を発見するための分類器システムへのアクセスを提供したと述べています。

この取り組みでは、Claudeの安全対策を回避するプロンプトインジェクション攻撃がいくつか特定されました。これもまた、モデルが依存するコンテキストを隠れた悪意あるプロンプトで汚染する手法によるものでした。さらに、標準的な検出ツールを回避できる新しいユニバーサルジェイルブレイク手法も発見されました。このジェイルブレイク脆弱性は非常に深刻だったため、Anthropicはパッチを当てるのではなく、セーフガードアーキテクチャ全体の再構築を選択しました。

Anthropicは、この協力を通じて、政府のレッドチーマーにシステムへのより深いアクセスを与えることで、より高度な脆弱性の発見につながる可能性があることを学んだと述べています。

「政府はこの分野に独自の能力をもたらします。特にサイバーセキュリティ、インテリジェンス分析、脅威モデリングなど国家安全保障分野での深い専門知識があり、機械学習の専門知識と組み合わせることで、特定の攻撃ベクトルや防御メカニズムを評価することができます」とAnthropicのブログは述べています。

OpenAIとAnthropicの米英政府との取り組みは、一部のAI安全・セキュリティ専門家が、政策立案者が中国や他の競合国と世界市場で競争するために自国産業に最大限の自由を与えようとする中、これらの政府やAI企業が技術的な安全ガードレールの優先度を下げているのではないかと疑問視する中で行われています。

米国のJD・バンス副大統領は就任後、国際サミットでAI安全性の重要性を軽視し、英国労働党のキア・スターマー首相も、ドナルド・トランプ氏の当選後、選挙公約に掲げていたAI企業への安全規制の実施を撤回したと報じられています。より象徴的な例として、今年初めには米英両政府のAI研究所が「安全性(safety)」という言葉を名称から削除しました。

しかし、これらの協力関係は、こうした取り組みの一部が依然として継続されていることを示しており、すべてのセキュリティ研究者がモデルの安全性が必ずしも悪化していると考えているわけではありません。

サイバーセキュリティとAIシステムを研究するチームの一員であるニューヨーク大学の博士課程学生Md Raz氏は、CyberScoopに対し、商用モデルは新しいリリースごとにジェイルブレイクが難しくなっていると自身の経験から語りました。

「確かにここ数年、GPT4とGPT5の間で…GPT5ではより多くのガードレールが設けられており、GPT5は回答する前に内容を組み立て、時には『それはできません』と返すこともあります。」

他のAIツール、たとえばコーディングモデルなどは、「依頼された内容や、それが悪意あるものかどうかという大局的な視点にあまり注意を払っていない」と彼は付け加え、オープンソースモデルは「言われたことをそのまま実行する可能性が高く」、既存のガードレールもより簡単に回避できると述べました。

翻訳元: https://cyberscoop.com/openai-anthropic-ai-safety-government-research-us-uk/

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です