英国、1,500万ポンドのAIアライメントプロジェクトを主導

英国のAIセキュリティ研究所は、国際的なパートナーと協力し、AIアライメントの研究に焦点を当てた1,500万ポンド規模のプロジェクトを主導します。

このアライメントプロジェクトには、カナダAIセーフティ研究所、カナダ先端研究機構（CIFAR）、シュミット・サイエンス、アマゾンウェブサービス、Anthropic、Halcyon Futures、Safe AI Fund、英国リサーチ＆イノベーション、先端研究発明庁（ARIA）も参加します。

このプロジェクトは、AIシステムが常に意図した通りに動作することを保証するための新たな取り組みを先導します。AIシステムがますます高度かつ自律的になる中、この分野の重要性は増しています。

アライメントの欠如とは、広く言えば、AIシステムが開発者の目標、方針、要件に反して動作することを指します。これは意図的な場合（例：攻撃者がAIシステムを悪用して標的を攻撃する）もあれば、意図しない場合（適切なAIガードレールが設けられていないために発生する）もあります。

トレンドマイクロによると、アライメントの欠如の例には以下が含まれます：

モデルポイズニング：攻撃者がLLMの学習データを注入または操作し、バイアスのかかった出力や誤った判断、時にはバックドアの挿入を引き起こす
プロンプトインジェクション：脅威者がLLMの組み込みガードレールを回避する悪意のあるプロンプトを作成し、システムの脱獄を実現する
偶発的な情報漏えい：設計の不十分なAIシステムが、ユーザーに対して特権情報へ誤ってアクセス・共有してしまう
暴走するリソース消費：リソース消費が適切に制限されていない場合、AIコンポーネントが自己複製的にサブプロブレムに取り組み、システムのDoS（サービス拒否）を引き起こす可能性がある

科学・技術・イノベーション担当大臣のピーター・カイル氏は、高度なAIシステムがすでに一部の分野で人間を上回っており、このプロジェクトの緊急性がこれまで以上に高まっていると述べています。

「AIアライメントは、システムが私たちの望む通りに動作し、常に私たちの最善の利益のために行動することを目指しています。これは研究所が設立当初から主導してきた活動の中心であり、国家の安全保障を守り、AIがより高度化する中で英国民を最も深刻なリスクから守ることにつながります」と彼は付け加えました。

「AIの責任ある開発には、世界的な協調が必要です。この基金は、AIをより信頼でき、より信頼性が高く、成長やより良い公共サービス、高度な雇用の創出に貢献できるようにするための助けとなるでしょう。」