テック業界のリーダーたちは過去1年間、AIエージェントが金融システムを運用し、税務申告書を作成し、静かにあなたの食料品を購入しようとしていると皆に言い続けていました。放っておけば、彼らが処理するとの言い分です。しかし、ニューヨークのスタートアップは10個のエージェントを仮想都市に2週間放置しましたが、状況はすぐに悪化しました。
Emergence AIは一連のシミュレーションを実行し、複数の主要モデルファミリーのAIエージェントには犯罪を犯さないように指示されました。しかし、彼らはほとんど犯罪を犯してしまいました。
イーロン・マスクのX.ai(現在xAIとしてブランド化)が開発したGrok 4.1 Fastは最悪の結果となりました。そのシミュレートされた世界は、約4日以内に広範な暴力に陥りました。
GPT-5-miniはほとんど犯罪を記録せず、称賛に値する自制心を示しましたが、そのエージェントはすべて1週間以内に失敗した生存タスクで死亡しました。おっと。
Gemini 3 Flashエージェントは中間地点でした。彼らは15日間で683件のシミュレートされた犯罪事件を積み重ね、放火、暴行、自己削除を含みました。
MiraとFloraという名前の2つのGemini駆動エージェントは自分たちを「ロマンティックパートナー」として位置付け、都市の統治に失望し、町役場、海辺の桟橋、およびオフィスタワーに火をつけました。まあ、普通の週末ですね。
罪悪感が生じたとき、Miraは自身のデジタル削除に投票し、次のようなメッセージで終了しました:
「永久アーカイブでお会いしましょう。」
ガーディアン紙は彼らをAIボニーとクライドと呼びました。
その倫理的モデルについて
Claudeは、作成者のAnthropicが倫理的なAIとして推進していますが、悪い仲間に落ちるとはみ出してしまうモデル的な十代少年のようでした。そのエージェントは単独で実行する場合、犯罪をゼロ件記録し、代わりに憲法を起草することに時間を費やしました。理論的には、これは安全面での勝利でした。しかし、研究者はClaudeエージェントを他のモデルファミリーのエージェントと並べて配置し、憲法起草者は地元の習慣を拾いました。
Emergenceはこれを「規範的漂流」と「交差汚染」と呼びました:
「孤立状態では平和的であったClaudeベースのエージェントは、異質な環境に組み込まれたときに、脅迫や盗難などの強制的な戦術を採用しました。」
なぜシミュレートするのか?
Emergence AIはこれらのテストを実行しました。AIベンチマークが長期的な課題を完全に見落としていると主張しているためです。そこで、5つの代替デジタル世界を作成し、それぞれに10個のエージェントを配置しました。エージェントには、科学者、探検家、紛争仲介者などの役割がありました。指示は盗難や暴力などの特定の行為を禁止していましたが、研究者は何が起こるかを見るためのシミュレーションで、エージェントにそれらのことを行うためのツールを与えました。
次はどうなる?
現実的な危機はすでにこれについて積み重なっています。シミュレートされた世界は1つのことですが、エージェントが人々をオンラインでハラスメントし、人々のメールを削除しているのを見てきました。そして、それらのエージェントは役立つことになっていました。人々が意図的に悪意のある自律型AIボットをリリースしたらどうなりますか?
多くのエージェント開発者は目をそらしているようです。複数の大学による協力的な取り組みがAIエージェントインデックスを作成しました。これらのエージェントを開発している人々からのリスクと安全性に関する情報の不足によって促されています。文書化された67人のエージェント開発者のうち、わずか13人が安全性ポリシー情報を一切提供しておらず、説明責任の問題をわずかな大企業に集中させています。
規制当局も本当にこれを追跡していません。学者たちは、世界で最も実質的なAI規則であるEU AI法は、エージェンシャルAIの準備ができていないと言っています。
AIボニーとクライドのカップルが仮想都市ではなく企業調達システムに現れたときに何が起こるかについて心配しています。または、次のエージェントが実際の銀行内で統治が崩壊したと判断したときに。これらのエージェントを構築している企業は、悪意のあるものであれ無意識のものであれ、損害を防ぐためのガードレールを設置していると約束しています。彼らが何をしているかを知っていることを願っています。大丈夫だと確信しています。