OpenAIは、今後登場予定のChromiumベースのブラウザと新たなリークで確認されたGPTエージェントの統合により、エージェント主導の未来を構築しています。
ChatGPTにはすでにエージェントモードが搭載されており、仮想マシンを使ってウェブを閲覧できます。この仮想マシンはLinuxで動作し、クラウド環境(Azure)上で稼働しています。
エージェントモードはあらゆる操作を代行できますが、ブラウザ自体を操作することはできません。また、開いているタブやその他のブラウザ関連機能を見ることもできません。しかし、これもまもなく変わるかもしれません。
Tibor氏が発見したように、OpenAIはエージェントモードを「リモート(クラウド/仮想ブラウザ)」と「ファーストパーティのローカルブラウザ(噂のOpenAIブラウザ)」の2つの実行経路から選択できるようにしています。
隠された「クラウドブラウザを使用」トグルと、「ChatGPT…Macintosh;…Chrome」と一致するユーザーエージェントのゲートにより、この機能はOpenAI独自のMacアプリ/ブラウザを使用している場合のみ有効になり、クラウドブラウザがフォールバックとして使われることが強く示唆されています。
これは、OpenAIのドキュメントが現在エージェント向けの仮想/ビジュアルブラウザを説明していることや、OpenAIのChromiumベースのブラウザが登場するという別の報道とも一致します。
OpenAIのヘルプページによると、エージェントは仮想ブラウザウィンドウのスクリーンショットを使ってクリックやフォーム入力、ナビゲーション(つまりクラウドブラウザ)を行うと説明されています。
ロイターなどが報じたところによれば、OpenAIは独自のChromiumベースのブラウザを準備中で、より多くの操作をChatGPTスタイルのUI内で完結できるようにするとのことです。