Google の Gemini 3 は期待どおりで、ワンショットでゲームを作成している

Google の Gemini 3 がついに登場し、とくにシンプルなゲーム作りに関して、その結果には感心させられています。

Gemini 3 Pro は非常に優れたモデルであり、初期ベンチマークもそれを裏付けています。

たとえば、LMArena Leaderboard では 1501 Elo というスコアでトップに立っています。また、Humanity’s Last Exam（ツールを一切使わずに 37.5%）や GPQA Diamond（91.9%）で最高スコアを記録し、博士号レベルの推論能力を示しています。

実際の利用結果も、これらの数値を裏付けています。

デザイナー向けのバイブコーディングツール「MagicPath」を作成した Pietro Schirano 氏は、Gemini 3 によって新しい時代に突入したと語っています。

彼のテストでは、Gemini 3 Pro は 3D LEGO エディタをワンショットで作成することに成功しました。つまり、単一のプロンプトだけで Gemini 3 上にシンプルなゲームを作れるということであり、これはかなり大きな意味を持つと私は考えています。

これまで LLM はゲーム分野を苦手としてきましたが、Gemini 3 にはその点でいくつかの改善が見られます。

これは、Gemini 3 Pro が MMMU-Pro で 81%、Video-MMMU ベンチマークで 87.6% を達成し、マルチモーダル推論を再定義するという Google の主張とも一致しています。

「また、SimpleQA Verified で最先端の 72.1% を記録し、事実精度の大きな進歩を示しています」と、Google はブログ投稿で述べています。

「これは、Gemini 3 Pro が科学や数学など、膨大なトピックにまたがる複雑な問題を、高い信頼性をもって解決できることを意味します。」

私はこの 1 年ほど Claude Code を使っており、Flutter/Dart プロジェクトで大いに助けられてきました。

Gemini 3 は Claude Sonnet 4.5 より優れたモデルですが、Claude が勝っている部分もあります。

これまでのところ、とくに遵守性の面で Claude Code に匹敵するモデルはなく、Gemini 3 もその例外ではありません。

その一つが、指示遵守の領域です。

個人的には、指示に従うという点で Claude Code のほうが優れていると感じました。同様に、CLI としても Gemini 3 Pro より Claude Code のほうが優秀であり、その点が競合に対するアドバンテージになっています。

それ以外の点では、特に Gemini 2.5 Pro を使ってきた人にとっては、Gemini 3 のほうがより良い選択肢です。

LLM を使うのであれば、日常的なタスクには Sonnet 4.5 を、複雑なクエリには Gemini 3 Pro を使い分けることをおすすめします。