
Google の Gemini 3 がついに登場し、とくにシンプルなゲーム作りに関して、その結果には感心させられています。
Gemini 3 Pro は非常に優れたモデルであり、初期ベンチマークもそれを裏付けています。
たとえば、LMArena Leaderboard では 1501 Elo というスコアでトップに立っています。また、Humanity’s Last Exam(ツールを一切使わずに 37.5%)や GPQA Diamond(91.9%)で最高スコアを記録し、博士号レベルの推論能力を示しています。
実際の利用結果も、これらの数値を裏付けています。
デザイナー向けのバイブコーディングツール「MagicPath」を作成した Pietro Schirano 氏は、Gemini 3 によって新しい時代に突入したと語っています。
彼のテストでは、Gemini 3 Pro は 3D LEGO エディタをワンショットで作成することに成功しました。つまり、単一のプロンプトだけで Gemini 3 上にシンプルなゲームを作れるということであり、これはかなり大きな意味を持つと私は考えています。
これまで LLM はゲーム分野を苦手としてきましたが、Gemini 3 にはその点でいくつかの改善が見られます。
これは、Gemini 3 Pro が MMMU-Pro で 81%、Video-MMMU ベンチマークで 87.6% を達成し、マルチモーダル推論を再定義するという Google の主張とも一致しています。
「また、SimpleQA Verified で最先端の 72.1% を記録し、事実精度の大きな進歩を示しています」と、Google はブログ投稿で述べています。
「これは、Gemini 3 Pro が科学や数学など、膨大なトピックにまたがる複雑な問題を、高い信頼性をもって解決できることを意味します。」
初期テストでは Gemini 3 は印象的だが、遵守性は依然として課題
私はこの 1 年ほど Claude Code を使っており、Flutter/Dart プロジェクトで大いに助けられてきました。
Gemini 3 は Claude Sonnet 4.5 より優れたモデルですが、Claude が勝っている部分もあります。
これまでのところ、とくに遵守性の面で Claude Code に匹敵するモデルはなく、Gemini 3 もその例外ではありません。
その一つが、指示遵守の領域です。
個人的には、指示に従うという点で Claude Code のほうが優れていると感じました。同様に、CLI としても Gemini 3 Pro より Claude Code のほうが優秀であり、その点が競合に対するアドバンテージになっています。
それ以外の点では、特に Gemini 2.5 Pro を使ってきた人にとっては、Gemini 3 のほうがより良い選択肢です。
LLM を使うのであれば、日常的なタスクには Sonnet 4.5 を、複雑なクエリには Gemini 3 Pro を使い分けることをおすすめします。