Grok 4 ベンチマーク結果：数学でトップ、コーディングで2位

Grok 4はGrok 3から大きく進化しましたが、市場にある他のモデル（たとえばGemini 2.5 Proなど）と比べてどれほど優れているのでしょうか？新たな独立系ベンチマークのおかげで、その答えが明らかになりました。

クラウドソース型AIベンチマークのオープンプラットフォームであるLMArena.aiが、Grok 4の結果を公開しました。

ここで取り上げているのはGrok 4 API（grok-4-0709）で、コミュニティから約4,000件以上の投票を受け、Text Arenaで総合3位にランクインしています。これは8位だったGrok 3から大きな飛躍です。

LMArenaのテストによると、Grok 4はすべてのカテゴリでトップ3に入りました（数学で1位、コーディングで2位、難易度の高いプロンプトで3位）。

Grok 4はコーディング、数学、クリエイティブライティングなどの分野で実際のプロンプトを使ってテストされ、非常に良いパフォーマンスを示しました：

ただし、テストされたモデルはGrok 4であり、Grok 4 Heavyではないことに注意が必要です。

どちらも推論モデルですが、Grok 4 Heavyの方が大幅に優れています。

Grok 4 Heavyは複数のエージェントを使って思考し結果を比較するため、数値は異なる可能性がありますが、Grok 4 HeavyモデルはまだAPIプラットフォームで利用できません。

Gemini 2.5 ProとClaudeは依然としてコーディングにおいて最良のモデルですが、8月にxAIがGrok 4 Codeをリリースすれば状況が変わるかもしれません。

Grok 4 Codeはコーディングに最適化されており、Gemini CLIやClaude CodeのようなCLIも登場することが期待されています。

関連記事