Grok 4はGrok 3から大きく進化しましたが、市場にある他のモデル(たとえばGemini 2.5 Proなど)と比べてどれほど優れているのでしょうか?新たな独立系ベンチマークのおかげで、その答えが明らかになりました。
クラウドソース型AIベンチマークのオープンプラットフォームであるLMArena.aiが、Grok 4の結果を公開しました。
ここで取り上げているのはGrok 4 API(grok-4-0709)で、コミュニティから約4,000件以上の投票を受け、Text Arenaで総合3位にランクインしています。これは8位だったGrok 3から大きな飛躍です。
LMArenaのテストによると、Grok 4はすべてのカテゴリでトップ3に入りました(数学で1位、コーディングで2位、難易度の高いプロンプトで3位)。
Grok 4はコーディング、数学、クリエイティブライティングなどの分野で実際のプロンプトを使ってテストされ、非常に良いパフォーマンスを示しました:
- 数学:1位
- コーディング:2位
- クリエイティブライティング:2位
- 指示の遵守:2位
- 難易度の高いプロンプト:3位
ただし、テストされたモデルはGrok 4であり、Grok 4 Heavyではないことに注意が必要です。
どちらも推論モデルですが、Grok 4 Heavyの方が大幅に優れています。
Grok 4 Heavyは複数のエージェントを使って思考し結果を比較するため、数値は異なる可能性がありますが、Grok 4 HeavyモデルはまだAPIプラットフォームで利用できません。
Gemini 2.5 ProとClaudeは依然としてコーディングにおいて最良のモデルですが、8月にxAIがGrok 4 Codeをリリースすれば状況が変わるかもしれません。
Grok 4 Codeはコーディングに最適化されており、Gemini CLIやClaude CodeのようなCLIも登場することが期待されています。
2025年の8つの一般的な脅威
クラウド攻撃はますます巧妙化していますが、攻撃者は驚くほど単純な手法でも依然として成功しています。
Wizが数千の組織で検知したデータに基づき、このレポートではクラウドに精通した脅威アクターが使用する8つの主要な手法を明らかにしています。