速報2026-04-02

Gemini 3.1 Pro、16ベンチマーク中13項目で首位を獲得

Google DeepMindのGemini 3.1 Proが2026年4月のAIベンチマークで圧倒的な性能を発揮。100万トークンの長大コンテクスト対応とリアルタイム音声・画像解析機能により、AI分野の新たなスタンダードを確立しました。

by AITAKE 編集部·4 min·

#Google DeepMind#Gemini#ベンチマーク

Gemini 3.1 Proが主要ベンチマークを席巻

Google DeepMindが2026年2月に発表したGemini 3.1 Proが、主要なAIベンチマーク評価で圧倒的な成果を達成している。同モデルは18の追跡対象ベンチマークのうち12項目で首位を獲得し、ARC-AGI-2テストで77.1%、GPQA Diamondで94.3%という驚異的なスコアを記録した。独立評価機関Artificial Analysisの最新調査によると、Gemini 3.1 ProはAI Intelligence Indexで115モデル中首位の座を獲得。57点というスコアは、同分野の中央値26点を大幅に上回る結果となった。一方、最新のGPT-5.4 Proとは僅差で競り合う状況も報告されている。

技術革新の核心：拡張されたコンテクスト処理能力

Gemini 3.1 Proの最大の特徴は、100万トークン（1,048,576トークン）の入力コンテクストウィンドウと最大65,536トークンの出力対応だ。これにより、完全なコードベース、8.4時間の音声、900ページのPDF、または1時間の動画を単一プロンプトで処理可能となった。処理性能の向上も注目すべき点だ。3段階の思考レベル（Low、Medium、High）を導入し、シンプルな分類からコードレビューやデータ分析、複雑なコーディングや研究まで、用途に応じた最適な推論深度を選択できるシステムを構築した。

POINT

Gemini 3.1 Proは従来モデルと比べ推論性能が2倍以上向上し、ARC-AGI-2では前世代の2倍を超える77.1%のスコアを達成。コスト効率性も優秀で、入力処理費用はClaude Opus 4.6の7.5倍安価を実現している。

競合他社との性能比較

詳細な比較分析では、Gemini 3.1 ProがARC-AGI-2（77.1% vs 68.8%）、GPQA Diamond（94.3% vs 91.3%）、LiveCodeBench Pro（2887 Elo）、MCP Atlas（69.2% vs 59.5%）で明確な優位性を示した。一方、Claude Opus 4.6はSWE-Bench Verified（80.8% vs 80.6%）と専門業務タスク（GDPval-AA）で僅差ながら上回っている。価格面でのメリットも大きく、Gemini 3.1 Proは入力処理コストが100万トークンあたり2ドル、出力処理が12ドルと、従来のGemini 3 Proと同一価格を維持。これによりClaude Opus 4.6と比較して入力処理費用を7.5倍削減している。

AITAKE編集部の見方

Gemini 3.1 Proの登場は、AI業界における新たな転換点を示している。特に注目すべきは、単純な性能向上ではなく、実用的な機能拡張に重点を置いた設計思想だ。100万トークンのコンテクスト処理能力は、企業の大規模データ解析や複雑な文書処理において革命的な変化をもたらすだろう。価格据え置きでの性能大幅向上は、AI活用の民主化を加速する重要な要因となる。特に日本企業にとって、コスト効率の高いAIソリューションへのアクセスが容易になることで、DX推進がさらに活発化することが予想される。今後数か月間のビジネス導入事例と実用性評価が、Gemini 3.1 Proの真価を測る重要な指標となるだろう。

Source: Mean CEO Blog

X Hatena LINE