GPT-5、Claude Opus 4、Gemini 2.5 Pro:2026 年版・正面対決
同じ 18 のプロンプトをすべての frontier モデルに通し、それぞれが実際にどこで勝つかを追跡。答えは「最新を使え」ではなく、それよりずっと面白いものでした。
- ベンチマーク
- 比較
- モデル
frontier の動きが速すぎて、ベンチマーク記事は出荷時にはたいてい古くなっています。それでも — 2026 年も 4 か月が過ぎ、これらのモデルについて記事を読むのでなく毎日使い倒している人にとって、3 つのことが明白になりました。
見出しの結論
Claude Opus 4 は、「フォローアップなしで済んだ回数」で測ると、最良のジェネラリストです。GPT-5 は、複雑な指示を 3 段落入っても見失わずに従わせたいときに最良。Gemini 2.5 Pro は、プロンプトに 200 ページの PDF が含まれ、ざっと流し読みではなく実際に読ませたいときに最良。
代表的なプロンプト 18 件を 3 モデルに通しました。タスクは 4 つに分類:
- 推論と数学 — Project Euler の 600 番台、応用統計の問題、未解決の AIME 問題 2 題。
- コードレビュー — 200 行の Go diff、わざと壊した React フック、微妙な正しさのバグがある SQL クエリ 2 本。
- ライティング — セールスページのコピー、1,200 語のエッセイのアウトライン、技術ブログのドラフト。
- 長文コンテキスト — 80k トークンのトランスクリプト、複数 PDF の統合、12 ドキュメントを横断する検索タスク。
各モデルが実際に勝つ場所
Claude Opus 4 は、コードレビューで予想以上の差をつけて圧勝しました。SQL ウィンドウ関数のオフバイワン、useEffect クロージャが古い変数を捕まえている — そうした細部を拾います。他の 2 つは「見た感じ問題なさそう」とパターンマッチで流す類のもの。extended thinking モードはもう一段の上積みをくれましたが、効くのは最難問だけ。日常的なレビューでは素の Opus でもう十分でした。
GPT-5 は複数ステップの指示遵守で勝ち。各モデルに、明示要件 11 項目(フォーマット、トーン、長さ、含めるべきフレーズ、除外すべきもの)付きのプロンプトを与えました。GPT-5 は 1 発で 11 中 10 を当てる。Claude は 8 つ、Gemini は 7 つ。プロンプトが構造化された仕様なら、GPT-5 は今も最も安全な選択です。
Gemini 2.5 Pro は長文コンテキストで圧勝。2M トークンウィンドウはハッタリではなく — 渡したものを実際に使います。12 PDF の統合タスクで、Gemini はドキュメント 3〜11 を正しく引用しました。他は大半がドキュメント 1 ばかり引用。ネイティブマルチモーダルも、ベンチマークが示す以上に効きます。スクリーンショットをそのまま解析できる分、往復が一回減ります。
日常使いへの意味
ベンチマーク記事が省略する部分はここ:実務では、切り替えます。Opus はコードレビューで最強だからチャットを開く。今日の質問が構造化仕様だと気づき、会話の途中で GPT-5 へ。次のターンが PDF 絡みなら Gemini に切り替え、聞いて、また戻る。
これこそ、Any AI Studio が想定するワークフローです。ブランチとサイドバイサイド比較があるので、事前に選ぶ必要がありません。同じプロンプトを 2 モデルに同時送信、良い方の回答を残し、負けた方を再プロンプト用にブランチ。
注意点
これらの結果は 2026 年 5 月時点。次の四半期アップデートでおそらく少なくとも 1 カテゴリは入れ替わります。GPT-5.1 が出たら(噂では夏の終わり頃)スイートを再実行し、更新記事を出します。
それから:コストも重要です。Opus は per-token 単価では 3 つの中で最高。API 課金なら、コードでない大半のタスクは GPT-5 の方が同等品質で安く済みます。Pro のサブスクユーザーには per-token コストを通しません。だから今回は興味深い脚注にすぎませんが — 直接プロバイダー価格を比較しているなら触れる価値はあります。
TL;DR
コードは Opus、構造化仕様は GPT-5、長文コンテキストは Gemini。あるいは — もっと簡単 — Any AI Studio を開いて、状況ごとにどれに手が伸びるかをモデルピッカーに覚えさせる。
誤字を見つけた、または意見を寄せたい? メールしてください 。