2026年5月10日 5 min read Any AI Studio

GPT-5、Claude Opus 4、Gemini 2.5 Pro：2026 三方對決

我們把同一組 18 個提示送給每一款前沿模型，記錄各自真正贏在哪。答案不是「用最新的那款」 — 比這有趣得多。

基準測試
比較
模型

前沿移動得太快，基準測試文章通常一發出來就過期了。話雖如此 — 我們現在站在 2026 年第四個月，如果你是每天真的在用這些模型而不只是讀文章的人，有三件事已經很清楚。

主要結果

如果用「答案有多常不需要追問」當衡量標準，Claude Opus 4 是最強的全能型。當你需要它照著複雜指令走、三段之後還不會迷路時，GPT-5 最強。當提示包含 200 頁 PDF 而你需要它真的去讀、不是隨便翻翻時，Gemini 2.5 Pro 最強。

我們在三款模型上跑了 18 個具代表性的提示。任務分成四類：

推理與數學 — Project Euler 600 系列、應用統計題、兩道 AIME 開放題。
程式碼審查 — 200 行 Go 程式碼的 diff、一個刻意寫壞的 React hook、兩個有細微正確性 bug 的 SQL 查詢。
寫作 — 銷售頁文案、1,200 字的文章大綱、技術部落格草稿。
長上下文 — 80k token 的逐字稿、跨多份 PDF 的綜整、12 份來源文件的檢索任務。

每款模型實際贏在哪

Claude Opus 4 在程式碼審查上的領先幅度比我們預期還大。它能抓到細節 — SQL 視窗函數的 off-by-one、useEffect closure 抓到過期變數 — 而其他兩款比較傾向直接判定「看起來沒問題」。Extended thinking 模式再多加一分，但只在最難的題目上；日常審查 vanilla Opus 已經夠用。

GPT-5 在多步驟指令遵循上勝出。我們給每款模型一個包含十一項明確要求（格式、語氣、長度、特定字串、要排除的東西）的提示。GPT-5 第一次就命中十一中的十項。Claude 命中八項。Gemini 命中七項。如果你的提示是結構化的規格，GPT-5 仍是最安全的選擇。

Gemini 2.5 Pro 在長上下文上壓倒性勝出。200 萬 token 的視窗不是噱頭 — 它真的會用你給的內容。在 12 份 PDF 的綜整任務上，Gemini 正確引用了第三到第十一份文件；其他兩款大多只引用第一份。原生多模態也比基準測試顯示的更重要：直接解析截圖就少一次往返。

日常使用的含意

這是基準測試文章常忽略的部分：實際上你會「切換」。在 Opus 開對話，因為它最會做程式碼審查。發現今天的問題是結構化規格。對話中途切到 GPT-5。下一輪牽涉到 PDF — 切到 Gemini，問完問題，再切回來。

這正是 Any AI Studio 為之設計的工作流。分支與並排比較功能讓你不必事先選定。把提示同時送給兩款模型，留下比較好的答案，把輸的分支再拿來重寫提示。

注意事項

這些結果是在 2026 年 5 月成立的。下一輪季度更新很可能會翻轉至少其中一類。等 GPT-5.1 推出時（傳聞是夏末），我們會重跑整套並發更新。

另外：成本也重要。Opus 在三款中按 token 算最貴。如果你是走 API 計費，GPT-5 在多數非程式碼任務上以類似品質而言更便宜。我們不會把每 token 成本轉嫁給 Pro 訂閱使用者，所以這純粹是有趣的補註 — 不過如果你在比較直接向供應商買的定價，值得一提。

一句話總結

寫程式用 Opus，結構化規格用 GPT-5，長上下文用 Gemini。或者更簡單 — 打開 Any AI Studio，讓模型挑選器記住你在不同情境下會伸手拿哪一款。

發現錯字或想反駁？來信。