跳至內容
Any AI
開啟應用
← 所有文章
5 min read Any AI Studio

GPT-5、Claude Opus 4、Gemini 2.5 Pro:2026 三方對決

我們把同一組 18 個提示送給每一款前沿模型,記錄各自真正贏在哪。答案不是「用最新的那款」 — 比這有趣得多。

  • 基準測試
  • 比較
  • 模型

前沿移動得太快,基準測試文章通常一發出來就過期了。話雖如此 — 我們現在站在 2026 年第四個月,如果你是每天真的在用這些模型而不只是讀文章的人,有三件事已經很清楚。

主要結果

如果用「答案有多常不需要追問」當衡量標準,Claude Opus 4 是最強的全能型。當你需要它照著複雜指令走、三段之後還不會迷路時,GPT-5 最強。當提示包含 200 頁 PDF 而你需要它真的去讀、不是隨便翻翻時,Gemini 2.5 Pro 最強。

我們在三款模型上跑了 18 個具代表性的提示。任務分成四類:

  • 推理與數學 — Project Euler 600 系列、應用統計題、兩道 AIME 開放題。
  • 程式碼審查 — 200 行 Go 程式碼的 diff、一個刻意寫壞的 React hook、兩個有細微正確性 bug 的 SQL 查詢。
  • 寫作 — 銷售頁文案、1,200 字的文章大綱、技術部落格草稿。
  • 長上下文 — 80k token 的逐字稿、跨多份 PDF 的綜整、12 份來源文件的檢索任務。

每款模型實際贏在哪

Claude Opus 4 在程式碼審查上的領先幅度比我們預期還大。它能抓到細節 — SQL 視窗函數的 off-by-one、useEffect closure 抓到過期變數 — 而其他兩款比較傾向直接判定「看起來沒問題」。Extended thinking 模式再多加一分,但只在最難的題目上;日常審查 vanilla Opus 已經夠用。

GPT-5 在多步驟指令遵循上勝出。我們給每款模型一個包含十一項明確要求(格式、語氣、長度、特定字串、要排除的東西)的提示。GPT-5 第一次就命中十一中的十項。Claude 命中八項。Gemini 命中七項。如果你的提示是結構化的規格,GPT-5 仍是最安全的選擇。

Gemini 2.5 Pro 在長上下文上壓倒性勝出。200 萬 token 的視窗不是噱頭 — 它真的會用你給的內容。在 12 份 PDF 的綜整任務上,Gemini 正確引用了第三到第十一份文件;其他兩款大多只引用第一份。原生多模態也比基準測試顯示的更重要:直接解析截圖就少一次往返。

日常使用的含意

這是基準測試文章常忽略的部分:實際上你會「切換」。在 Opus 開對話,因為它最會做程式碼審查。發現今天的問題是結構化規格。對話中途切到 GPT-5。下一輪牽涉到 PDF — 切到 Gemini,問完問題,再切回來。

這正是 Any AI Studio 為之設計的工作流。分支與並排比較功能讓你不必事先選定。把提示同時送給兩款模型,留下比較好的答案,把輸的分支再拿來重寫提示。

注意事項

這些結果是在 2026 年 5 月成立的。下一輪季度更新很可能會翻轉至少其中一類。等 GPT-5.1 推出時(傳聞是夏末),我們會重跑整套並發更新。

另外:成本也重要。Opus 在三款中按 token 算最貴。如果你是走 API 計費,GPT-5 在多數非程式碼任務上以類似品質而言更便宜。我們不會把每 token 成本轉嫁給 Pro 訂閱使用者,所以這純粹是有趣的補註 — 不過如果你在比較直接向供應商買的定價,值得一提。

一句話總結

寫程式用 Opus,結構化規格用 GPT-5,長上下文用 Gemini。或者更簡單 — 打開 Any AI Studio,讓模型挑選器記住你在不同情境下會伸手拿哪一款。


發現錯字或想反駁? 來信

試試這篇文章背後的產品。
工作室.

免費方案。免信用卡。可用 Google 或 Apple 登入。