2026 年的 reasoning 模型:extended thinking 何時真的划算
Opus thinking、GPT-5.4 Mini、DeepSeek R1 — 同一個想法的三種詮釋。我們追蹤哪些問題會因更多算力變得更銳利,哪些只是變得更慢。
- reasoning
- 模型
- 基準測試
Reasoning 模型大約一年前就不再是新奇東西了。它們現在只是型錄的一部分 — Opus 4.7 有 extended thinking、GPT-5.4 Mini 預設就 reasoning、DeepSeek R1 開源又便宜。所以有趣的問題不是「它們有沒有用」,而是「多出來的延遲什麼時候值得」。
我們內部追蹤這個問題幾個月了。以下是數據與直覺的共同說法。
「Reasoning」實際上買到的是什麼
當我們說某款模型在做 reasoning,意思是它被允許在「給出答案之前」花更多 token — 一段你通常看不到的私密思考鏈。更多 token 等於更多機會抓錯誤、更多機會考慮替代方案、更多算力投在問題上。
那些多出來的算力對某些問題幫助很大,對其他問題幾乎沒用。模式蠻一致的:
- 多步驟問題且有中途檢查(數學證明、跨多檔的程式碼重構、規劃任務):reasoning 勝。
- 單步驟問題,正確答案只差一次推論(總結這封信、改寫這句話、蒙古首都是哪裡):reasoning 浪費你的時間和錢。
- 創意問題,沒有可驗證的正確答案(寫一首詩、起草評論、腦力激盪命名):reasoning 通常讓事情變差,不是變好。額外的斟酌會壓平聲音的辨識度。
延遲取捨是真的
非 reasoning 模型 2–8 秒就回你。Reasoning 模型要 15–90 秒,有時更久。那是每一輪都得吃下的 5–15 倍變慢。
對 20% 真的會因為 reasoning 而改變答案的提示來說,划算 — 那些提示本來就會讓你追問四封,你寧可一次花掉這個時鐘時間,不要花四次。對另外 80% 不會改變答案的提示來說,你現在等一分鐘換一個五秒鐘就能接受的答案。
這是排行榜抓不到的部分。「模型 X 在基準 Y 高了 4 分」是真的,但如果它花了八倍時間才到達那裡,這件事就無聊了。對的指標是每秒效用,而在這個維度上情況就接近得多。
我們怎麼呈現它
在工作室裡,你不是挑「reasoning」或「非 reasoning」 — 你挑一款模型,reasoning 是在支援的模型上的一個開關。開關看得到(cmd+shift+R),成本預覽會在「送出前」告訴你這一輪要燒多少點數。
預設行為:
- Opus 4.7、GPT-5.5:thinking 預設關。難題時開。
- GPT-5.4 Mini、R1:thinking 預設開。這些模型「就是」reasoning 版本。
- Haiku 4.5、Gemini Flash、Nano:設計上沒有 thinking 模式。
如果你開了記憶,工作室會學習你常常切開關的時機,並在你下次開類似的對話時提早建議開啟。
為什麼還要在旁邊留一款快速模型
即使你只用 reasoning 模型,你大概也會想在同一個捷徑下保留一款快速的非 reasoning 模型。Cmd+Shift+M 加一個鍵應該能讓下一則訊息從 Opus thinking 降到 Haiku 4.5。我們有一週測試沒這個捷徑,摩擦立刻顯現 — 你會停止迭代,因為每次迭代花你一分鐘。
我們找到的最有效模式,差距很大,是:
- 難題從 reasoning 模型開始。
- 後續追問、編輯、改寫降到快速模型。
- 只在實質改變方向時跳回 reasoning。
我們不認為成立的事
兩件我們常聽到、但不認為成立的事:
**「Reasoning 模型會取代非 reasoning 模型。」**不會。延遲下限是基本的 — 你不能在不讓思考鏈變笨的情況下讓它變短。只要有難題層,就會有快速層。
**「Reasoning 模型在所有事情上都更聰明。」**沒有。它們在「有可驗證中間步驟」的問題上更聰明,其他事情上大致一樣。2026 年創意寫作的基準差距基本上是零。
所以:難題就 reasoning,不難就不要。工作室把切換做成一個按鍵不是沒有原因的。
發現錯字或想反駁? 來信 。