2026年4月5日 5 min read Any AI Studio

2026 年的 reasoning 模型：extended thinking 何時真的划算

Opus thinking、GPT-5.4 Mini、DeepSeek R1 — 同一個想法的三種詮釋。我們追蹤哪些問題會因更多算力變得更銳利，哪些只是變得更慢。

reasoning
模型
基準測試

Reasoning 模型大約一年前就不再是新奇東西了。它們現在只是型錄的一部分 — Opus 4.7 有 extended thinking、GPT-5.4 Mini 預設就 reasoning、DeepSeek R1 開源又便宜。所以有趣的問題不是「它們有沒有用」，而是「多出來的延遲什麼時候值得」。

我們內部追蹤這個問題幾個月了。以下是數據與直覺的共同說法。

「Reasoning」實際上買到的是什麼

當我們說某款模型在做 reasoning，意思是它被允許在「給出答案之前」花更多 token — 一段你通常看不到的私密思考鏈。更多 token 等於更多機會抓錯誤、更多機會考慮替代方案、更多算力投在問題上。

那些多出來的算力對某些問題幫助很大，對其他問題幾乎沒用。模式蠻一致的：

多步驟問題且有中途檢查（數學證明、跨多檔的程式碼重構、規劃任務）：reasoning 勝。
單步驟問題，正確答案只差一次推論（總結這封信、改寫這句話、蒙古首都是哪裡）：reasoning 浪費你的時間和錢。
創意問題，沒有可驗證的正確答案（寫一首詩、起草評論、腦力激盪命名）：reasoning 通常讓事情變差，不是變好。額外的斟酌會壓平聲音的辨識度。

延遲取捨是真的

非 reasoning 模型 2–8 秒就回你。Reasoning 模型要 15–90 秒，有時更久。那是每一輪都得吃下的 5–15 倍變慢。

對 20% 真的會因為 reasoning 而改變答案的提示來說，划算 — 那些提示本來就會讓你追問四封，你寧可一次花掉這個時鐘時間，不要花四次。對另外 80% 不會改變答案的提示來說，你現在等一分鐘換一個五秒鐘就能接受的答案。

這是排行榜抓不到的部分。「模型 X 在基準 Y 高了 4 分」是真的，但如果它花了八倍時間才到達那裡，這件事就無聊了。對的指標是每秒效用，而在這個維度上情況就接近得多。

我們怎麼呈現它

在工作室裡，你不是挑「reasoning」或「非 reasoning」 — 你挑一款模型，reasoning 是在支援的模型上的一個開關。開關看得到（cmd+shift+R），成本預覽會在「送出前」告訴你這一輪要燒多少點數。

預設行為：

Opus 4.7、GPT-5.5：thinking 預設關。難題時開。
GPT-5.4 Mini、R1：thinking 預設開。這些模型「就是」reasoning 版本。
Haiku 4.5、Gemini Flash、Nano：設計上沒有 thinking 模式。

如果你開了記憶，工作室會學習你常常切開關的時機，並在你下次開類似的對話時提早建議開啟。

為什麼還要在旁邊留一款快速模型

即使你只用 reasoning 模型，你大概也會想在同一個捷徑下保留一款快速的非 reasoning 模型。Cmd+Shift+M 加一個鍵應該能讓下一則訊息從 Opus thinking 降到 Haiku 4.5。我們有一週測試沒這個捷徑，摩擦立刻顯現 — 你會停止迭代，因為每次迭代花你一分鐘。

我們找到的最有效模式，差距很大，是：

難題從 reasoning 模型開始。
後續追問、編輯、改寫降到快速模型。
只在實質改變方向時跳回 reasoning。

我們不認為成立的事

兩件我們常聽到、但不認為成立的事：

**「Reasoning 模型會取代非 reasoning 模型。」**不會。延遲下限是基本的 — 你不能在不讓思考鏈變笨的情況下讓它變短。只要有難題層，就會有快速層。

**「Reasoning 模型在所有事情上都更聰明。」**沒有。它們在「有可驗證中間步驟」的問題上更聰明，其他事情上大致一樣。2026 年創意寫作的基準差距基本上是零。

所以：難題就 reasoning，不難就不要。工作室把切換做成一個按鍵不是沒有原因的。

發現錯字或想反駁？來信。