跳至內容
← 所有文章
5 min read Any AI Studio

分支淘汰輸家、留下贏家:同一對話內的模型 A/B 測試

對話途中切換模型不是噱頭。這是找出哪款前沿模型對你的特定任務真正最好的最快方法 — 不必重打提示,也不會丟失上下文。

  • 功能
  • 工作流

studio 裡最常被用的功能不是圖像生成、不是影片,也不是網路搜尋。是每則訊息底下那個小圖示,讓你能用另一款模型重跑這則訊息。人們往往是無意間發現它的,然後就不再讀模型跑分了,因為他們可以直接驗。

「哪款模型最好」這問題本身的毛病

這是錯的問題。沒有所謂最好的模型 — 只有對這個提示、在今天而言最好的模型。GPT-5.5 寫出的初稿散文更乾淨。Claude Opus 4.7 撐得住一場長論證而不會跑題。Gemini 3.1 Pro 從一份雜亂文件裡抽出結構好得不像話。Grok 更快、更逗趣,也更常出錯。排名會隨你接下來五分鐘要做什麼而翻轉。

誠實的辦法,是把同一個提示跑過其中兩三款,然後把輸出並排來讀。不誠實的辦法,是去讀一份六週前的排行榜。我們是繞著誠實的辦法把產品打造出來的。

分支如何運作

每則訊息都有一個分支動作。按下去、挑一款不同的模型,studio 就會用完整的對話上下文原封不動地重跑那則訊息 — 系統指示、先前的回合、附加的檔案,全部都在。你不必重打任何東西。你會得到一條可以和原本對照的平行分支。

留下贏家,對話就沿著那條路繼續走下去。輸掉的分支會折疊起來留在樹裡,以防你想回頭看。沒有東西被摧毀;這串對話成了一份小小的實驗紀錄。

一個真正划算的工作流

以下是讓懷疑者轉念的模式,取自真實使用:

  • 在快速模型上起草。 先在一款快又便宜的模型上開始一段寫作,把雛形抓出來。便宜的點數、快速的週轉。
  • 把困難的那一回合分支到推理模型。 當你撞到真正難的部分 — 那必須站得住腳的論證、那必須正確的程式碼 — 就只把那則訊息分支到 Opus 或 GPT-5.5。你只在真正要緊的地方付高價。
  • 比對,別猜。 當兩款模型在某件事實上意見分歧,那個分歧本身就是資訊。分支第三款模型來當裁判,或在它之後送一次網路搜尋。

結果是你每次對話的平均成本下降,因為你不會為了那簡單的八成去付前沿模型的價 — 而你在困難那兩成上的品質會上升,因為你把它路由給了真正擅長的那款模型。

為什麼一份訂閱在這裡很關鍵

分支只有在所有模型都在同一處、共用同一個點數池時才行得通。一旦你在三份各自獨立的訂閱、三個各自獨立的分頁間來回,摩擦力會殺掉這個習慣 — 你不再比對,就直接用已經開著的那個分頁。你就是這樣因慣性而非選擇被綁死在單一供應商上。

在 studio 裡,切換模型是一鍵的事,用的是同一份點數。驗證的成本趨近於零,所以人們真的會去驗。幾週下來,這會變成一種真實、靠自己掙來的判斷力,知道該伸手拿哪款模型 — 這比我們能發布的任何跑分都更有價值。

在你下一個困難的提示上試試

下次你拿到一個差一點就對的答案時,別再對同一款模型重打提示然後乾等。把它分支到另一款。有一半的時候,第二款模型就是搞定了 — 而你也會對這兩款模型學到一些耐久的東西,那是任何評測文章都不會告訴你的。


發現錯字或想反駁? 來信

試試這篇文章背後的產品。
工作室.

免費方案。免信用卡。可用 Google 或 Apple 登入。