Reasoning-mô hình năm 2026: khi extended thinking thực sự đáng
Opus thinking, GPT-5.4 Mini, DeepSeek R1 — ba cách tiếp cận cùng một ý. Chúng tôi theo dõi bài nào sắc hơn với thêm compute, và bài nào chỉ chậm hơn.
- reasoning
- mô hình
- benchmark
Reasoning-mô hình ngừng là cái mới khoảng một năm trước. Giờ chúng chỉ là một phần catalog — Opus 4.7 có extended thinking, GPT-5.4 Mini là reasoning-by-default, DeepSeek R1 mở và rẻ. Nên câu hỏi thú vị không phải chúng có chạy không, mà khi nào độ trễ thêm đáng.
Chúng tôi đã theo dõi câu hỏi đó nội bộ vài tháng. Đây là điều dữ liệu và trực giác cùng nói.
”Reasoning” thực sự mua cho bạn gì
Khi chúng tôi nói mô hình đang reasoning, nghĩa là nó được phép chi nhiều token hơn trước khi tạo câu trả lời — chain-of-thought riêng tư nó thường không cho bạn thấy. Nhiều token nghĩa nhiều cơ hội bắt lỗi, nhiều cơ hội xét lựa chọn thay thế, nhiều compute nhắm vào vấn đề.
Compute thêm đó giúp nhiều cho một số bài và gần như không cho bài khác. Pattern khá nhất quán:
- Bài multi-step có bước kiểm trung gian (chứng minh toán, refactor code đụng nhiều file, bài lập kế hoạch): reasoning thắng.
- Bài single-step nơi câu trả lời đúng cách một bước inference (tóm email này, viết lại câu này, thủ đô Mông Cổ là gì): reasoning phí thời gian và tiền của bạn.
- Bài sáng tạo không có câu trả lời đúng kiểm chứng được (viết thơ, draft bài quan điểm, brainstorm tên): reasoning thường làm tệ hơn, không tốt hơn. Deliberation thêm có thể làm phẳng giọng.
Đánh đổi độ trễ là thật
Mô hình không-reasoning trả lời bạn trong 2–8 giây. Reasoning-mô hình mất 15–90 giây, đôi khi hơn. Đó là chậm 5–15x bạn nuốt mỗi lượt.
Cho 20% prompt nơi reasoning thực sự đổi câu trả lời, đáng — những prompt đó dù sao đã tốn bạn bốn tin nhắn follow-up, và bạn thà chi wall- clock một lần hơn bốn lần. Cho 80% nơi không, bạn giờ chờ một phút cho câu trả lời bạn lẽ ra chấp nhận trong năm giây.
Đây là phần leaderboard không bắt được. “Mô hình X đạt cao hơn 4 điểm trên benchmark Y” đúng và cũng nhàm chán nếu nó mất tám lần thời gian để tới đó. Metric đúng là tiện ích per-second, và trên trục đó bức tranh gần nhau hơn nhiều.
Chúng tôi đưa nó ra sao
Trong studio, bạn không chọn “reasoning” hay “non-reasoning” — bạn chọn mô hình, và reasoning là toggle trên những cái hỗ trợ. Toggle hiện rõ (cmd+shift+R), và preview chi phí cho bạn biết lượt đó tốn bao nhiêu credit trước khi gửi.
Hành vi mặc định:
- Opus 4.7, GPT-5.5: thinking tắt mặc định. Bật cho bài khó.
- GPT-5.4 Mini, R1: thinking bật mặc định. Những mô hình này là phiên bản reasoning.
- Haiku 4.5, Gemini Flash, Nano: không có chế độ thinking, theo thiết kế.
Nếu bạn bật bộ nhớ, studio học khi nào bạn lật toggle và gợi ý sớm hơn lần tới bạn bắt đầu thread tương tự.
Lý do giữ mô hình nhanh bên cạnh
Kể cả nếu bạn chỉ dùng reasoning-mô hình, bạn vẫn nên có mô hình không- reasoning nhanh trên cùng phím tắt. Cmd+Shift+M và một phím tắt sẽ thả bạn từ Opus thinking xuống Haiku 4.5 cho tin nhắn kế. Chúng tôi test không có phím tắt đó trong một tuần và ma sát hiện ra ngay — bạn ngừng lặp, vì mỗi lần lặp tốn bạn một phút.
Pattern hiệu quả nhất chúng tôi tìm được, xa hơn nhiều:
- Bắt đầu với reasoning-mô hình trên bài khó.
- Hạ xuống mô hình nhanh cho follow-up, chỉnh sửa, rephrase.
- Trở lại reasoning chỉ khi bạn đổi hướng đáng kể.
Điều chúng tôi không tin
Hai điều chúng tôi nghe nhiều nhưng không tin:
“Reasoning-mô hình sẽ thay thế mô hình không-reasoning.” Không. Sàn độ trễ là cơ bản — bạn không thể làm chain of thought ngắn hơn mà không làm nó kém hơn. Sẽ có bậc nhanh chừng nào còn bậc khó.
“Reasoning-mô hình thông minh hơn ở mọi thứ.” Không. Chúng thông minh hơn ở bài có bước trung gian kiểm chứng được, và xấp xỉ giống ở mọi thứ khác. Khoảng cách benchmark trên viết sáng tạo năm 2026 cơ bản là không.
Nên: reason khi bài khó. Đừng khi không. Studio làm toggle một phím tắt có lý do.
Thấy lỗi typo hay muốn phản hồi? Email cho chúng tôi .