Reasoning-модели в 2026: когда extended thinking реально окупается
Opus thinking, GPT-5.4 Mini, DeepSeek R1 — три взгляда на одну идею. Какие задачи становятся точнее от лишнего компьюта, а какие — просто медленнее.
- reasoning
- модели
- бенчмарки
Reasoning-модели перестали быть новинкой около года назад. Сейчас это просто часть каталога: у Opus 4.7 есть extended thinking, GPT-5.4 Mini — reasoning по умолчанию, DeepSeek R1 — open и дешёвая. Интересный вопрос — не работают ли они, а когда лишняя задержка стоит того.
Несколько месяцев отслеживали это внутри. Что говорят данные и нутро.
Что reasoning реально покупает
Когда говорим «модель рассуждает», имеется в виду, что ей позволено потратить больше токенов до ответа — приватный chain-of-thought, который обычно не показывают. Больше токенов — больше шансов поймать ошибку, рассмотреть альтернативу, направить компьют на задачу.
Лишний компьют помогает сильно на одних задачах и почти никак на других. Паттерн довольно устойчивый:
- Многошаговые задачи с промежуточными проверками (математические доказательства, рефакторинг кода, затрагивающий несколько файлов, планирование): reasoning выигрывает.
- Одношаговые задачи, где правильный ответ — один прыжок инференса (суммируй письмо, перепиши предложение, столица Монголии): reasoning сжигает ваше время и деньги.
- Творческие задачи без проверяемого правильного ответа (напиши стих, набросай мнение, brainstorm имён): reasoning часто делает хуже. Лишняя дельиберация выглаживает голос.
Latency — реальный размен
Не-reasoning модель отвечает за 2–8 секунд. Reasoning — за 15–90, иногда больше. Это 5–15x замедление, которое вы платите на каждом ходе.
На 20% промптов, где reasoning реально меняет ответ, оно того стоит — эти промпты всё равно занимали бы четыре follow-up сообщения, и лучше потратить wall-clock один раз, чем четыре. На остальных 80% вы теперь ждёте минуту ради ответа, который приняли бы за пять секунд.
Это то, что лидерборды не ловят. «Модель X на 4 пункта выше на бенчмарке Y» — правда и одновременно скучная правда, если она пришла к ней в восемь раз дольше. Правильная метрика — польза в секунду, и на этой оси картинка куда ближе.
Как мы это показываем
В студии вы не выбираете «reasoning» или «не reasoning» — вы выбираете модель, а reasoning — это тоггл на тех, что его поддерживают. Тоггл видим (cmd+shift+R), и оценка стоимости показывает, во что обойдётся ход в кредитах до отправки.
Дефолтное поведение:
- Opus 4.7, GPT-5.5: thinking выключен. Включайте под сложные задачи.
- GPT-5.4 Mini, R1: thinking включён. Это и есть reasoning-версия.
- Haiku 4.5, Gemini Flash, Nano: режима thinking нет, по дизайну.
Если включена память, студия учится, когда вы дёргаете тоггл, и предлагает его раньше — в следующий раз, когда тред выглядит похоже.
Зачем держать быструю модель рядом
Даже если пользуетесь только reasoning-моделями, рядом должна быть быстрая non-reasoning на том же шорткате. Cmd+Shift+M и одно нажатие должно перебрасывать с Opus thinking на Haiku 4.5 для следующего сообщения. Мы неделю прожили без этого шортката — трение видно сразу: перестаёшь итерировать, потому что каждая итерация стоит минуту.
Самый эффективный паттерн, с большим отрывом:
- Стартуйте reasoning-моделью на сложной задаче.
- Падайте на быструю для follow-up, правок, перефраз.
- Возвращайтесь к reasoning только при существенной смене направления.
Чему мы не верим
Две вещи, которые часто слышим и которые, на наш взгляд, неправда:
«Reasoning-модели заменят non-reasoning». Не заменят. Пол по latency фундаментален — нельзя сократить chain-of-thought, не сделав модель глупее. Быстрый сегмент будет, пока есть сложный.
«Reasoning-модели умнее во всём». Нет. Они умнее на задачах с проверяемыми промежуточными шагами и примерно равны на остальном. Разрыв в творческом письме в 2026 — практически нулевой.
Так что: рассуждайте, когда задача сложная. Не рассуждайте, когда нет. Тоггл в студии — на одно нажатие не просто так.
Нашли опечатку или хотите поспорить? Напишите нам .