5 de abril de 2026 4 min read Any AI Studio

Reasoning en 2026: cuándo extended thinking compensa de verdad

Opus thinking, GPT-5.4 Mini, DeepSeek R1 — tres enfoques de la misma idea. Registramos qué problemas se afilan con más cómputo y cuáles solo se vuelven más lentos.

reasoning
modelos
benchmarks

Los modelos de reasoning dejaron de ser novedad hace cosa de un año. Ahora son parte del catálogo — Opus 4.7 tiene extended thinking, GPT-5.4 Mini razona por defecto, DeepSeek R1 es abierto y barato. Así que la pregunta interesante no es ¿funcionan?, sino ¿cuándo compensa la latencia extra?

Llevamos meses siguiendo esa pregunta internamente. Esto es lo que dicen los datos y la intuición.

Qué te compra «razonar» de verdad

Cuando decimos que un modelo razona, queremos decir que se le permite gastar más tokens antes de producir una respuesta — un chain-of-thought privado que normalmente no te muestra. Más tokens significa más oportunidades de detectar un error, más oportunidades de considerar una alternativa, más cómputo apuntado al problema.

Ese cómputo extra ayuda mucho para algunos problemas y casi nada para otros. El patrón es bastante consistente:

Problemas multi-paso con comprobaciones intermedias (pruebas matemáticas, refactors de código que tocan varios archivos, tareas de planificación): el reasoning gana.
Problemas de un solo paso donde la respuesta correcta está a una inferencia (resume este email, reescribe esta frase, ¿cuál es la capital de Mongolia?): el reasoning te hace perder tiempo y dinero.
Problemas creativos sin respuesta correcta verificable (escribe un poema, redacta una opinión, lluvia de nombres): el reasoning suele empeorar las cosas, no mejorarlas. La deliberación extra puede aplanar la voz.

El trade-off de latencia es real

Un modelo sin reasoning te contesta en 2–8 segundos. Uno de reasoning tarda 15–90 segundos, a veces más. Es un slowdown de 5–15× que tragas en cada turno.

Para el 20% de prompts donde el reasoning cambia la respuesta de verdad, compensa — esos prompts te iban a costar cuatro mensajes de follow-up igualmente, y prefieres gastar el reloj una vez que cuatro. Para el 80% donde no, ahora esperas un minuto por una respuesta que habrías aceptado en cinco segundos.

Esto es lo que los leaderboards no capturan. «El modelo X saca 4 puntos más en el benchmark Y» es cierto y también aburrido si tardó ocho veces más en llegar. La métrica correcta es utilidad por segundo, y en ese eje la foto está mucho más igualada.

Cómo lo exponemos

En el studio no eliges «reasoning» o «no reasoning» — eliges un modelo, y reasoning es un toggle en los que lo soportan. El toggle es visible (cmd+shift+R) y la previsualización de coste te dice lo que costará el turno en créditos antes de enviar.

Comportamiento por defecto:

Opus 4.7, GPT-5.5: thinking off por defecto. Actívalo para problemas duros.
GPT-5.4 Mini, R1: thinking on por defecto. Estos modelos son la versión reasoning.
Haiku 4.5, Gemini Flash, Nano: sin modo thinking, por diseño.

Si tienes memoria activada, el studio aprende cuándo sueles activar el toggle y lo sugiere antes la próxima vez que abres un thread parecido.

El argumento para tener un modelo rápido al lado

Aunque solo uses modelos de reasoning, probablemente quieres un modelo rápido no-reasoning en el mismo atajo. Cmd+Shift+M y una tecla deberían bajarte de Opus thinking a Haiku 4.5 para el siguiente mensaje. Lo probamos sin ese atajo durante una semana y la fricción aparece al instante — dejas de iterar, porque cada iteración te cuesta un minuto.

El patrón más eficiente que hemos encontrado, con diferencia, es:

Empieza con un modelo de reasoning en el problema difícil.
Baja a un modelo rápido para follow-ups, edits y reformulaciones.
Sube de nuevo a reasoning solo cuando cambies de dirección de forma sustancial.

Lo que no creemos

Dos cosas que oímos mucho y que no creemos ciertas:

«Los modelos de reasoning reemplazarán a los no-reasoning». No lo harán. El suelo de latencia es fundamental — no puedes acortar la cadena de pensamiento sin volverla más tonta. Habrá un tier rápido mientras haya un tier duro.

«Los modelos de reasoning son más listos en todo». No lo son. Son más listos en problemas con pasos intermedios verificables, y aproximadamente iguales en todo lo demás. La brecha en benchmarks de escritura creativa en 2026 es básicamente cero.

Así que: razona cuando el problema es duro. No lo hagas cuando no lo es. El studio pone el toggle a una pulsación por algo.

¿Has visto una errata o quieres replicar? Escríbenos .