24 de mayo de 2026 3 min read Any AI Studio

Ramifica el perdedor, quédate con el ganador: A/B de modelos dentro de un mismo hilo

Cambiar de modelo a mitad de conversación no es un truco. Es la forma más rápida de descubrir qué modelo frontier es realmente el mejor para tu tarea concreta — sin reescribir el prompt ni perder el contexto.

funciones
flujo de trabajo

La función más usada del studio no es la generación de imágenes ni el vídeo ni la búsqueda web. Es el pequeño icono debajo de cada mensaje que te permite volver a ejecutarlo en otro modelo. La gente lo descubre por accidente, y entonces deja de leer benchmarks de modelos, porque simplemente puede comprobarlo.

El problema con «qué modelo es el mejor»

Es la pregunta equivocada. No hay un mejor modelo — hay un mejor modelo para este prompt, hoy. GPT-5.5 escribe prosa de primer borrador más limpia. Claude Opus 4.7 sostiene un argumento largo sin perder el hilo. Gemini 3.1 Pro es absurdamente bueno extrayendo estructura de un documento desordenado. Grok es más rápido y más gracioso y se equivoca más a menudo. El ranking cambia según lo que estés haciendo en los próximos cinco minutos.

La forma honesta de saberlo es pasar el mismo prompt por dos o tres de ellos y leer las salidas en paralelo. La forma deshonesta es leer un leaderboard de hace seis semanas. Construimos el producto en torno a la forma honesta.

Cómo funciona la ramificación

Cada mensaje tiene una acción de ramificación. Púlsala, elige otro modelo, y el studio vuelve a ejecutar ese mensaje con todo el contexto de la conversación intacto — instrucciones de sistema, turnos previos, archivos adjuntos, todo. No reescribes nada. Obtienes una rama paralela que puedes comparar con la original.

Quédate con el ganador y la conversación continúa por ese camino. Las ramas perdedoras se quedan en el árbol, colapsadas, por si quieres volver. No se destruye nada; el hilo se convierte en un pequeño registro de experimentos.

Un flujo de trabajo que de verdad merece la pena

Este es el patrón que convierte a los escépticos, sacado del uso real:

Borrador en un modelo rápido. Empieza un texto en un modelo rápido y barato para darle forma. Créditos baratos, respuesta veloz.
Ramifica el turno difícil a un modelo de razonamiento. Cuando llegues a la parte que de verdad es difícil — el argumento que tiene que sostenerse, el código que tiene que ser correcto — ramifica solo ese mensaje a Opus o GPT-5.5. Pagas el extra únicamente donde importa.
Compara, no adivines. Cuando dos modelos discrepan sobre algo factual, esa discrepancia es información. Ramifica un tercer modelo como desempate, o lánzale búsqueda web detrás.

El resultado es que tu coste medio por conversación baja, porque no estás pagando precios frontier por el 80% fácil — y tu calidad en el 20% difícil sube, porque lo estás enrutando al modelo que de verdad es bueno en eso.

Por qué una sola suscripción importa aquí

La ramificación solo funciona si todos los modelos están en un mismo sitio, sobre un mismo pool de créditos compartido. En cuanto estás haciendo malabares con tres suscripciones separadas y tres pestañas separadas, la fricción mata el hábito — dejas de comparar y usas la pestaña que ya tienes abierta. Así es como acabas atado a un solo proveedor por inercia y no por elección.

Dentro del studio, cambiar de modelo es un clic y los mismos créditos. El coste de comprobar es casi cero, así que la gente comprueba. A lo largo de unas semanas eso se convierte en un sentido real y ganado de a qué modelo recurrir — lo cual vale más que cualquier benchmark que pudiéramos publicar.

Pruébalo en tu próximo prompt difícil

La próxima vez que recibas una respuesta que está casi bien, no vuelvas a lanzar el mismo prompt al mismo modelo y a cruzar los dedos. Ramifícalo a otro. La mitad de las veces el segundo modelo simplemente lo clava — y habrás aprendido algo duradero sobre los dos que ningún artículo de reseñas te habría contado.

¿Has visto una errata o quieres replicar? Escríbenos .