10 de mayo de 2026 3 min read Any AI Studio

GPT-5, Claude Opus 4, Gemini 2.5 Pro: cara a cara en 2026

Pasamos los mismos 18 prompts por cada modelo frontier y registramos dónde gana cada uno. La respuesta no es «usa el más nuevo» — es más interesante.

benchmarks
comparaciones
modelos

El frontier se mueve tan rápido que los posts de benchmarks suelen quedar desfasados antes de publicarse. Aún así — aquí estamos, cuatro meses dentro de 2026, y tres cosas se han vuelto obvias si usas estos modelos todo el día en vez de leer sobre ellos.

El titular

Claude Opus 4 es el mejor generalista si mides por «cuántas veces la respuesta no necesitó un follow-up». GPT-5 es el mejor cuando tiene que seguir una instrucción complicada sin perder el hilo a los tres párrafos. Gemini 2.5 Pro es el mejor cuando el prompt incluye un PDF de 200 páginas y necesitas que se lo lea de verdad, no que lo hojee.

Pasamos 18 prompts representativos por los tres. Las tareas se dividieron en cuatro grupos:

Reasoning y matemáticas — Project Euler 600s, preguntas de estadística aplicada, dos problemas abiertos de la AIME.
Code review — diffs de 200 líneas de Go, un hook de React roto a propósito, dos consultas SQL con bugs sutiles de corrección.
Escritura — copy de sales page, esquema de un ensayo de 1 200 palabras, borrador de un post técnico.
Long-context — transcripciones de 80k tokens, síntesis multi-PDF, una tarea de recuperación sobre 12 documentos.

Dónde gana cada modelo de verdad

Claude Opus 4 dominó code review con una distancia mayor de la esperada. Detecta lo sutil — un off-by-one en una función window de SQL, un useEffect que captura una variable obsoleta — donde los otros dos hacen pattern match a «parece bien». El modo extended thinking sumó otra marca solo en los problemas más duros; para review diario, el Opus normal ya estaba ahí.

GPT-5 ganó en seguir instrucciones multi-paso. Le dimos a cada modelo un prompt con once requisitos explícitos (formato, tono, longitud, frases concretas que incluir, cosas que excluir). GPT-5 acertó diez de once al primer intento. Claude acertó ocho. Gemini, siete. Si tu prompt es una spec estructurada, GPT-5 sigue siendo la apuesta más segura.

Gemini 2.5 Pro ganó en long-context con claridad. La ventana de 2M tokens no es un truco — la usa de verdad. En una tarea de síntesis sobre 12 PDFs, Gemini referenció correctamente los documentos del tres al once; los otros citaron mayormente el primero. El multimodal nativo también importa más de lo que dicen los benchmarks: parsear capturas de pantalla en línea te ahorra un viaje.

Qué significa esto en el uso diario

Aquí va la parte que los posts de benchmarks se saltan: en la práctica, cambias. Abre el chat en Opus porque es el mejor para code review. Date cuenta de que la pregunta de hoy es una spec estructurada. Cambia a GPT-5 a mitad de conversación. El siguiente turno implica un PDF — cambia a Gemini, pregunta, vuelve.

Ese es exactamente el flujo para el que está diseñado Any AI Studio. Las funciones de branch y comparación lado a lado significan que no tienes que elegir de antemano. Envía el prompt a dos modelos a la vez, quédate con la mejor respuesta, ramifica la perdedora para volver a probar.

Salvedades

Estos resultados se sostuvieron en mayo de 2026. El próximo salto trimestral probablemente le dará la vuelta a alguna categoría. Repetiremos la suite cuando salga GPT-5.1 (rumoreado a finales de verano) y publicaremos una actualización.

Además: el coste importa. Opus es el más caro de los tres por coste por token. Si facturas por API, GPT-5 acaba más barato para calidad similar en la mayoría de tareas no de código. No trasladamos el coste por token a los usuarios de suscripción en Pro, así que esto es solo una nota interesante — pero merece la pena mencionarlo si comparas pricing directo de proveedor.

TL;DR

Usa Opus para código, GPT-5 para specs estructuradas, Gemini para long-context. O — más fácil — abre Any AI Studio y deja que el selector de modelo recuerde a cuál acudes en cada situación.

¿Has visto una errata o quieres replicar? Escríbenos .