22 de marzo de 2026 4 min read Any AI Studio

Añadimos vídeo: cómo elegimos el line-up de lanzamiento

Ocho modelos de vídeo, un pool de créditos compartido. Lo que entró, lo que no, y los cuatro criterios que usamos para decidir.

vídeo
notas

Esta semana lanzamos vídeo. Ocho modelos, un pool de créditos, sin contratos por proveedor que gestionar. Antes de entrar en el line-up, una nota rápida sobre cómo lo elegimos — porque la respuesta a «qué modelos de vídeo son mejores» es mucho menos obvia que la equivalente en chat.

Los cuatro ejes que importan

Los modelos de chat compiten sobre todo en inteligencia. Los de vídeo compiten en cuatro ejes a la vez, y casi ningún modelo gana en los cuatro:

Calidad visual — nitidez, coherencia de movimiento, cuántas veces una mano tiene cinco dedos.
Velocidad y coste — cuánto tardas en ver algo y cuánto cuesta iterar.
Control — referencias, semillas, duraciones, movimientos de cámara, lip-sync.
Audio — si el modelo emite sonido que casa con la imagen o si tienes que añadir foley después.

Un generador cinemático 4K es inadecuado para una respuesta en X. Un modelo social rápido es inadecuado para una hero shot. Por eso el line-up es plural por diseño — queremos la herramienta correcta para cada trabajo, no un modelo intentando ser todo.

Lo que entra

HappyHorse 1.0 es la nueva cima del catálogo según los benchmarks externos de ayer, pero lo que nos importaba no era la puntuación visual — era que el audio se genera de verdad junto al vídeo, no superpuesto después. El lip-sync funciona. La música crece a tiempo con el movimiento. Le dedicaremos un post propio cuando lo hayamos usado en más trabajos reales.

Veo 3.1 es la opción cinemática. 4K nativo, el text-to-shot más limpio que hemos visto, y ridículamente caro — así que lo enrutamos cuando el prompt parece una hero shot («wide-angle, dolly in, golden hour») y no cuando parece un clip social.

Seedance 2.0 llega mañana con multi-input — hasta nueve imágenes de referencia, tres clips de referencia, tres pistas de audio. Lo probamos en beta con keys de ByteDance y es otro tipo de herramienta: menos «escribe un prompt, recibe un vídeo» y más «aquí tienes un brief de dirección». Le dedicaremos su post el 3 de mayo.

Kling 3.0 Omni es el especialista en fluidez de movimiento. La mejor continuidad multi-toma en nuestras pruebas, sobre todo cuando un personaje tiene que caminar por varios momentos sin que su cara se transforme entre ellos.

Runway Gen-4.5 sigue en el kit para los cineastas que ya tienen memoria muscular con él. Los controles de cámara y la interfaz de keyframes siguen siendo los mejores de la categoría si quieres dirigir una toma de verdad.

Grok Imagine es la opción social-native — rápida, calidad de borrador, clips con sensación real. La añadimos la semana pasada y tenemos un post más amplio en camino.

Wan 2.7 es la opción económica con soporte LoRA. Raíces open-source, así que si ya has entrenado tus propios LoRAs de personaje o estilo, aquí es donde encajan.

Hailuo 2.3 es la opción fiable más barata. Nada llamativo. Útil cuando iteras thumbnails o estresas un concepto y no quieres quemar créditos premium haciéndolo.

Lo que no entró

Tres modelos serios casi entraron en el lanzamiento y no lo hicieron, por razones distintas.

El primero aún no ofrecía un tier sin marca de agua — no vamos a exponer un modelo que ponga su logo en tu salida. El segundo tiene buenos visuales pero no expone API para control de semilla, lo que hace la iteración dolorosa en un flujo multi-toma. El tercero es simplemente caro de un modo que no cuadra — incluso para usuarios Max, el coste por clip nos obligaría a subir el cap.

Volveremos a revisarlos cuando cambien su pricing.

Un pool, ocho modelos

Lo que hace que esto funcione es que no estás comprando ocho suscripciones distintas. Gastas los mismos créditos compartidos elijas el modelo que elijas, y ves el coste por generación antes de enviar. Pro son 2 000 créditos al mes, Max son 10 000. Un clip típico text-to-video de HappyHorse cuesta 40–60 créditos; una hero shot Veo 4K es más bien 120; una iteración Hailuo son 6.

Esa proporción es la parte de la que estamos más orgullosos. El sentido del studio es que no tengas que pre-comprometerte con un proveedor antes de saber qué pide tu prompt — y el vídeo, más que ninguna otra modalidad, castiga ese tipo de pre-compromiso.

El vídeo está activo para Pro y Max desde hoy. El plan gratis aún no lo incluye; queremos ver cómo cuadra la economía de créditos durante un mes antes de abrir más la puerta.

¿Has visto una errata o quieres replicar? Escríbenos .

Los cuatro ejes que importan

Lo que entra

Lo que no entró

Un pool, ocho modelos

Prueba el producto detrás de lo que lees. studio.

Prueba el producto detrás de lo que lees.
studio.