3 de mayo de 2026 4 min read Any AI Studio

Seedance 2.0 y el momento multi-input para vídeo

Nueve imágenes de referencia. Tres clips de referencia. Tres pistas de audio. Llevamos una semana intentando romper Seedance 2.0 — aquí brilla y aquí aún tropieza.

vídeo
modelos
notas

La mayoría de modelos de vídeo aceptan un prompt. Seedance 2.0, que ByteDance lanzó en early access en marzo y puso en disponibilidad general esta semana, acepta algo más parecido a un brief de dirección: hasta nueve imágenes de referencia, tres clips de referencia, tres pistas de audio y un prompt. Llevamos una semana machacándolo. La capacidad es real, los bordes ásperos también, y los casos de uso donde gana no son los que esperábamos.

Por qué multi-input es una categoría, no una función

Aquello en lo que los modelos de vídeo han sido malos — en cada proveedor — es la consistencia. Genera tres clips de «una mujer caminando por una cafetería» y obtienes tres mujeres distintas en tres cafeterías distintas. Para storyboarding, trabajo de marca, videoclips o contenido episódico, ese es el bloqueador real. Los visuales se ven bien en aislamiento; dejan de ser útiles en el momento en que necesitas que la escena B parezca pertenecer al mismo mundo que la escena A.

Multi-input lo arregla dejándote decir «así es el personaje (imagen 1), esta es la habitación (imagen 2), este es el mood al que vamos (clips 1 y 2), esta es la música (audio 1)». Seedance 2.0 no es el primero en intentarlo — Pika tenía una versión, Runway tiene una beta — pero es el primero en el que funciona lo suficiente como para que recomendemos montar un flujo a su alrededor.

Dónde gana de verdad

Tras una semana de stress test, tres categorías son victoria clara:

Storyboarding para vídeo corto. Coge un deck de referencias de marca, carga 4–6 stills en Seedance y puedes generar una secuencia de clips que comparten identidad visual. Obteníamos en torno a un 80% de consistencia de personaje en secuencias de 8 clips, suficiente para ser útil en un bucle de producción real (el 20% malo se regenera).

Videoclips y secuencias atadas a tempo. El input de pista de audio no es para generar sonido — Seedance es silencioso — es para pacing. Suelta un clip de 30 segundos de tu pista y el modelo corta el movimiento a las pulsaciones. Lo probamos con tres pistas reales y el resultado fue desde «vale, punto de partida útil» a «esto es entregable con edits ligeros». Comparado con generar clips en silencio y editarlos a la música después, son horas ahorradas.

Movimiento de producto con consistencia de marca. Carga un still de producto y tres referencias de estilo de marca; genera el producto rotando, en movimiento, en contexto. El producto en sí se mantiene notablemente estable entre generaciones de un modo que los modelos solo-prompt no consiguen. Que el contexto alrededor parezca tu marca es más variable, pero ya no es el cuello de botella.

Dónde aún tropieza

El modelo tiene debilidades claras que no creemos que el anuncio de lanzamiento te cuente:

Movimiento de formato largo. Pasados los 10–12 segundos, la consistencia se degrada con fuerza. El modelo aguanta bien los primeros segundos, deriva en el medio y solo a veces se recupera al final. Por ahora lo tratamos como generador de clips, no de escenas.
Match complejo de audio. Pacing a una pista instrumental sola: funciona. Pacing a diálogo o a una pista con varias secciones distintas: irregular. El modelo capta tempo pero pelea con cues estructurales como una transición verso-estribillo.
Manos y pies. Salvedad estándar — Seedance no está mejor que el resto del campo aquí. Encuadres cerrados de manos o pies siguen siendo donde los modelos de vídeo se rompen.

Cómo lo usamos

En el studio, Seedance 2.0 vive en el selector de vídeo como los demás pero con UI por defecto distinta: el panel de input muestra los slots de referencia al frente, porque el modelo está pensado para ser alimentado con referencias. Si solo das un prompt de texto, obtendrás algo aceptable pero estás usando el modelo mal — como usar FLUX sin especificar estilo.

Añadimos un patrón de «reference set» al studio junto con este lanzamiento: sube un set de stills una vez, dale nombre («kit de marca Northbreak», «Maya el personaje») y queda disponible en los modelos de vídeo que soportan referencias — no solo Seedance. El mismo reference set puede alimentar una secuencia Seedance y una continuación Kling en el mismo proyecto.

Dónde encaja en el line-up

Seedance 2.0 no reemplaza a nadie en nuestra lógica de recomendación. HappyHorse sigue siendo el default para audio-vídeo conjunto. Veo sigue siendo la hero shot cinemática. Grok Imagine sigue siendo el default social. Seedance es la opción guiada por brief — para cuando tienes una intención visual clara respaldada por material de referencia y quieres que la consistencia sea la función titular.

Añádelo a la rotación. No retires nada para hacerle hueco.

¿Has visto una errata o quieres replicar? Escríbenos .