3 de maio de 2026 4 min read Any AI Studio

Seedance 2.0 e o momento mult-input do vídeo

Nove imagens de referência. Três clipes de referência. Três faixas de áudio. Vimos tentando quebrar o Seedance 2.0 por uma semana — aqui está onde ele brilha e onde ainda tropeça.

vídeo
modelos
releases

A maioria dos modelos de vídeo aceita um prompt. O Seedance 2.0, que a ByteDance lançou em acesso antecipado em março e tornou geralmente disponível esta semana, aceita algo mais próximo de um briefing de diretor: até nove imagens de referência, três clipes de referência, três faixas de áudio, e um prompt. Vimos batendo nele por uma semana. A capacidade é real, as arestas também são reais, e os casos de uso em que ele vence não são os que esperávamos.

Por que mult-input é uma categoria, não um recurso

A coisa em que modelos de vídeo são ruins — em todo provedor — é consistência. Gere três clipes de “uma mulher andando por uma cafeteria” e você ganha três mulheres diferentes em três cafeterias diferentes. Para storyboard, trabalho de marca, video clipes, conteúdo episódico, esse é o verdadeiro bloqueador. Os visuais ficam ok em isolamento; deixam de ser úteis no momento em que a cena B precisa parecer pertencer ao mesmo mundo da cena A.

Mult-input conserta isso te deixando dizer “é assim que o personagem se parece (imagem 1), é assim que é a sala (imagem 2), é esse o clima (clipes 1 e 2), é essa a música (áudio 1).” Seedance 2.0 não é o primeiro a tentar isso — Pika teve uma versão, Runway tem um beta — mas é o primeiro em que funciona com frequência suficiente para recomendarmos construir um workflow ao redor.

Onde ele realmente vence

Depois de uma semana de stress-test, três categorias são vitórias claras:

Storyboard para vídeo curto. Pegue um deck de referência da marca, carregue 4–6 stills no Seedance, e você consegue gerar uma sequência de clipes que compartilham identidade visual. Estávamos pegando cerca de 80% de consistência de personagem em sequências de 8 clipes, suficiente para ser útil em um loop de produção real (os 20% ruins simplesmente são regenerados).

Video clipes e sequências travadas por tempo. O input de faixa de áudio não é para gerar som — o Seedance é mudo — é para cadência. Solte um clipe de 30 segundos da sua faixa e o modelo corta o movimento nas batidas. Testamos isso em três faixas reais e o resultado variou de “ok, ponto de partida útil” para “isso é realmente entregável com edições leves”. Comparado a gerar clipes em silêncio e editar para a música depois, são horas economizadas.

Movimento de produto consistente com a marca. Carregue um still de produto e três referências de estilo de marca; gere o produto girando, em movimento, em contexto. O produto em si fica notavelmente estável entre as gerações de um jeito que modelos prompt-only não conseguem igualar. Se o contexto ao redor parece sua marca é mais hit-or-miss, mas não é mais o gargalo.

Onde ele ainda tropeça

O modelo tem fraquezas claras que não achamos que o anúncio de lançamento vai te contar:

Movimento de formato longo. Qualquer coisa além de 10–12 segundos e a consistência degrada rapidamente. O modelo segura os primeiros segundos bem, deriva no meio, e só às vezes recupera no fim. Por enquanto, trataríamos como um gerador de clipes, não de cenas.
Casamento de áudio complexo. Cadenciar com uma única faixa instrumental: funciona. Cadenciar com diálogo ou uma faixa com várias seções distintas: hit-and-miss. O modelo capta o tempo mas tem dificuldade com pistas estruturais como uma transição verso-refrão.
Mãos e pés. Ressalva padrão — Seedance não é melhor que o resto do campo aqui. Enquadramentos apertados de mão ou pé ainda é onde modelos de vídeo quebram.

Como usamos

No studio, Seedance 2.0 fica no seletor de vídeo como os outros mas com uma UI padrão diferente: o painel de input dele mostra slots de referência na frente, porque o modelo é feito para ser alimentado com referências. Se você só fornece um prompt de texto, vai ganhar algo aceitável mas está usando o modelo do jeito errado — como usar FLUX sem especificar um estilo.

Adicionamos um padrão “reference set” ao studio junto com este lançamento: faça upload de um conjunto de stills uma vez, dê um nome (“Kit da marca Northbreak”, “Maya, a personagem”), e fica disponível em modelos de vídeo que suportam referências — não só Seedance. O mesmo reference set pode alimentar uma sequência do Seedance e uma continuação do Kling no mesmo projeto.

Onde se encaixa na lineup

Seedance 2.0 não substitui nada na nossa lógica de recomendação. HappyHorse continua sendo o padrão para áudio-vídeo conjunto. Veo continua sendo a hero shot cinematográfica. Grok Imagine continua sendo o padrão social. Seedance é a opção baseada em briefing — para quando você tem uma intenção visual clara apoiada por material de referência e quer consistência como a feature principal.

Adicione à rotação. Não aposente nada para abrir espaço.

Achou um erro ou quer discordar? Escreva para nós .