22 de março de 2026 4 min read Any AI Studio

Adicionando vídeo: como escolhemos a lineup de lançamento

Oito modelos de vídeo, um pool compartilhado de créditos. O que entrou, o que não entrou, e os quatro critérios que usamos para decidir.

vídeo
releases

Lançamos vídeo esta semana. Oito modelos, um pool de créditos, nenhum contrato por provedor para gerenciar. Antes de entrar no que faz parte da lineup, uma nota rápida sobre como escolhemos — porque a resposta para “quais modelos de vídeo são melhores” é bem menos óbvia que a equivalente do lado chat.

Os quatro eixos que importam

Modelos de chat competem principalmente por inteligência. Modelos de vídeo competem em quatro eixos ao mesmo tempo, e quase nenhum vence em todos os quatro:

Qualidade visual — nitidez, coerência de movimento, com que frequência uma mão tem cinco dedos.
Velocidade e custo — quanto tempo até você ter algo para olhar e quanto custa iterar.
Controle — referências, seeds, durações, movimentos de câmera, lip-sync.
Áudio — se o modelo emite som que casa com o visual ou se você tem que colar foley em pós-produção.

Um gerador cinematográfico 4K não serve para uma resposta no X. Um modelo rápido de tier social não serve para uma hero shot. Então a lineup é plural por design — queremos uma ferramenta certa por tarefa, não um modelo tentando ser tudo.

O que está dentro

HappyHorse 1.0 é o novo topo do catálogo conforme os benchmarks externos de ontem, mas o que nos importou não foi o score visual — é que o áudio é realmente gerado em conjunto com o vídeo, não colado depois. O lip-sync funciona. A música sobe junto com o movimento. Vamos escrever um post dedicado sobre isso assim que usarmos em mais trabalhos reais.

Veo 3.1 é a opção cinematográfica. 4K-nativo, o text-to-shot mais limpo que vimos, e ridiculamente caro — então roteamos para ele quando o prompt parece uma hero shot (“grande angular, dolly in, hora dourada”) e não quando parece um clipe de redes sociais.

Seedance 2.0 chega amanhã com mult-input — até nove imagens de referência, três clipes de referência, três faixas de áudio. Pré-testamos com chaves beta da ByteDance e é um tipo diferente de ferramenta: menos para “digite um prompt, ganhe um vídeo” e mais para “me dê o briefing do diretor”. Vamos cobrir separadamente em 3 de maio.

Kling 3.0 Omni é o especialista em fluidez de movimento. Melhor continuidade mult-shot nos nossos testes, especialmente quando um personagem precisa atravessar vários momentos sem o rosto se transformar entre eles.

Runway Gen-4.5 continua no kit para os filmmakers que já têm memória muscular dele. Os controles de movimento de câmera e a interface de keyframe ainda são os melhores da categoria se você quer mesmo dirigir uma cena.

Grok Imagine é a opção social-native — rápida, qualidade de rascunho, clipes com cara de real. Adicionamos semana passada e tem um write-up mais completo por vir.

Wan 2.7 é o tier econômico com suporte a LoRA. Raiz open-source, então se você já treinou seus LoRAs de personagem/estilo, é aqui que eles encaixam.

Hailuo 2.3 é a opção confiável mais barata. Nada chamativo. Útil quando você está iterando thumbnails ou testando um conceito sob estresse e não quer queimar créditos premium nisso.

O que não entrou

Três modelos sérios quase entraram no lançamento e não entraram, por motivos diferentes.

O primeiro ainda não lançou um tier sem marca d’água — não vamos expor um modelo que coloca a marca dele no seu output. O segundo tem visuais ótimos mas não tem API para controle de seed, o que torna a iteração dolorosa em um workflow de mult-take. O terceiro é simplesmente caro de um jeito que não fecha conta — mesmo para usuários do plano Max, o custo por clipe nos empurraria a subir o teto.

Vamos revisitar os três quando a precificação deles mudar.

Um pool, oito modelos

A razão pela qual nada disso quebra é que você não está comprando oito assinaturas separadas. Você gasta os mesmos créditos compartilhados em qualquer modelo que escolher, e consegue ver o custo por geração antes de confirmar. Pro é 2.000 créditos por mês, Max é 10.000. Um clipe típico text-to-video do HappyHorse custa 40–60 créditos; uma hero shot 4K do Veo é mais como 120; uma iteração no Hailuo é 6.

Essa proporção é a parte da qual mais nos orgulhamos. O ponto do studio é que você não precisa se comprometer com um provedor antes de saber o que seu prompt exige — e vídeo, mais que qualquer outra modalidade, pune esse tipo de pré-compromisso.

Vídeo está no ar para Pro e Max hoje. O plano grátis ainda não inclui; queremos ver como a matemática dos créditos se comporta por um mês antes de abrir mais a porteira.

Achou um erro ou quer discordar? Escreva para nós .

Os quatro eixos que importam

O que está dentro

O que não entrou

Um pool, oito modelos

Teste o produto por trás do texto. studio.

Teste o produto por trás do texto.
studio.