Pular para o conteúdo
Any AI
Abrir app
← Todos os posts
4 min read Any AI Studio

Grok Imagine no studio: para que ele serve de verdade

A xAI lançou um modelo de vídeo + imagem afinado para redes sociais. Adicionamos à lineup e mapeamos quem deve recorrer a ele em vez de HappyHorse, Veo ou FLUX.

  • vídeo
  • imagens
  • releases

Grok Imagine chegou no começo da semana e nossa primeira reação foi: a gente precisa de mais um modelo de imagem-e-vídeo? Tínhamos FLUX.2 Pro e Nano Banana 2 para stills; tínhamos uma lineup de vídeo que já cobria cinemático, social e tier econômico. A resposta honesta era que não tínhamos certeza — até passar alguns dias roteando prompts reais por ele e olhando o que voltava.

Adicionamos ao studio hoje. Aqui está para o que serve e para o que não serve.

Para o que o Grok Imagine é afinado

O modelo claramente foi treinado em um mix diferente dos concorrentes. Duas coisas se destacam quase imediatamente:

É social-native. Aspect ratios assumem 9:16 e 1:1 por padrão sem reclamar; a gramática visual é mais próxima do que as pessoas realmente postam do que do que aspiram a postar. Tons de pele, iluminação, naturalidade — produz clipes e stills que parecem ter saído do celular de alguém, não de um moodboard.

É rápido e barato. Gerações são de cerca de 4–6 segundos nos prompts típicos versus 25–40 do Veo. O custo em créditos é mais perto do Hailuo do que do Veo. Isso o torna realmente usável para o loop de iteração de alto volume — rascunhar, decidir, substituir — que workflows sociais exigem.

Onde ele bate as alternativas

Três categorias concretas, dos nossos testes:

  1. Clipes com cara de real para X e vídeo curto. Pessoas falando para a câmera, snippets estilo b-roll, momentos “um dia na vida”. A qualidade de sync de áudio do HappyHorse é melhor; a cinematografia do Veo é mais nítida; mas para clipes que precisam parecer não-encenados, o Grok vence.

  2. Rascunhos e exploração. Quando você ainda não sabe qual é a cena, o Grok é para o que você recorre. O custo de iteração é baixo o suficiente para você gerar dez opções, escolher o enquadramento que gosta, e promover para um modelo mais pesado para o final.

  3. Memes, reações, stills de fast-turnaround. O lado de imagem lida com o tipo de piada de composição que os modelos afinados em fotorrealismo tendem a pensar demais. Se você quer um ganso de smoking, o Grok vai te dar um ganso de smoking sem questionar suas escolhas de vida.

Onde ele não bate

Não é o modelo para output cinemático. Movimentos de câmera são imprecisos, focus pulls são inexistentes e clipes mais longos mostram as costuras. Se você está fazendo algo que precisa segurar em 4K numa TV, não é esse.

Também não é o modelo para tipografia ou rótulos. Como a maioria dos modelos de imagem que não são Nano Banana 2 ou GPT Image 2, ele consegue produzir algo que parece texto de longe e desmonta quando você inspeciona.

E ele não gera áudio sincronizado. Os clipes são mudos — você adicionaria áudio em pós ou rotearia para o HappyHorse se áudio-vídeo conjunto for o requisito.

Como roteamos

No studio, “Grok Imagine” aparece tanto no seletor de imagem quanto no de vídeo. A lógica de recomendação do seletor agora sugere ele quando:

  • Seu aspect ratio é 9:16 ou 1:1 (formato social).
  • Seu prompt contém palavras como casual, handheld, real, raw, iPhone, vlog, POV, unfiltered.
  • Você previamente promoveu um rascunho do Grok para um modelo mais pesado no mesmo thread (tratamos isso como um voto de confiança de que essa é a ferramenta certa para o trabalho).

Você sempre pode sobrescrever a recomendação. O ponto do seletor não é estar certo — é estar a um teclado de distância de estar certo.

Uma nota sobre os tradeoffs da xAI

Grok Imagine é interessante em parte porque a xAI está fazendo tradeoffs diferentes dos outros labs. Os concorrentes correm pela coroa do benchmark. A xAI está correndo pelo botão de postar — no que alguém realmente clica gerar, todo dia, para colocar nas redes sociais. Esse é um target de otimização diferente e produz um produto significativamente diferente.

Não temos cavalo nessas corridas. Nosso trabalho é colocar a ferramenta certa a um teclado de distância. Então: rascunhos e social, vá de Grok. Shots cinematográficos, vá de Veo. Vídeo com áudio sincronizado, vá de HappyHorse. Stills com texto de verdade, vá de Nano Banana 2 ou GPT Image 2.

Essa é a lineup inteira, cada modelo fazendo no que é melhor.


Achou um erro ou quer discordar? Escreva para nós .

Teste o produto por trás do texto.
studio.

Plano grátis. Sem cartão. Login por Google ou Apple.