Grok Imagine dans le studio : à quoi il sert vraiment
xAI a livré un modèle vidéo + image calibré pour le social. On l’a ajouté à la sélection et déterminé qui devrait le préférer à HappyHorse, Veo ou FLUX.
- vidéo
- images
- notes
Grok Imagine est arrivé en début de semaine et notre première réaction a été : a-t-on besoin d’un modèle image-et-vidéo de plus ? On avait FLUX.2 Pro et Nano Banana 2 pour les stills ; on avait une sélection vidéo qui couvre déjà cinéma, social et budget. La réponse honnête : on n’était pas sûrs — jusqu’à ce qu’on passe quelques jours à y router de vrais prompts et regarder ce qui revenait.
On l’a ajouté au studio aujourd’hui. Voici à quoi il sert, et à quoi il ne sert pas.
Pour quoi Grok Imagine est calibré
Le modèle est clairement entraîné sur un mix différent de ses concurrents. Deux choses sautent aux yeux presque immédiatement :
Il est social-native. Les ratios par défaut sont 9:16 et 1:1 sans discuter ; la grammaire visuelle est plus proche de ce que les gens postent vraiment que de ce à quoi ils aspirent. Les tons de peau, l’éclairage, la spontanéité — il produit des clips et des stills qui semblent sortir du téléphone de quelqu’un, pas d’un moodboard.
Il est rapide et pas cher. Les générations tournent en 4 à 6 secondes sur nos prompts typiques, contre 25 à 40 pour Veo. Le coût en crédits est plus proche d’Hailuo que de Veo. Ça le rend réellement utilisable pour la boucle d’itération à fort volume — brouillonner, décider, remplacer — qu’exigent les workflows sociaux.
Là où il bat les alternatives
Trois catégories concrètes, d’après nos tests :
-
Clips au feeling réel pour X et la vidéo courte. Personnes parlant face caméra, snippets b-roll, moments « day in the life ». La qualité sync-audio de HappyHorse est meilleure ; le cinéma de Veo est plus net ; mais pour des clips qui doivent paraître non mis en scène, Grok gagne.
-
Brouillons et exploration. Quand vous ne savez pas encore quel plan vous voulez, Grok est ce que vous attrapez. Le coût d’itération est assez bas pour générer dix options, choisir le cadrage, puis promouvoir vers un modèle plus lourd pour le final.
-
Mèmes, réactions, stills à exécution rapide. Le versant image gère les blagues compositionnelles que les modèles photoréalistes ont tendance à sur-réfléchir. Si vous voulez une oie en smoking, Grok vous la donne sans questionner vos choix de vie.
Là où il ne bat pas
Ce n’est pas le modèle pour le rendu cinéma. Les mouvements de caméra sont imprécis, les pulls de focus inexistants et les clips longs montrent leurs coutures. Si vous fabriquez quelque chose qui doit tenir en 4K sur une TV, ce n’est pas lui.
Ce n’est pas non plus le modèle pour la typographie ou les labels. Comme la plupart des modèles d’image qui ne sont ni Nano Banana 2 ni GPT Image 2, il peut produire ce qui ressemble à du texte de loin, mais s’effondre à l’inspection.
Et il ne génère pas d’audio synchronisé. Les clips sont muets — il faut ajouter l’audio en post ou router vers HappyHorse si l’audio-vidéo conjoint est requis.
Comment on le route
Dans le studio, « Grok Imagine » apparaît dans le sélecteur image et le sélecteur vidéo. La logique de recommandation le suggère désormais quand :
- Votre ratio est 9:16 ou 1:1 (forme sociale).
- Votre prompt contient des mots comme casual, handheld, real, raw, iPhone, vlog, POV, unfiltered.
- Vous avez précédemment promu un brouillon Grok vers un modèle plus lourd dans le même fil (on prend ça pour un vote de confiance que c’est le bon outil pour la tâche).
Vous pouvez toujours outrepasser la reco. Le but du sélecteur n’est pas d’avoir raison — c’est d’être à une frappe de la bonne réponse.
Une note sur les arbitrages de xAI
Grok Imagine est intéressant en partie parce que xAI fait des arbitrages différents des autres labs. Les concurrents courent après la couronne du benchmark. xAI court après le bouton publier — ce sur quoi quelqu’un clique vraiment générer au quotidien pour le mettre en ligne. C’est une cible d’optimisation différente, et ça produit un produit nettement différent.
On n’a aucun cheval dans aucune de ces courses. Notre job, c’est de mettre le bon outil à une frappe de distance. Donc : brouillons et social, prenez Grok. Plans cinéma, prenez Veo. Vidéo audio-sync, prenez HappyHorse. Stills avec du vrai texte, prenez Nano Banana 2 ou GPT Image 2.
Voilà toute la sélection, chacun faisant ce qu’il fait de mieux.
Une coquille ou un désaccord ? Écrivez-nous .