3 mai 2026 4 min read Any AI Studio

Seedance 2.0 et le moment multi-entrées de la vidéo

Neuf images de référence. Trois clips de référence. Trois pistes audio. On essaie de casser Seedance 2.0 depuis une semaine — voici où il brille et où il trébuche encore.

vidéo
modèles
notes

La plupart des modèles vidéo prennent un prompt. Seedance 2.0, que ByteDance a livré en accès anticipé en mars et rendu généralement disponible cette semaine, prend quelque chose qui ressemble plus à un brief de réalisateur : jusqu’à neuf images de référence, trois clips de référence, trois pistes audio, et un prompt. On le malmène depuis une semaine. La capacité est réelle, les aspérités le sont aussi, et les cas d’usage où il gagne ne sont pas ceux qu’on attendait.

Pourquoi la multi-entrée est une catégorie, pas une feature

Ce que les modèles vidéo ont toujours raté — chez tous les fournisseurs — c’est la cohérence. Générez trois clips de « une femme traversant un coffee shop » et vous obtenez trois femmes différentes dans trois coffee shops différents. Pour le storyboarding, le travail de marque, les clips musicaux, le contenu épisodique, c’est le vrai blocage. Les visuels vont en isolation ; ils cessent d’être utiles dès que la scène B doit appartenir au même monde que la scène A.

La multi-entrée résout ça en vous laissant dire « voilà à quoi ressemble le personnage (image 1), voilà la pièce (image 2), voilà l’ambiance visée (clips 1 et 2), voilà la musique (audio 1) ». Seedance 2.0 n’est pas le premier à tenter ça — Pika avait une version, Runway a une beta — mais c’est le premier où ça marche assez souvent pour qu’on recommande de bâtir un workflow autour.

Là où il gagne vraiment

Après une semaine de stress-tests, trois catégories sont des victoires nettes :

Storyboard pour la vidéo courte. Prenez un deck de référence marque, chargez 4 à 6 stills dans Seedance, et vous pouvez générer une séquence de clips qui partagent tous une identité visuelle. On obtenait environ 80 % de cohérence de personnage sur des séquences de 8 clips, ce qui suffit pour être utile dans une vraie boucle de production (les mauvais 20 % se régénèrent).

Clips musicaux et séquences calées sur le tempo. L’entrée piste audio ne sert pas à générer du son — Seedance est muet — elle sert au tempo. Déposez 30 secondes de votre morceau et le modèle coupe le mouvement sur les beats. Testé sur trois vrais morceaux, le résultat allait de « ok, point de départ utile » à « livrable avec retouches légères ». Comparé à générer en silence puis monter sur la musique, c’est des heures gagnées.

Mouvement produit cohérent avec la marque. Chargez un still produit et trois références de style marque ; générez le produit tournant, en mouvement, en contexte. Le produit lui-même reste remarquablement stable entre les générations, ce que les modèles prompt-only ne savent pas faire. Que le contexte autour ait l’air de votre marque est plus aléatoire, mais ce n’est plus le goulet.

Là où il trébuche

Le modèle a des faiblesses claires que l’annonce de lancement ne dit sans doute pas :

Mouvement long. Au-delà de 10 à 12 secondes, la cohérence se dégrade nettement. Le modèle tient bien les premières secondes, dérive au milieu, et ne récupère que parfois à la fin. Pour l’instant, traitez-le comme un générateur de clips, pas de scènes.
Audio complexe. Caler le tempo sur un instrumental unique : marche. Caler sur du dialogue ou une piste à sections distinctes : aléatoire. Il capte le tempo mais peine sur les indices structurels comme une transition couplet-refrain.
Mains et pieds. Réserve classique — Seedance n’est pas meilleur que le reste du champ ici. Le cadrage serré sur mains ou pieds reste là où les modèles vidéo cassent.

Comment on l’utilise

Dans le studio, Seedance 2.0 vit dans le sélecteur vidéo comme les autres mais avec une UI d’entrée différente : le panneau d’entrée expose les slots de référence en premier, parce que le modèle est fait pour être nourri de références. Si vous ne fournissez qu’un prompt texte, vous obtiendrez quelque chose d’acceptable mais vous utilisez le modèle à l’envers — comme utiliser FLUX sans spécifier de style.

On a ajouté un motif « set de références » au studio avec ce lancement : téléversez un set de stills une fois, nommez-le (« kit marque Northbreak », « Maya le personnage »), et il est disponible sur les modèles vidéo qui supportent les références — pas que Seedance. Le même set peut alimenter une séquence Seedance et une continuation Kling dans le même projet.

Sa place dans la sélection

Seedance 2.0 ne remplace rien dans notre logique de recommandation. HappyHorse reste le défaut pour l’audio-vidéo conjoint. Veo reste le hero shot cinéma. Grok Imagine reste le défaut social. Seedance est l’option pilotée par le brief — pour quand vous avez une intention visuelle claire adossée à du matériel de référence et voulez la cohérence comme feature principale.

Ajoutez-le à la rotation. Ne mettez rien à la retraite pour lui faire de la place.

Une coquille ou un désaccord ? Écrivez-nous .