3 maggio 2026 4 min read Any AI Studio

Seedance 2.0 e il momento multi-input per il video

Nove immagini di riferimento. Tre clip di riferimento. Tre tracce audio. Cerchiamo di rompere Seedance 2.0 da una settimana — ecco dove brilla e dove inciampa ancora.

video
modelli
release

La maggior parte dei modelli video prende un prompt. Seedance 2.0, che ByteDance ha rilasciato in early access a marzo e reso generalmente disponibile questa settimana, prende qualcosa di più vicino a un brief da regista: fino a nove immagini di riferimento, tre clip di riferimento, tre tracce audio, e un prompt. Lo stiamo martellando da una settimana. La capacità è reale, le rugosità anche, e i casi d’uso in cui vince non sono quelli che ci aspettavamo.

Perché il multi-input è una categoria, non una feature

La cosa in cui i modelli video sono stati cattivi — su ogni provider — è la consistenza. Genera tre clip di «una donna che cammina in un coffee shop» e ottieni tre donne diverse in tre coffee shop diversi. Per storyboard, brand work, music video, contenuti episodici, è il vero ostacolo. Le visuali in isolamento sembrano ok; smettono di essere utili appena la scena B deve sembrare nello stesso mondo della scena A.

Il multi-input lo risolve facendoti dire «ecco com’è il personaggio (immagine 1), ecco la stanza (immagine 2), ecco il mood che voglio (clip 1 e 2), ecco la musica (audio 1)». Seedance 2.0 non è il primo a tentarlo — Pika aveva una versione, Runway ha una beta — ma è il primo in cui funziona abbastanza spesso da consigliare di costruirci un workflow sopra.

Dove vince davvero

Dopo una settimana di stress-test, tre categorie sono vittorie chiare:

Storyboard per short-form video. Prendi un deck di riferimento del brand, carica 4–6 still in Seedance e generi una sequenza di clip che condividono identità visiva. Otteniamo circa l’80% di consistenza del personaggio su sequenze di 8 clip, abbastanza per essere utile in un loop di produzione vera (il 20% sbagliato viene rigenerato).

Music video e sequenze tempo-locked. L’input traccia audio non serve a generare suono — Seedance è muto — serve al pacing. Metti una clip da 30 secondi del tuo brano e il modello taglia il movimento sui beat. Lo abbiamo provato su tre brani veri e il risultato è andato da «ok, punto di partenza utile» a «questo è davvero spedibile con edit leggeri». Rispetto a generare clip mute e montarle sulla musica dopo, sono ore risparmiate.

Movimento di prodotto brand-consistent. Carica uno still di prodotto e tre riferimenti di stile del brand; genera il prodotto che ruota, in movimento, in contesto. Il prodotto stesso resta notevolmente stabile tra le generazioni in un modo che i modelli prompt-only non eguagliano. Se il contesto attorno sembra del tuo brand è più hit-or-miss, ma non è più il collo di bottiglia.

Dove inciampa ancora

Il modello ha debolezze chiare di cui l’annuncio di lancio non parlerà:

Movimento long-form. Oltre i 10–12 secondi la consistenza degrada bruscamente. Il modello tiene bene i primi secondi, va in drift al centro e recupera solo a volte alla fine. Per ora lo tratteremmo come generatore di clip, non di scene.
Matching audio complesso. Pacing su una singola traccia strumentale: funziona. Pacing su dialogo o traccia con più sezioni distinte: hit-and-miss. Il modello prende il tempo ma fa fatica con cue strutturali come una transizione verse-chorus.
Mani e piedi. Caveat standard — Seedance non è meglio del resto del campo qui. Inquadrature strette su mani o piedi sono ancora dove i modelli video si rompono.

Come lo usiamo

Nello studio, Seedance 2.0 sta nel selettore video come gli altri ma con una UI di default diversa: il pannello input mostra gli slot di riferimento in primo piano, perché il modello è pensato per essere alimentato a riferimenti. Se gli dai solo un prompt testuale ottieni qualcosa di accettabile ma stai usando il modello nel modo sbagliato — come usare FLUX senza specificare uno stile.

Abbiamo aggiunto un pattern «reference set» allo studio insieme a questo lancio: carica un set di still una volta, dagli un nome («Northbreak brand kit», «Maya the character»), ed è disponibile su tutti i modelli video che supportano riferimenti — non solo Seedance. Lo stesso reference set può alimentare una sequenza Seedance e una continuazione Kling nello stesso progetto.

Dove si inserisce nella lineup

Seedance 2.0 non sostituisce nulla nella nostra logica di raccomandazione. HappyHorse resta il default per audio-video congiunto. Veo resta l’hero shot cinematografico. Grok Imagine resta il default social. Seedance è l’opzione brief-driven — per quando hai un’intenzione visiva chiara sostenuta da materiale di riferimento e vuoi che la consistenza sia la feature principale.

Aggiungilo alla rotazione. Non ritirare niente per farci posto.

Hai trovato un refuso o vuoi dissentire? Scrivici .