3. Mai 2026 3 min read Any AI Studio

Seedance 2.0 und der Multi-Input-Moment für Video

Neun Referenzbilder. Drei Referenzclips. Drei Audio-Tracks. Wir haben eine Woche versucht, Seedance 2.0 zu brechen — hier ist, wo es glänzt und wo es noch stolpert.

Video
Modelle
Releases

Die meisten Videomodelle nehmen einen Prompt. Seedance 2.0, das ByteDance im März in Early Access lancierte und diese Woche allgemein verfügbar machte, nimmt etwas, das einem Regie-Brief näher kommt: bis zu neun Referenzbilder, drei Referenzclips, drei Audio-Tracks und einen Prompt. Wir haben es eine Woche lang traktiert. Die Fähigkeit ist echt, die rauen Kanten sind ebenfalls echt, und die Use-Cases, in denen es gewinnt, sind nicht die, die wir erwartet haben.

Warum Multi-Input eine Kategorie ist, nicht ein Feature

Was Videomodellen — über jeden Anbieter — bisher schwerfiel, ist Konsistenz. Generiere drei Clips von „eine Frau läuft durch ein Café” und du bekommst drei verschiedene Frauen in drei verschiedenen Cafés. Für Storyboarding, Markenarbeit, Musikvideos, Episodencontent ist das der echte Blocker. Die Visuals sehen isoliert okay aus; sie hören auf nützlich zu sein, sobald Szene B aussehen muss, als gehöre sie in dieselbe Welt wie Szene A.

Multi-Input löst das, indem du sagen kannst: „so sieht die Figur aus (Bild 1), das ist der Raum (Bild 2), das ist die Stimmung, die wir suchen (Clips 1 und 2), das ist die Musik (Audio 1)”. Seedance 2.0 ist nicht das erste, das das versucht — Pika hatte eine Version, Runway hat eine Beta — aber es ist das erste, bei dem es oft genug funktioniert, um darauf einen Workflow zu bauen.

Wo es wirklich gewinnt

Nach einer Woche Stresstests sind drei Kategorien klare Siege:

Storyboarding für Short-Form-Video. Nimm ein Markenreferenz-Deck, lade 4–6 Stills in Seedance, und du kannst eine Sequenz von Clips generieren, die alle visuelle Identität teilen. Wir lagen bei rund 80 % Charakterkonsistenz über 8-Clip-Sequenzen, genug, um in einem echten Produktionsloop nützlich zu sein (die schlechten 20 % werden einfach neu generiert).

Musikvideos und tempo-gebundene Sequenzen. Der Audio-Track-Input ist nicht zur Sound-Erzeugung — Seedance ist stumm — sondern für Pacing. Wirf einen 30-Sekunden-Ausschnitt deines Tracks rein, und das Modell schneidet die Bewegung auf die Beats. Wir haben es an drei echten Tracks getestet, und die Ergebnisse reichten von „okay, brauchbarer Ausgangspunkt” bis „mit leichten Edits ausliefer-fähig”. Verglichen mit stummem Generieren und nachträglichem Schneiden zur Musik — Stunden gespart.

Markenkonsistente Produktbewegung. Lade ein Produkt-Still und drei Markenstil-Referenzen; generiere das Produkt rotierend, in Bewegung, im Kontext. Das Produkt selbst bleibt über Generierungen erstaunlich stabil, auf eine Weise, die Prompt-only-Modelle nicht erreichen. Ob der Kontext drumherum nach deiner Marke aussieht, ist mehr Treffer-oder- Daneben, aber er ist nicht mehr das Nadelöhr.

Wo es noch stolpert

Das Modell hat klare Schwächen, die dir die Launch-Ankündigung wahrscheinlich nicht erzählt:

Long-Form-Bewegung. Alles jenseits von 10–12 Sekunden, und die Konsistenz bricht stark ein. Das Modell hält die ersten paar Sekunden gut, driftet in der Mitte und erholt sich nur manchmal am Ende. Behandle es vorerst als Clip-Generator, nicht als Szenen-Generator.
Komplexes Audio-Matching. Pacing zu einem instrumentalen Track: funktioniert. Pacing zu Dialog oder einem Track mit mehreren Abschnitten: Treffer-oder-Daneben. Das Modell holt das Tempo, kämpft aber mit strukturellen Cues wie einem Strophe-Refrain-Übergang.
Hände und Füße. Standard-Einschränkung — Seedance ist hier nicht besser als der Rest. Enges Hand- oder Fuß-Framing ist weiterhin, wo Videomodelle brechen.

Wie wir es nutzen

Im Studio sitzt Seedance 2.0 im Video-Picker wie die anderen, aber mit einer anderen Default-UI: das Input-Panel zeigt Referenz-Slots vornedran, denn das Modell ist gemeint, mit Referenzen gefüttert zu werden. Wenn du nur einen Text-Prompt gibst, bekommst du etwas Akzeptables, aber du nutzt das Modell falsch — wie FLUX ohne Stil- Angabe.

Wir haben mit diesem Launch ein „Reference-Set”-Muster ins Studio gebracht: lade eine Sammlung von Stills einmal hoch, benenne sie („Northbreak Brand Kit”, „Maya the character”), und sie ist über Videomodelle hinweg verfügbar, die Referenzen unterstützen — nicht nur Seedance. Dasselbe Reference-Set kann eine Seedance-Sequenz und eine Kling-Fortsetzung im selben Projekt befeuern.

Wo es ins Lineup passt

Seedance 2.0 ersetzt nichts in unserer Empfehlungslogik. HappyHorse bleibt der Default für gemeinsames Audio-Video. Veo bleibt der cineastische Hero-Shot. Grok Imagine bleibt der Social-Default. Seedance ist die brief-getriebene Option — für wenn du eine klare visuelle Intention plus Referenzmaterial hast und Konsistenz das Headline-Feature sein soll.

In die Rotation aufnehmen. Nichts ausmustern, um Platz zu schaffen.

Tippfehler entdeckt oder anderer Meinung? Schreib uns .