17. Mai 2026 4 min read Any AI Studio

HappyHorse 1.0: das erste Videomodell, das synchrones Audio hinbekommt

Alibabas HappyHorse 1.0 ist diese Woche erschienen. Die Visuals sind beeindruckend. Was sonst niemand gelöst hat — gemeinsame Audio-Video-Generierung — macht es zum neuen Default im Lineup.

Video
Releases
Modelle

Alibabas HappyHorse 1.0 ist am Donnerstag erschienen. Am Ende des Tages stand es an der Spitze der öffentlichen Video-Leaderboards, und am Ende der Woche drehte sich das einzige Thema in unserem Gruppenchat darum, wie das Audio tatsächlich funktioniert. Wir nennen es jetzt: das ist das erste allgemein verfügbare Text-to-Video-Modell, in dem der Sound zur Bildwelt by design passt, nicht durch nachträgliches Lip-Sync. Das ändert das Lineup. Es ändert auch die Art von Arbeit, die du glaubhaft aus einer generativen Pipeline ausliefern kannst.

Das Audio-Sync-Problem, kurz

Die meisten „Text-to-Video mit Audio” bis hierhin waren zwei Pipelines, zusammengeklebt. Das visuelle Modell generiert einen Clip. Ein separates Audiomodell erzeugt Sound. Eine dritte Stufe versucht sie auszurichten — Hundebellen zum Hundemund, Türknall zur schließenden Tür, Musikanstieg zur Kamerafahrt. Die Nähte sieht man, besonders bei Dialog. Du siehst einen Menschen sprechen. Die Lippenformen passen nicht zu den Silben. Das Gehirn merkt das sofort.

Die Lösung ist nicht bessere Lip-Sync-Software. Es ist, visuelle und Audio-Ströme gemeinsam zu trainieren, sodass das Modell über Sound und Bild als ein Signal nachdenkt. Das ist schwer aus praktischen Gründen (die Trainingsdaten sind chaotischer und teurer zu kuratieren) und architektonischen Gründen (du brauchst Cross-Modal-Attention, die keinen der Ströme degradiert). HappyHorse 1.0 ist das erste Modell, das das in Produktion gemeinsam und in Qualität ausliefert.

Was es wirklich gut macht

Eine Woche damit an echten Briefs gearbeitet, sind die Siege konkret:

Dialog. Lip-Sync ist korrekt für die Silben, nicht nur die Mundbewegungen. Betonung auf dem richtigen Wort fällt mit Augenbrauenheben zusammen. Blickkontaktmuster passt zur Kadenz der Zeile. Das war der Teil, der sich in unserem ersten Test-Prompt nach Science-Fiction anfühlte, und ist jetzt der Teil, auf den wir uns am stärksten verlassen.

Foley. Schritte landen auf den Frames, in denen der Fuß landet. Türen knallen im Frame, in dem sie schließen. Gieß Wasser in einem Clip und das Wassergeräusch beginnt, wenn die Krugkante kippt — nicht 200 ms zu spät.

Score. Wenn der Prompt nach Musik fragt, hat die Musik eine Struktur, die zur visuellen Struktur passt — Schwellen bei Bewegung, Hits an Schnitten. Nicht auf „professioneller Komponist”-Niveau, aber auf „kompetenter Indie-Szene-Setter”-Niveau, was weit besser ist als jedes andere generative Audio, das wir integriert haben.

Was noch eine Generation braucht

Das Modell ist nicht magisch. Drei Bereiche, wo wir noch manuell flicken:

Musikidentität. Es kann komponieren, aber keinen spezifischen Künstler oder Track reproduzieren. Wenn deine Marke eine sonische Signatur hat, legst du die weiterhin in der Post drauf.
Soundeffekt-Bibliotheken. Für sehr spezifische benannte Effekte — einen Star-Wars-Blaster, ein Sitcom-Lachen — bist du besser dran, ein stummes Video zu generieren und den Effekt auf der Timeline zu setzen.
Lange Clips. Wie jedes Videomodell 2026 driftet HappyHorse jenseits der 15-Sekunden-Marke. Für Multi-Shot-Sequenzen schneidest du weiterhin.

Was es ausliefer-fähig macht

Die größere Geschichte ist die Art von Arbeit, die jetzt ohne Postproduktionsstufe machbar ist. Ein paar Beispiele aus dieser Woche:

Ein 12-Sekunden-Produkterklärer mit VO, die zur Person lip-synct, die das Produkt hält. Vorher: zwei Tage, drei Tools, ein Freelance-Animator. Mit HappyHorse: vierzig Minuten, ein Prompt mit Referenzbildern, eine Runde Edits.
Ein 30-Sekunden-Werbeclip mit diegetischem Sound (Schritte, Raumklang, eine Handy-Benachrichtigung auf Cue). Vorher: Videotool, Audiotool, Alignment-Pass, Mixing-Pass. Mit HappyHorse: zweimal rendern, den besseren Take wählen.
Ein Sprechperson-vor-Kamera-Clip für einen Markensprecher. Vorher: ging nicht — das Lip-Sync vorheriger Modelle war unheimlich genug, um den Take zu killen. Mit HappyHorse: nutzbar in der ersten oder zweiten Generierung, etwa 70 % der Zeit.

Wo es in der Empfehlungslogik sitzt

Ab heute im Studio: HappyHorse 1.0 ist der Default für Videogenerierungen, deren Prompt Audio impliziert. Der Picker liest „Audio impliziert” aus Prompts mit Wörtern wie Dialog, sagt, redet, spricht, Musik, Klang von, Foley oder VO und routet dorthin, wenn du nicht überschreibst.

Für cineastisches 4K mit Audio in der Post: Veo 3.1 gewinnt weiterhin beim Visuellen. Für Social-Entwürfe: Grok Imagine gewinnt weiterhin bei Tempo und Gefühl. Für referenzgetriebene Sequenzen: Seedance 2.0 gewinnt weiterhin bei Konsistenz. HappyHorse besitzt den Joint-Audio- Video-Slot speziell — und dieser Slot ist plötzlich der nützlichste im Lineup, weil so viel Produktionsarbeit eben das Audio-Video-Joint ist.

Eine Anmerkung zum Leaderboard

HappyHorse 1.0 führt diese Woche auch die visuell-only-Benchmarks an, was echt ist, aber nicht die Schlagzeile. Visuelle Leaderboards tauschen alle sechs Wochen. Die Audio-Video-Integration ist die strukturelle Verschiebung — das, womit der Rest des Felds das nächste Jahr verbringen wird, aufzuholen. Wir sind froh, dass es zum gleichen geteilten Credit- Preis wie alles andere bereits im Studio ist.

Tippfehler entdeckt oder anderer Meinung? Schreib uns .