HappyHorse 1.0: перша відео-модель, що влучає у синхронний звук
HappyHorse 1.0 від Alibaba вийшов цього тижня. Візуал вражає. Те, чого не вирішив ніхто інший — спільна генерація аудіо й відео — робить його новим дефолтом у нашій лінійці.
- відео
- релізи
- моделі
HappyHorse 1.0 від Alibaba вийшов у четвер. До кінця дня він був на вершині публічних рейтингів відео, а до кінця тижня в нашому груп-чаті обговорювали лише те, як насправді працює аудіо. Кажемо прямо: це перша загальнодоступна text-to-video модель, де звук відповідає картинці за задумом, а не через прикручений ліпсинк. Це змінює лінійку. Це також змінює тип роботи, який можна правдоподібно випустити з генеративного пайплайну.
Проблема синхронного звуку коротко
Більшість «text-to-video з аудіо» досі була двома пайплайнами, зшитими докупи. Візуальна модель генерує кліп. Окрема аудіо-модель генерує звук. Третя стадія намагається їх вирівняти — зіставити гавкіт із пащею собаки, грюкіт із зачиненням дверей, наростання музики з рухом камери. Шви видно, особливо на діалозі. Бачите людину, що говорить. Форми губ не співпадають зі складами. Мозок помічає миттєво.
Виправлення — не кращий ліпсинк-софт. Це навчання візуального й аудіо-потоків разом, щоб модель міркувала про звук і картинку як один сигнал. Це важко з практичних причин (тренувальні дані бруднішіі дорожчі у курації) та з архітектурних (потрібна крос-модальна увага, що не деградує жоден потік). HappyHorse 1.0 — перша модель, що випускає це спільно, у якості, у продакшні.
Що насправді добре виходить
Тиждень використання на реальних брифах — перемоги конкретні:
Діалог. Ліпсинк правильний для складів, а не лише рухів рота. Наголос на правильному слові співпадає з підняттям брови. Патерн зорового контакту відповідає каденції фрази. Це частина, що відчувалась наукою-фантастикою в першому тесті, а тепер та, на яку ми спираємось найбільше.
Шуми. Кроки потрапляють у кадри, де нога приземляється. Двері грюкають у кадрі, де закриваються. Налийте склянку води в кліпі — і звук води починається, коли носик глечика нахиляється, а не на 200 мс пізніше.
Музика. Коли промпт вимагає музику, музика має структуру, що відповідає візуальній — наростання на русі, акценти на склейках. Це не рівень «професійного композитора», але рівень «компетентної інді-сцени», що значно краще за будь-яке інше генеративне аудіо, яке ми інтегрували.
Що ще потребує наступного покоління
Модель не магія. Три зони, де ми ще латаємо руками:
- Музична ідентичність. Може скомпонувати, але не відтворить конкретного виконавця чи трек. Якщо у бренду є звуковий підпис, ви досі вкладаєте його в пост-продакшні.
- Бібліотеки звукових ефектів. Для дуже специфічних іменованих ефектів — бластера в стилі «Зоряних війн», ситком-сміху — краще генерувати тихе відео і класти ефект на таймлайн.
- Довгі кліпи. Як і кожна відео-модель у 2026, HappyHorse дрейфує після 15-секундної межі. Для мульти-кадрових послідовностей досі ріжете.
Що стало придатним для випуску
Більша історія — тип роботи, що тепер можливий без пост-продакшну. Кілька прикладів із реального користування цього тижня:
- 12-секундний пояснювач продукту з озвучкою, що ліпсинкається на людині з продуктом у руках. Раніше: два дні, три інструменти, один фрилансер-аніматор. З HappyHorse: сорок хвилин, один промпт із референс-зображеннями, один раунд правок.
- 30-секундний рекламний кадр із діегетичним звуком (кроки, фоновий шум кімнати, сповіщення телефону в кадрі). Раніше: відео-інструмент, аудіо-інструмент, прохід вирівнювання, мікс. З HappyHorse: рендер двічі, вибрати кращий дубль.
- Ролик «персонаж говорить у камеру» для бренд-спікера. Раніше: не працювало — ліпсинк попередніх моделей був достатньо моторошним, щоб убити дубль. З HappyHorse: придатне з першої чи другої генерації приблизно у 70% випадків.
Де в логіці рекомендацій
Із сьогодні в студії: HappyHorse 1.0 — дефолт для відео-генерації, коли промпт потребує звуку. Перемикач читає «передбачено аудіо» з промптів, що містять слова на кшталт dialogue, says, talks, speaks, music, sound of, foley або VO, і маршрутизує туди, якщо не перевизначите.
Для кінематографічного 4K з аудіо в пост: Veo 3.1 досі виграє за візуалом. Для соц-чернеток: Grok Imagine досі виграє за швидкістю й відчуттям. Для референс-керованих послідовностей: Seedance 2.0 досі виграє за консистентністю. HappyHorse володіє слотом спільного аудіо-відео — і цей слот раптом став найкориснішим у лінійці, бо стільки продакшн-роботи і є поєднанням аудіо-відео.
Про рейтинг
HappyHorse 1.0 цього тижня також лідирує у візуальних-лише бенчмарках, що реально, але не є заголовком. Візуальні рейтинги міняються кожні шість тижнів. Інтеграція аудіо-відео — структурний зсув, який решта поля надолужуватиме наступний рік. Раді, що він уже в студії за тією ж спільною вартістю кредитів, як і будь-що інше.
Знайшли друкарську помилку чи хочете заперечити? Напишіть нам .