HappyHorse 1.0: 싱크 오디오를 제대로 해낸 첫 영상 모델
Alibaba의 HappyHorse 1.0이 이번 주 출시됐어요. 시각도 인상적이에요. 다른 누구도 풀지 못한 — 영상-오디오 동시 생성 — 게 우리 라인업의 새 기본값으로 만들어요.
- 영상
- 릴리스
- 모델
Alibaba의 HappyHorse 1.0이 목요일에 출시됐어요. 그날이 끝나기 전에 퍼블릭 영상 리더보드의 정상에 있었고, 그 주가 끝날 무렵 우리 그룹 채팅의 유일한 대화는 오디오가 실제로 어떻게 돌아가느냐였어요. 못 박아요: 이건 사운드가 사후 립싱크가 아니라 설계로 그림과 맞는 첫 일반 공개 text-to-video 모델이에요. 라인업이 바뀌어요. 생성형 파이프라인으로 신뢰성 있게 출고할 수 있는 작업의 종류도 바뀌어요.
오디오 싱크 문제, 짧게
지금까지 대부분의 “오디오가 있는 text-to-video”는 두 파이프라인을 스테이플로 묶은 거였어요. 시각 모델이 클립을 만들어요. 별도의 오디오 모델이 사운드를 만들어요. 세 번째 단계가 정렬을 시도해요 — 개 짖는 소리를 개의 입에, 문 쾅 소리를 문이 닫히는 데, 음악 부풂을 카메라 무브에 맞춰요. 솔기가 보여요, 특히 대사에서. 사람이 말하는 게 보여요. 입 모양이 음절과 안 맞아요. 뇌가 즉시 알아채요.
해법은 더 좋은 립싱크 소프트웨어가 아니에요. 시각과 오디오 스트림을 함께 학습시키는 거예요 — 모델이 사운드와 그림을 하나의 신호로 추론하도록요. 실용적 이유 (학습 데이터가 더 지저분하고 큐레이트 비용이 비싸요)와 아키텍처 이유 (어느 쪽 스트림도 깎지 않는 크로스 모달 어텐션이 필요해요)로 어려워요. HappyHorse 1.0은 이걸 품질 있게, 프로덕션에서, 동시에 출고한 첫 모델이에요.
실제로 잘하는 것
실제 브리프에 일주일 써본 결과, 승점은 구체적이에요:
대사. 립싱크가 입 움직임뿐 아니라 음절에 맞아요. 맞는 단어에 강세가 눈썹 들기와 줄을 맞춰요. 시선 패턴이 대사 박자와 맞아요. 첫 테스트 프롬프트에서 SF처럼 느껴졌고, 이제 가장 세게 기대는 부분이에요.
폴리. 발자국이 발이 닿는 프레임에 떨어져요. 문은 닫히는 프레임에 쾅. 클립에서 물 한 잔을 따르면, 물 소리가 200ms 늦지 않고 주둥이가 기울 때 시작해요.
스코어. 프롬프트가 음악을 요청하면, 음악이 시각 구조와 맞는 구조를 가져요 — 모션에 부풂, 컷에 비트. “프로 작곡가” 수준은 아니지만, “유능한 인디 신 셋터” 수준 — 우리가 연동한 어떤 생성 오디오보다 훨씬 나아요.
아직 한 세대 더 필요한 곳
모델은 마법이 아니에요. 여전히 손으로 패치하는 세 영역:
- 음악 정체성. 작곡은 가능하지만, 특정 아티스트나 트랙을 재현할 순 없어요. 브랜드에 소닉 시그니처가 있다면 여전히 포스트에서 깔아요.
- 사운드 효과 라이브러리. 매우 특정한 명명된 효과 — 스타워즈식 블래스터, 시트콤 웃음 트랙 — 에는 무음 영상을 만들고 타임라인에 효과를 떨어뜨리는 게 나아요.
- 긴 클립. 2026년 모든 영상 모델처럼, HappyHorse는 15초 표시를 지나면 흘러요. 멀티 샷 시퀀스는 여전히 컷이 들어가요.
출고 가능하게 만드는 것
더 큰 이야기는 포스트 프로덕션 단계 없이 이제 가능한 작업의 종류예요. 이번 주 실제 사용에서 몇 가지 예:
- 제품을 들고 있는 사람에게 립싱크되는 VO가 있는 12초 제품 익스플레이너. 이전: 이틀, 도구 셋, 프리랜스 애니메이터 하나. HappyHorse로: 40분, 레퍼런스 이미지가 있는 프롬프트 하나, 편집 한 라운드.
- 디제틱 사운드 (발소리, 주변 룸 노이즈, 큐에 맞는 폰 알림)가 있는 30초 광고 컷. 이전: 영상 도구, 오디오 도구, 정렬 패스, 믹싱 패스. HappyHorse로: 두 번 렌더링하고 나은 테이크 고르기.
- 브랜드 대변인을 위한 캐릭터-카메라-앞-말하기 릴. 이전: 안 됐어요 — 이전 모델 립싱크가 어색해서 테이크를 죽였어요. HappyHorse로: 약 70% 시간 동안 첫 번째나 두 번째 생성에 쓸 만해요.
추천 로직에서 어디에 앉나
오늘부터 스튜디오에서: HappyHorse 1.0은 프롬프트가 오디오를 요구할 때 영상 생성의 기본값이에요. 선택기는 dialogue, says, talks, speaks, music, sound of, foley, VO 같은 단어가 포함된 프롬프트에서 “오디오 함축”을 읽고, 무시하지 않는 한 그쪽으로 라우팅해요.
오디오를 포스트에서 더하는 시네마틱 4K에는: Veo 3.1이 여전히 시각에서 이겨요. 소셜 초안에는: Grok Imagine이 여전히 속도와 느낌에서 이겨요. 레퍼런스 주도 시퀀스에는: Seedance 2.0이 여전히 일관성에서 이겨요. HappyHorse는 영상-오디오 동시 슬롯을 구체적으로 차지하고 — 그 슬롯은 갑자기 라인업에서 가장 유용한 자리예요, 너무 많은 프로덕션 작업이 영상-오디오 결합이니까요.
리더보드에 대한 메모
HappyHorse 1.0은 이번 주 시각만의 벤치마크도 선두인데, 사실이지만 헤드라인은 아니에요. 시각 리더보드는 6주마다 바뀌어요. 영상-오디오 통합이 구조적 전환 — 나머지 분야가 다음 한 해를 쫓아오는 데 보낼 그것이에요. 다른 무엇과도 같은 공유 크레딧 비용으로 이미 스튜디오에 있어서 다행이에요.
오타를 발견했거나 반박하고 싶나요? 이메일 주세요 .