2026年5月17日 6 min read Any AI Studio

HappyHorse 1.0：第一款真正搞定同步音訊的影片模型

Alibaba 的 HappyHorse 1.0 本週推出。畫面表現亮眼。但讓它成為我們陣容新預設的，是那件沒人解決過的事 — 音畫同生成。

影片
更新
模型

Alibaba 的 HappyHorse 1.0 在週四上線。當天結束時它已經登上公開影片排行榜的頂端，而到了週末，我們群組裡聊的只剩一件事：它的聲音到底是怎麼運作的。我們宣告：這是第一款一般可用的 text-to-video 模型，聲音與畫面是「天生」對得上的，不是事後補上嘴型同步。這改變了陣容。也改變了你能用生成式流程交付出去的工作種類。

同步音訊問題簡述

到目前為止，大多數「附音訊的 text-to-video」都是兩條流程釘在一起。視覺模型生成影片。另一個音訊模型生成聲音。第三階段試圖對齊它們 — 把狗叫對到狗嘴、把關門聲對到門關上、把音樂高潮對到運鏡。接縫看得出來，對話戲尤其明顯。你看到一個人講話。他的嘴型對不上音節。大腦立刻就察覺。

修正不是更好的嘴型同步軟體。是把視覺與音訊串流「一起」訓練，讓模型把聲音與畫面當成同一個訊號來推理。這在實務上很難（訓練資料更亂、更貴整理）也在架構上很難（你需要不會劣化兩端的跨模態注意力）。HappyHorse 1.0 是第一款在生產環境下、以可用品質、把這件事一起做出來的模型。

它實際做得好的地方

用真實案子用了一週，贏的點都很具體：

**對話。**嘴型同步是對到音節的，不只是嘴在動。重音落在正確的字、配上挑眉。眼神接觸的模式對得上台詞節奏。這部分在我們第一個測試提示上感覺像科幻小說，現在則是我們倚賴最重的部分。

**擬音。**腳步聲落在腳著地的那一格。門關聲落在門關上的那一格。倒一杯水的片段，水聲在壺嘴傾斜的瞬間開始，不會延遲 200 毫秒。

**配樂。**當提示要求配樂時，音樂的結構與畫面結構是對齊的 — 動作高潮處鼓起、剪接點打點。還沒到「專業作曲家」等級，但已經到「稱職獨立配樂師」等級，這比我們整合過的任何其他生成式音訊好太多。

還需要等下一代的地方

這款模型不是魔法。三個我們還在手動補的領域：

**音樂識別度。**它會作曲，但無法重現特定藝術家或音軌。如果你的品牌有聲音識別，那部分還是要後製補。
**音效素材庫。**對非常具體有名稱的音效 — 星際大戰風格的爆破聲、情境喜劇的笑聲音軌 — 你還是先生成無聲影片，再在時間軸上丟音效比較好。
**長片段。**和 2026 每一款影片模型一樣，HappyHorse 超過 15 秒就會飄。多鏡頭序列你還是得剪。

它讓什麼變得能交付

更大的故事是：有些工作現在不需要後製階段就能做。本週幾個真實案例：

12 秒的產品說明，含一段對得上嘴型的旁白，由一個拿著產品的人說。以前：兩天、三個工具、一個自由接案的動畫師。用 HappyHorse：四十分鐘、一個附參考圖的提示、一輪修改。
30 秒的廣告剪輯，含情境聲（腳步聲、環境噪音、按時播放的手機通知）。以前：影片工具、音訊工具、對齊一輪、混音一輪。用 HappyHorse：渲染兩次，挑比較好的那個。
給品牌代言人的對鏡頭講話片段。以前：做不出來 — 先前模型的嘴型同步詭異到足以毀掉這個鏡頭。用 HappyHorse：第一或第二次生成就有大約 70% 機率可用。

它在推薦邏輯裡的位置

今天起在工作室生效：當你的提示需要聲音時，HappyHorse 1.0 是影片生成的預設。挑選器會從包含 dialogue、says、talks、speaks、music、sound of、foley 或 VO 等字的提示判讀「隱含音訊」，並路由到 HappyHorse，除非你覆寫。

電影級 4K 配後製音訊：Veo 3.1 在視覺上仍勝。社群草稿：Grok Imagine 在速度和質感上仍勝。參考素材驅動的序列：Seedance 2.0 在一致性上仍勝。HappyHorse 專屬於音畫同生的位置 — 而這個位置突然變成陣容中最有用的一個，因為大量製作工作「就是」音畫同生。

關於排行榜的一個註腳

HappyHorse 1.0 本週也在純視覺基準上領先，這是真的，但不是頭條。視覺排行榜每六週洗一次牌。音畫整合才是結構性的轉變 — 是業界其他人接下來一年都得追的事。我們很高興它已經在工作室裡，跟其他模型用同樣的共用點數成本。

發現錯字或想反駁？來信。