跳至內容
Any AI
開啟應用
← 所有文章
6 min read Any AI Studio

HappyHorse 1.0:第一款真正搞定同步音訊的影片模型

Alibaba 的 HappyHorse 1.0 本週推出。畫面表現亮眼。但讓它成為我們陣容新預設的,是那件沒人解決過的事 — 音畫同生成。

  • 影片
  • 更新
  • 模型

Alibaba 的 HappyHorse 1.0 在週四上線。當天結束時它已經登上公開影片排行榜的頂端,而到了週末,我們群組裡聊的只剩一件事:它的聲音到底是怎麼運作的。我們宣告:這是第一款一般可用的 text-to-video 模型,聲音與畫面是「天生」對得上的,不是事後補上嘴型同步。這改變了陣容。也改變了你能用生成式流程交付出去的工作種類。

同步音訊問題簡述

到目前為止,大多數「附音訊的 text-to-video」都是兩條流程釘在一起。視覺模型生成影片。另一個音訊模型生成聲音。第三階段試圖對齊它們 — 把狗叫對到狗嘴、把關門聲對到門關上、把音樂高潮對到運鏡。接縫看得出來,對話戲尤其明顯。你看到一個人講話。他的嘴型對不上音節。大腦立刻就察覺。

修正不是更好的嘴型同步軟體。是把視覺與音訊串流「一起」訓練,讓模型把聲音與畫面當成同一個訊號來推理。這在實務上很難(訓練資料更亂、更貴整理)也在架構上很難(你需要不會劣化兩端的跨模態注意力)。HappyHorse 1.0 是第一款在生產環境下、以可用品質、把這件事一起做出來的模型。

它實際做得好的地方

用真實案子用了一週,贏的點都很具體:

**對話。**嘴型同步是對到音節的,不只是嘴在動。重音落在正確的字、配上挑眉。眼神接觸的模式對得上台詞節奏。這部分在我們第一個測試提示上感覺像科幻小說,現在則是我們倚賴最重的部分。

**擬音。**腳步聲落在腳著地的那一格。門關聲落在門關上的那一格。倒一杯水的片段,水聲在壺嘴傾斜的瞬間開始,不會延遲 200 毫秒。

**配樂。**當提示要求配樂時,音樂的結構與畫面結構是對齊的 — 動作高潮處鼓起、剪接點打點。還沒到「專業作曲家」等級,但已經到「稱職獨立配樂師」等級,這比我們整合過的任何其他生成式音訊好太多。

還需要等下一代的地方

這款模型不是魔法。三個我們還在手動補的領域:

  • **音樂識別度。**它會作曲,但無法重現特定藝術家或音軌。如果你的品牌有聲音識別,那部分還是要後製補。
  • **音效素材庫。**對非常具體有名稱的音效 — 星際大戰風格的爆破聲、情境喜劇的笑聲音軌 — 你還是先生成無聲影片,再在時間軸上丟音效比較好。
  • **長片段。**和 2026 每一款影片模型一樣,HappyHorse 超過 15 秒就會飄。多鏡頭序列你還是得剪。

它讓什麼變得能交付

更大的故事是:有些工作現在不需要後製階段就能做。本週幾個真實案例:

  • 12 秒的產品說明,含一段對得上嘴型的旁白,由一個拿著產品的人說。以前:兩天、三個工具、一個自由接案的動畫師。用 HappyHorse:四十分鐘、一個附參考圖的提示、一輪修改。
  • 30 秒的廣告剪輯,含情境聲(腳步聲、環境噪音、按時播放的手機通知)。以前:影片工具、音訊工具、對齊一輪、混音一輪。用 HappyHorse:渲染兩次,挑比較好的那個。
  • 給品牌代言人的對鏡頭講話片段。以前:做不出來 — 先前模型的嘴型同步詭異到足以毀掉這個鏡頭。用 HappyHorse:第一或第二次生成就有大約 70% 機率可用。

它在推薦邏輯裡的位置

今天起在工作室生效:當你的提示需要聲音時,HappyHorse 1.0 是影片生成的預設。挑選器會從包含 dialoguesaystalksspeaksmusicsound offoleyVO 等字的提示判讀「隱含音訊」,並路由到 HappyHorse,除非你覆寫。

電影級 4K 配後製音訊:Veo 3.1 在視覺上仍勝。社群草稿:Grok Imagine 在速度和質感上仍勝。參考素材驅動的序列:Seedance 2.0 在一致性上仍勝。HappyHorse 專屬於音畫同生的位置 — 而這個位置突然變成陣容中最有用的一個,因為大量製作工作「就是」音畫同生。

關於排行榜的一個註腳

HappyHorse 1.0 本週也在純視覺基準上領先,這是真的,但不是頭條。視覺排行榜每六週洗一次牌。音畫整合才是結構性的轉變 — 是業界其他人接下來一年都得追的事。我們很高興它已經在工作室裡,跟其他模型用同樣的共用點數成本。


發現錯字或想反駁? 來信

試試這篇文章背後的產品。
工作室.

免費方案。免信用卡。可用 Google 或 Apple 登入。