加入影片:我們如何挑選首發陣容
八款影片模型,一份共用點數池。哪些入選、哪些落選,以及我們用來決定的四項標準。
- 影片
- 更新
我們這週上線了影片。八款模型、一個點數池,不需要管每家供應商的合約。在介紹陣容之前,先講一下我們怎麼挑 — 因為「哪些影片模型最好」這個問題,比聊天端的對應問題模糊得多。
真正重要的四個維度
聊天模型主要在比智慧。影片模型同時在四個維度上競爭,而幾乎沒有任何一款能四個都贏:
- 畫質 — 銳利度、動作連貫性、一隻手有幾根手指。
- 速度與成本 — 多久能看到結果,迭代一次要付多少錢。
- 可控性 — 參考素材、種子、時長、運鏡、嘴型同步。
- 聲音 — 模型本身是否能輸出與畫面對得上的聲音,還是事後要再補上音效。
4K 電影級的生成器拿來回 X 推文太大砲。快速社群層的模型拿來拍主視覺鏡頭太隨便。所以陣容必須是多元的 — 我們要的是「每個任務都有一個對的工具」,不是「一款模型試圖什麼都做」。
入選的有哪些
HappyHorse 1.0 在昨天外部基準測試後成為型錄頂端,但我們真正在意的不是它的視覺分數 — 而是它的聲音是與影片「一起」生成的,而不是事後疊上去的。嘴型對得上,音樂節奏跟著動作起伏。等我們在更多實際案子上用過後,會單獨寫一篇文章。
Veo 3.1 是電影感的選擇。原生 4K,是我們看過最乾淨的 text-to-shot,而且貴得離譜 — 所以當提示像是主視覺鏡頭(「廣角、推軌、黃金時段」)時我們就路由給它,社群短片就不送過去。
Seedance 2.0 明天上線並支援多輸入 — 最多九張參考圖、三段參考片、三條音軌。我們用 ByteDance 的 beta 金鑰預測過,這是另一種工具:與其說是「打提示拿影片」,更像是「給導演一份簡報」。我們會在 5 月 3 日另開一篇講它。
Kling 3.0 Omni 是動作流暢度專家。在我們測試中多鏡頭連貫性最好,特別是需要一個角色走過好幾個動作、臉不能在中間變形的時候。
Runway Gen-4.5 留在工具箱裡,給已經有肌肉記憶的影像工作者用。如果你真的要導演一個鏡頭,它的運鏡控制與關鍵影格介面仍是同類中最好的。
Grok Imagine 是社群風格的選擇 — 快、草稿級畫質、有真實感的片段。我們上週才加進來,更完整的介紹文章在路上。
Wan 2.7 是支援 LoRA 的省預算層。開源出身,所以如果你已經訓練過自己的角色或風格 LoRA,這就是接它們的地方。
Hailuo 2.3 是最便宜又穩定的選擇。沒什麼花招。在迭代縮圖或壓力測試概念又不想燒高級點數時很好用。
沒入選的有哪些
有三款很認真的模型差一點點就上線,但因為不同理由落選了。
第一款還沒推出無浮水印的方案 — 我們不會放上會在你輸出上印品牌的模型。第二款視覺很好,但 API 沒有種子控制,在多鏡頭工作流裡迭代很痛苦。第三款就是「貴」到不划算 — 即使是 Max 方案的使用者,每段片的成本也會逼我們調高上限。
等這三款的分層改變後,我們會再看看。
一個池子,八款模型
這一切能成立的關鍵是:你不是在買八份獨立訂閱。不管挑哪款模型,你花的是同一份共用點數,而且下手前能看到每次生成的成本。Pro 每月 2,000 點,Max 每月 10,000 點。HappyHorse 的標準 text-to-video 短片大約 40–60 點;Veo 4K 主視覺鏡頭比較像 120 點;Hailuo 迭代一次只要 6 點。
這個比例是我們最自豪的部分。工作室的重點就是:在你還不知道提示需要什麼之前,你不必先綁定一家供應商 — 影片比任何模態都更會懲罰提前綁定。
影片今天起對 Pro 與 Max 開放。免費方案還沒包含;我們想先觀察一個月看點數的數學怎麼跑,再決定何時放更開。
發現錯字或想反駁? 來信 。