跳至內容
Any AI
開啟應用
← 所有文章
5 min read Any AI Studio

Grok Imagine 進駐工作室:它到底是給誰用的

xAI 推出了一款為社群調校的影片+圖像模型。我們把它加進陣容,並釐清誰該選它而不是 HappyHorse、Veo 或 FLUX。

  • 影片
  • 圖像
  • 更新

Grok Imagine 本週稍早上線,我們的第一反應是:我們真的需要又一款圖像加影片模型嗎?靜態圖我們已經有 FLUX.2 Pro 和 Nano Banana 2;影片陣容已經涵蓋電影感、社群與省預算三層。誠實的答案是我們不確定 — 直到我們花了幾天把真實的提示路由給它、看它回什麼。

我們今天把它加進工作室。這篇講它是給什麼用的、又不是給什麼用的。

Grok Imagine 為什麼調校

這款模型顯然訓練在與競爭對手不同的資料組合上。兩件事幾乎立刻就看得出來:

**它是社群原生的。**長寬比預設就是 9:16 和 1:1,不會跟你爭;視覺語法比較接近人們實際發文的樣子,而不是他們嚮往的樣子。膚色、光線、自然感 — 它產出的片段和靜態圖會讓人覺得是從某人手機裡掏出來的,不是從情緒板上摳下來的。

**它快又便宜。**在我們常用的提示上大約 4–6 秒生成一次,相比 Veo 的 25–40 秒。點數成本比較接近 Hailuo 而不是 Veo。這讓它真的能用在社群工作流要求的高頻迭代循環 — 出草稿、決定、替換。

它打贏替代方案的地方

我們測試中有三個具體類別:

  1. **X 與短影音的真實感片段。**對著鏡頭講話的人、B-roll 風格的小片段、「一天的生活」式時刻。HappyHorse 的音畫同步品質比較好;Veo 的攝影更銳利;但要那種「不擺拍」感的片段,Grok 贏。

  2. **草稿與探索。**當你還不確定這個鏡頭要怎麼拍時,Grok 就是你會伸手拿的那一個。迭代成本低到你可以生十個選項、挑你喜歡的構圖,再升級到比較重的模型做最終版。

  3. **迷因、反應圖、快速產出的靜態圖。**圖像端能應付那種照寫實調校的模型容易想太多的構圖笑話。如果你要一隻穿燕尾服的鵝,Grok 會給你一隻穿燕尾服的鵝,不會質疑你的人生選擇。

它打不贏的地方

它不是電影級輸出的模型。運鏡不精準,焦點轉換根本不存在,較長的片段會看到接縫。如果你要做的東西必須在電視上以 4K 上得了檯面,這款不行。

它也不是排版或文字標籤的模型。和大多數不是 Nano Banana 2 或 GPT Image 2 的圖像模型一樣,它能產出在遠處「看起來像」文字的東西,但近看就崩了。

而且它不會生成同步聲音。片段是無聲的 — 如果你需要同步音畫,你會在後製加上聲音,或者直接用 HappyHorse。

我們怎麼路由它

在工作室裡,「Grok Imagine」會出現在圖像挑選器與影片挑選器中。模型挑選器的推薦邏輯現在會在以下情況推薦它:

  • 你的長寬比是 9:16 或 1:1(社群形狀)。
  • 你的提示包含像 casualhandheldrealrawiPhonevlogPOVunfiltered 這類字。
  • 你之前在同一個對話裡把 Grok 草稿升級給較重的模型過(我們把這視為一票信任,認為這就是對的工具)。

你隨時可以覆寫推薦。挑選器的重點不是要永遠正確 — 而是要讓你只差一個鍵就能正確。

關於 xAI 的取捨

Grok Imagine 有趣的部分原因是 xAI 的取捨跟其他實驗室不同。競爭對手在追基準測試的王冠。xAI 在追「發文按鈕」 — 一般人每天會按下「生成」、發到社群上的東西是什麼。這是不一樣的優化目標,會產出實質上不同的產品。

我們在任何一場賽馬中都不押注。我們的工作是把對的工具放在一個按鍵的距離。所以:草稿與社群用 Grok。電影感鏡頭用 Veo。音畫同步的影片用 HappyHorse。要有真實文字的靜態圖用 Nano Banana 2 或 GPT Image 2。

整個陣容就這樣,每款模型做它最擅長的事。


發現錯字或想反駁? 來信

試試這篇文章背後的產品。
工作室.

免費方案。免信用卡。可用 Google 或 Apple 登入。