2026年4月12日 5 min read Any AI Studio

Grok Imagine 進駐工作室：它到底是給誰用的

xAI 推出了一款為社群調校的影片＋圖像模型。我們把它加進陣容，並釐清誰該選它而不是 HappyHorse、Veo 或 FLUX。

Grok Imagine 本週稍早上線，我們的第一反應是：我們真的需要又一款圖像加影片模型嗎？靜態圖我們已經有 FLUX.2 Pro 和 Nano Banana 2；影片陣容已經涵蓋電影感、社群與省預算三層。誠實的答案是我們不確定 — 直到我們花了幾天把真實的提示路由給它、看它回什麼。

我們今天把它加進工作室。這篇講它是給什麼用的、又不是給什麼用的。

Grok Imagine 為什麼調校

這款模型顯然訓練在與競爭對手不同的資料組合上。兩件事幾乎立刻就看得出來：

**它是社群原生的。**長寬比預設就是 9:16 和 1:1，不會跟你爭；視覺語法比較接近人們實際發文的樣子，而不是他們嚮往的樣子。膚色、光線、自然感 — 它產出的片段和靜態圖會讓人覺得是從某人手機裡掏出來的，不是從情緒板上摳下來的。

**它快又便宜。**在我們常用的提示上大約 4–6 秒生成一次，相比 Veo 的 25–40 秒。點數成本比較接近 Hailuo 而不是 Veo。這讓它真的能用在社群工作流要求的高頻迭代循環 — 出草稿、決定、替換。

我們測試中有三個具體類別：

**X 與短影音的真實感片段。**對著鏡頭講話的人、B-roll 風格的小片段、「一天的生活」式時刻。HappyHorse 的音畫同步品質比較好；Veo 的攝影更銳利；但要那種「不擺拍」感的片段，Grok 贏。
**草稿與探索。**當你還不確定這個鏡頭要怎麼拍時，Grok 就是你會伸手拿的那一個。迭代成本低到你可以生十個選項、挑你喜歡的構圖，再升級到比較重的模型做最終版。
**迷因、反應圖、快速產出的靜態圖。**圖像端能應付那種照寫實調校的模型容易想太多的構圖笑話。如果你要一隻穿燕尾服的鵝，Grok 會給你一隻穿燕尾服的鵝，不會質疑你的人生選擇。

它不是電影級輸出的模型。運鏡不精準，焦點轉換根本不存在，較長的片段會看到接縫。如果你要做的東西必須在電視上以 4K 上得了檯面，這款不行。

它也不是排版或文字標籤的模型。和大多數不是 Nano Banana 2 或 GPT Image 2 的圖像模型一樣，它能產出在遠處「看起來像」文字的東西，但近看就崩了。

而且它不會生成同步聲音。片段是無聲的 — 如果你需要同步音畫，你會在後製加上聲音，或者直接用 HappyHorse。

在工作室裡，「Grok Imagine」會出現在圖像挑選器與影片挑選器中。模型挑選器的推薦邏輯現在會在以下情況推薦它：

你的長寬比是 9:16 或 1:1（社群形狀）。
你的提示包含像 casual、handheld、real、raw、iPhone、vlog、POV、unfiltered 這類字。
你之前在同一個對話裡把 Grok 草稿升級給較重的模型過（我們把這視為一票信任，認為這就是對的工具）。

你隨時可以覆寫推薦。挑選器的重點不是要永遠正確 — 而是要讓你只差一個鍵就能正確。

Grok Imagine 有趣的部分原因是 xAI 的取捨跟其他實驗室不同。競爭對手在追基準測試的王冠。xAI 在追「發文按鈕」 — 一般人每天會按下「生成」、發到社群上的東西是什麼。這是不一樣的優化目標，會產出實質上不同的產品。

我們在任何一場賽馬中都不押注。我們的工作是把對的工具放在一個按鍵的距離。所以：草稿與社群用 Grok。電影感鏡頭用 Veo。音畫同步的影片用 HappyHorse。要有真實文字的靜態圖用 Nano Banana 2 或 GPT Image 2。

整個陣容就這樣，每款模型做它最擅長的事。

發現錯字或想反駁？來信。