12 tháng 4, 2026 4 min read Any AI Studio

Grok Imagine trong studio: nó thực sự để làm gì

xAI ship mô hình video + hình ảnh tinh chỉnh cho social. Chúng tôi thêm vào lineup và xác định ai nên với nó thay vì HappyHorse, Veo, hay FLUX.

video
hình ảnh
bản phát hành

Grok Imagine ra mắt đầu tuần này và phản ứng đầu của chúng tôi là: có cần thêm mô hình hình ảnh và video không? Chúng tôi đã có FLUX.2 Pro và Nano Banana 2 cho ảnh tĩnh; có lineup video đã bao điện ảnh, social, và bậc tiết kiệm. Câu trả lời thành thật là chúng tôi không chắc — cho đến khi dành vài ngày route prompt thật qua nó và xem cái gì trả về.

Chúng tôi thêm vào studio hôm nay. Đây là nó để làm gì, và không để làm gì.

Grok Imagine được tinh chỉnh cho gì

Mô hình rõ ràng được train trên một mix khác đối thủ. Hai thứ nổi bật gần như ngay lập tức:

Nó là social-native. Tỷ lệ khung hình mặc định 9:16 và 1:1 không cần cãi; ngữ pháp hình ảnh gần với cái người ta thực sự đăng hơn cái họ mong. Tông da, ánh sáng, sự tự nhiên — nó tạo clip và ảnh tĩnh trông như ra từ điện thoại của ai đó, không phải moodboard.

Nó nhanh và rẻ. Tạo mất khoảng 4–6 giây trên prompt điển hình so với 25–40 cho Veo. Chi phí credit gần Hailuo hơn Veo. Điều đó làm nó thực sự dùng được cho vòng lặp khối lượng cao — draft, quyết, thay — mà workflow social đòi hỏi.

Nơi nó vượt đối thủ

Ba category cụ thể, từ test của chúng tôi:

Clip chân thực cho X và video ngắn. Người nói trước camera, snippet kiểu b-roll, khoảnh khắc “day in the life.” Chất lượng sync-audio của HappyHorse tốt hơn; cinematography của Veo nét hơn; nhưng cho clip cần cảm giác không dàn dựng, Grok thắng.
Draft và khám phá. Khi bạn chưa biết shot là gì, Grok là cái bạn với. Chi phí lặp thấp đủ để tạo mười lựa chọn, chọn framing thích, rồi promote sang mô hình nặng hơn cho bản cuối.
Meme, reaction, ảnh tĩnh nhanh. Phía hình ảnh xử lý kiểu hài composition mà mô hình tinh chỉnh photoreal thường nghĩ quá. Nếu bạn muốn một con ngỗng mặc tuxedo, Grok sẽ cho bạn con ngỗng mặc tuxedo mà không chất vấn lựa chọn cuộc đời bạn.

Nơi nó không

Nó không phải mô hình cho output điện ảnh. Chuyển động camera không chính xác, focus pull không tồn tại, và clip dài lộ vết ghép. Nếu bạn làm thứ cần đứng vững ở 4K trên TV, đây không phải nó.

Nó cũng không phải mô hình cho typography hay nhãn. Như hầu hết mô hình hình ảnh không phải Nano Banana 2 hay GPT Image 2, nó có thể tạo thứ trông như text từ xa, và rã ra khi nhìn kỹ.

Và nó không tạo audio sync. Clip im lặng — bạn sẽ thêm audio ở hậu kỳ hoặc route sang HappyHorse nếu yêu cầu là joint audio-video.

Chúng tôi route ra sao

Trong studio, “Grok Imagine” xuất hiện trong cả bộ chọn hình ảnh và bộ chọn video. Logic gợi ý của bộ chọn mô hình giờ đề xuất nó khi:

Tỷ lệ khung hình của bạn là 9:16 hoặc 1:1 (hình social).
Prompt chứa từ như casual, handheld, real, raw, iPhone, vlog, POV, unfiltered.
Bạn đã upgrade một draft Grok sang mô hình nặng hơn trong cùng thread (chúng tôi coi đó là phiếu tín nhiệm rằng đây là công cụ đúng cho việc).

Bạn luôn ghi đè được gợi ý. Ý nghĩa của bộ chọn không phải đúng — mà là cách một phím khỏi đúng.

Một ghi chú về tradeoff của xAI

Grok Imagine thú vị một phần vì xAI đang làm tradeoff khác các lab khác. Đối thủ đang đua vương miện benchmark. xAI đang đua nút post — cái người ta thực sự bấm generate trên, mỗi ngày, để đăng lên social. Đó là mục tiêu tối ưu khác và tạo ra sản phẩm khác biệt đáng kể.

Chúng tôi không có ngựa trong cuộc đua nào trong số này. Việc của chúng tôi là đặt công cụ đúng cách một phím tắt. Nên: draft và social, với Grok. Shot điện ảnh, với Veo. Video sync audio, với HappyHorse. Ảnh tĩnh với text thật, với Nano Banana 2 hay GPT Image 2.

Đó là toàn bộ lineup, làm việc mỗi mô hình giỏi nhất.

Thấy lỗi typo hay muốn phản hồi? Email cho chúng tôi .