10 tháng 5, 2026 3 min read Any AI Studio

GPT-5, Claude Opus 4, Gemini 2.5 Pro: đối đầu 2026

Chúng tôi chạy cùng 18 prompt qua mọi frontier-mô hình và theo dõi mô hình nào thực sự thắng ở đâu. Câu trả lời không phải 'dùng cái mới nhất' — thú vị hơn thế.

benchmark
so sánh
mô hình

Frontier dịch chuyển nhanh đến mức các bài benchmark thường lỗi thời khi ship. Tuy vậy — chúng ta đang ở đây, bốn tháng vào 2026, và ba điều đã trở nên rõ ràng nếu bạn thực sự dùng các mô hình này cả ngày thay vì chỉ đọc về chúng.

Kết quả tiêu đề

Claude Opus 4 là generalist tốt nhất nếu đo bằng “câu trả lời cần zero follow-up bao nhiêu lần.” GPT-5 tốt nhất khi cần nó theo một chỉ dẫn phức tạp mà không lạc chủ đề sau ba đoạn. Gemini 2.5 Pro tốt nhất khi prompt gồm PDF 200 trang và bạn cần nó thực sự đọc chứ không lướt.

Chúng tôi chạy 18 prompt đại diện qua ba mô hình. Tác vụ chia thành bốn nhóm:

Reasoning và toán — Project Euler 600s, câu thống kê ứng dụng, hai bài AIME mở.
Code review — Go diff 200 dòng, một React hook cố tình lỗi, hai query SQL có bug tinh tế.
Viết — copy trang bán hàng, dàn ý bài luận 1.200 từ, draft bài blog kỹ thuật.
Ngữ cảnh dài — transcript 80k token, tổng hợp đa PDF, tác vụ retrieval qua 12 tài liệu nguồn.

Mỗi mô hình thực sự thắng ở đâu

Claude Opus 4 áp đảo code review với khoảng cách rộng hơn chúng tôi dự đoán. Nó bắt thứ tinh tế — off-by-one trong SQL window function, một useEffect closure giữ biến cũ — nơi hai cái kia pattern match thành “trông ổn.” Extended thinking thêm một nấc nữa nhưng chỉ trên bài khó nhất; cho review hàng ngày, Opus mặc định đã đủ.

GPT-5 thắng ở theo chỉ dẫn multi-step. Chúng tôi đưa mỗi mô hình một prompt với mười một yêu cầu rõ ràng (format, tone, độ dài, cụm cụ thể phải có, thứ phải bỏ). GPT-5 đạt 10/11 ngay lần đầu. Claude đạt 8. Gemini đạt 7. Nếu prompt của bạn là spec có cấu trúc, GPT-5 vẫn là lựa chọn an toàn nhất.

Gemini 2.5 Pro thắng ngữ cảnh dài rõ rệt. Cửa sổ 2M token không phải trò mèo — nó thực sự dùng những gì bạn đưa. Trên tác vụ tổng hợp 12 PDF, Gemini trích đúng tài liệu 3 đến 11; hai cái kia chủ yếu trích tài liệu 1. Multimodal native cũng quan trọng hơn benchmark cho thấy: parse screenshot inline tiết kiệm một roundtrip.

Điều này nghĩa gì cho dùng hàng ngày

Đây là phần các bài benchmark bỏ qua: trong thực tế, bạn đổi. Mở chat ở Opus vì nó tốt nhất cho code review. Để ý câu hỏi hôm nay là spec có cấu trúc. Đổi sang GPT-5 giữa cuộc. Lượt tới có PDF — đổi sang Gemini, hỏi, đổi về.

Đó chính là workflow Any AI Studio được thiết kế cho. Tính năng ngắt nhánh và so sánh song song nghĩa là bạn không phải chọn trước. Gửi prompt cho hai mô hình đồng thời, giữ câu trả lời tốt hơn, ngắt nhánh cái thua để prompt lại.

Lưu ý

Kết quả này đúng vào tháng 5/2026. Bước nhảy quý tới có thể lật ít nhất một category. Chúng tôi sẽ chạy lại bộ test khi GPT-5.1 ra (tin đồn cuối hè) và đăng cập nhật.

Còn nữa: chi phí quan trọng. Opus đắt nhất trong ba xét theo chi phí per- token. Nếu thanh toán qua API, GPT-5 rẻ hơn cho chất lượng tương tự trên hầu hết tác vụ không phải code. Chúng tôi không pass chi phí per-token sang user subscription ở Pro, nên đây thuần là footnote thú vị — nhưng đáng nhắc nếu bạn so sánh giá trực tiếp từ nhà cung cấp.

TL;DR

Dùng Opus cho code, GPT-5 cho spec có cấu trúc, Gemini cho ngữ cảnh dài. Hoặc — dễ hơn — mở Any AI Studio và để bộ chọn mô hình nhớ cái bạn với tới trong từng tình huống.

Thấy lỗi typo hay muốn phản hồi? Email cho chúng tôi .