10 Mei 2026 3 min read Any AI Studio

GPT-5, Claude Opus 4, Gemini 2.5 Pro: adu langsung 2026

Kami jalankan 18 prompt yang sama lewat setiap frontier model dan melacak di mana masing-masing benar-benar menang. Jawabannya bukan 'pakai yang terbaru' — lebih menarik dari itu.

benchmark
perbandingan
model

Frontier bergerak begitu cepat sehingga artikel benchmark biasanya basi saat dirilis. Tetap saja — kami di sini, empat bulan masuk 2026, dan tiga hal sudah jelas bila Anda benar-benar pakai model ini seharian alih-alih sekadar membacanya.

Hasil utama

Claude Opus 4 adalah generalist terbaik bila diukur dengan “seberapa sering jawaban tak butuh follow-up sama sekali.” GPT-5 terbaik saat Anda butuh ia mengikuti instruksi rumit tanpa kehilangan benang tiga paragraf masuk. Gemini 2.5 Pro terbaik saat prompt menyertakan PDF 200 halaman dan Anda butuh ia benar-benar membaca, bukan sekilas.

Kami jalankan 18 prompt representatif di ketiganya. Tugas dibagi dalam empat kelompok:

Reasoning & matematika — Project Euler 600an, pertanyaan statistik terapan, dua masalah AIME terbuka.
Code review — diff Go 200 baris, React hook yang sengaja rusak, dua query SQL dengan bug correctness halus.
Menulis — copy halaman sales, outline esai 1.200 kata, draft artikel blog teknis.
Long-context — transkrip 80k token, sintesis multi-PDF, tugas retrieval lintas 12 dokumen sumber.

Di mana masing-masing model menang

Claude Opus 4 mendominasi code review dengan margin lebih lebar dari yang kami duga. Ia menangkap hal halus — off-by-one pada SQL window function, closure useEffect yang menangkap variabel basi — di mana dua lainnya pattern-match ke “kelihatannya oke.” Mode extended thinking menambah satu tingkat lagi tapi hanya pada masalah tersulit; untuk review sehari-hari, Opus biasa sudah di sana.

GPT-5 menang pada pengikutan instruksi multi-step. Kami beri setiap model prompt dengan sebelas requirement eksplisit (format, nada, panjang, frasa spesifik untuk disertakan, hal untuk dihindari). GPT-5 mengenai sepuluh dari sebelas pada percobaan pertama. Claude mengenai delapan. Gemini mengenai tujuh. Bila prompt Anda adalah spec terstruktur, GPT-5 masih pilihan teraman.

Gemini 2.5 Pro menang long-context decisively. Window 2M token bukan trik panggung — ia benar-benar memakai yang Anda berikan. Pada tugas sintesis 12-PDF, Gemini merujuk dokumen tiga sampai sebelas dengan benar; yang lain kebanyakan mengutip dokumen satu. Multimodal native juga lebih penting daripada yang tersirat di benchmark: parsing screenshot inline menghemat satu round-trip.

Apa artinya untuk pemakaian harian

Inilah bagian yang dilewati artikel benchmark: dalam praktik, Anda berganti. Buka chat di Opus karena ia terbaik di code review. Sadari pertanyaan hari ini adalah spec terstruktur. Ganti ke GPT-5 di tengah percakapan. Giliran berikutnya melibatkan PDF — ganti ke Gemini, ajukan pertanyaan, kembali lagi.

Itu persis workflow yang menjadi tujuan Any AI Studio. Fitur branch dan bandingkan berdampingan berarti Anda tak perlu pilih di awal. Kirim prompt ke dua model sekaligus, simpan jawaban yang lebih baik, cabangkan yang kalah untuk re-prompt.

Catatan

Hasil ini berlaku Mei 2026. Bump kuartalan berikutnya kemungkinan membalik setidaknya satu kategori. Kami akan jalankan ulang suite saat GPT-5.1 rilis (rumor akhir musim panas) dan posting update.

Juga: biaya penting. Opus adalah yang termahal dari ketiganya per token. Bila Anda ditagih API, GPT-5 jadi lebih murah untuk kualitas serupa pada sebagian besar tugas non-kode. Kami tak meneruskan biaya per token ke pengguna langganan Pro, jadi ini sekadar catatan kaki menarik — tapi layak disebut bila Anda membandingkan harga langsung-dari-provider.

Ringkasan

Pakai Opus untuk kode, GPT-5 untuk spec terstruktur, Gemini untuk long-context. Atau — lebih mudah — buka Any AI Studio dan biarkan pemilih model mengingat yang Anda raih di setiap situasi.

Menemukan typo atau ingin berkomentar? Email kami .