Lewati ke konten
← Semua artikel
3 min read Any AI Studio

Cabangkan yang kalah, simpan yang menang: A/B model dalam satu thread

Ganti model di tengah percakapan bukan sekadar gimmick. Itu cara tercepat mengetahui model frontier mana yang sebenarnya terbaik untuk tugas spesifik Anda — tanpa mengetik ulang prompt atau kehilangan konteks.

  • fitur
  • alur kerja

Fitur yang paling sering dipakai di studio bukanlah pembuatan gambar atau video atau pencarian web. Itu adalah ikon kecil di bawah setiap pesan yang memungkinkan Anda menjalankannya ulang pada model berbeda. Orang menemukannya secara tak sengaja, lalu mereka berhenti membaca benchmark model, karena mereka tinggal mengecek sendiri.

Masalah dengan “model mana yang terbaik”

Itu pertanyaan yang salah. Tidak ada model terbaik — yang ada adalah model terbaik untuk prompt ini, hari ini. GPT-5.5 menulis prosa draf pertama yang lebih rapi. Claude Opus 4.7 menjaga sebuah argumen panjang tetap utuh tanpa kehilangan benang merah. Gemini 3.1 Pro luar biasa hebat menarik struktur dari dokumen yang berantakan. Grok lebih cepat dan lebih lucu dan lebih sering keliru. Peringkatnya berbalik tergantung apa yang Anda kerjakan dalam lima menit ke depan.

Cara jujur untuk tahu adalah menjalankan prompt yang sama lewat dua atau tiga di antaranya dan membaca hasilnya berdampingan. Cara tak jujur adalah membaca leaderboard dari enam minggu lalu. Kami membangun produk ini di seputar cara yang jujur.

Bagaimana branching bekerja

Setiap pesan punya aksi cabang. Tekan itu, pilih model berbeda, dan studio menjalankan ulang pesan tersebut dengan seluruh konteks percakapan tetap utuh — instruksi sistem, giliran sebelumnya, file terlampir, semuanya. Anda tak perlu mengetik ulang apa pun. Anda mendapat cabang paralel yang bisa dibandingkan dengan aslinya.

Simpan yang menang dan percakapan berlanjut menyusuri jalur itu. Cabang yang kalah tetap berada di pohon, terlipat, kalau-kalau Anda ingin kembali. Tidak ada yang dihancurkan; thread itu menjadi log eksperimen kecil.

Alur kerja yang benar-benar membuahkan hasil

Inilah pola yang membuat skeptis berbalik yakin, diangkat dari pemakaian nyata:

  • Buat draf pada model cepat. Mulai sebuah tulisan pada model yang cepat dan murah untuk mendapat kerangkanya. Kredit murah, perputaran cepat.
  • Cabangkan giliran sulit ke model penalaran. Saat Anda sampai pada bagian yang benar-benar sulit — argumen yang harus bertahan, kode yang harus benar — cabangkan hanya pesan itu ke Opus atau GPT-5.5. Anda membayar premium hanya di tempat yang penting.
  • Bandingkan, jangan menebak. Saat dua model tidak sepakat soal sesuatu yang faktual, ketidaksepakatan itu adalah informasi. Cabangkan model ketiga sebagai penengah, atau jalankan pencarian web setelahnya.

Hasilnya, rata-rata biaya per percakapan Anda turun, karena Anda tidak membayar harga frontier untuk 80% yang mudah — dan kualitas Anda pada 20% yang sulit naik, karena Anda menyalurkannya ke model yang memang andal di situ.

Kenapa satu langganan penting di sini

Branching hanya berfungsi bila semua model berada di satu tempat, pada satu kumpulan kredit bersama. Begitu Anda menjuggle tiga langganan terpisah dan tiga tab terpisah, friksinya membunuh kebiasaan ini — Anda berhenti membandingkan dan tinggal pakai tab mana pun yang sudah terbuka. Begitulah Anda berakhir terkunci ke satu provider karena inersia, bukan karena pilihan.

Di dalam studio, mengganti model cukup satu klik dan dengan kredit yang sama. Biaya untuk mengecek nyaris nol, jadi orang mengecek. Selama beberapa minggu itu berubah menjadi pemahaman nyata yang Anda dapatkan sendiri tentang model mana yang perlu diraih — yang nilainya lebih dari benchmark apa pun yang bisa kami terbitkan.

Coba pada prompt sulit Anda berikutnya

Lain kali Anda mendapat jawaban yang nyaris benar, jangan ulangi prompt ke model yang sama dan berharap. Cabangkan ke model lain. Separuh kali model kedua langsung menjawab benar — dan Anda akan belajar sesuatu yang awet tentang keduanya yang takkan diberitahukan oleh artikel ulasan mana pun.


Menemukan typo atau ingin berkomentar? Email kami .

Coba produk di balik tulisan ini.
studio.

Tier gratis. Tanpa kartu kredit. Masuk dengan Google atau Apple.