فرّع الخاسر، وأبقِ الفائز: اختبار A/B للنماذج داخل سلسلة واحدة
تبديل النماذج في منتصف المحادثة ليس حيلة. إنّه أسرع طريقة لتكتشف أيُّ نموذج متقدّم هو الأفضل فعلًا لمهمّتك المحدّدة — دون إعادة كتابة البرومبت أو فقدان السياق.
- ميزات
- سير العمل
أكثر ميزة استخدامًا في الـ studio ليست توليد الصور ولا الفيديو ولا البحث على الويب. إنّها الأيقونة الصغيرة تحت كل رسالة التي تتيح لك إعادة تشغيلها على نموذج مختلف. يكتشفها الناس بالصدفة، ثمّ يتوقّفون عن قراءة مقاييس أداء النماذج، لأنّ بإمكانهم ببساطة أن يتحقّقوا بأنفسهم.
مشكلة سؤال «أيُّ نموذج هو الأفضل»
إنّه السؤال الخطأ. لا يوجد نموذج أفضل — يوجد نموذج أفضل لهذا البرومبت، اليوم. يكتب GPT-5.5 مسوّدة نثر أنظف. يحافظ Claude Opus 4.7 على تماسك حجّة طويلة دون أن يفقد الخيط. أمّا Gemini 3.1 Pro فبارع على نحو غير معقول في استخلاص البنية من مستند فوضويّ. و Grok أسرع وأطرف ومخطئ أكثر. يتقلّب الترتيب بحسب ما ستفعله في الخمس دقائق القادمة.
الطريقة الصادقة لتعرف هي أن تشغّل البرومبت ذاته عبر اثنين أو ثلاثة منها وتقرأ المخرجات جنبًا إلى جنب. الطريقة غير الصادقة هي أن تقرأ لوحة صدارة من قبل ستّة أسابيع. بنينا المنتج حول الطريقة الصادقة.
كيف يعمل التفريع
لكلّ رسالة إجراء تفريع. اضغطه، اختر نموذجًا مختلفًا، فيعيد الـ studio تشغيل تلك الرسالة مع سياق المحادثة الكامل سليمًا — تعليمات النظام، الأدوار السابقة، الملفّات المرفقة، كلّ شيء. لا تعيد كتابة أيّ شيء. تحصل على فرع موازٍ يمكنك مقارنته بالأصل.
أبقِ الفائز فتواصل المحادثة سيرها في ذلك المسار. تبقى الفروع الخاسرة في الشجرة، مطويّة، تحسّبًا لرغبتك في العودة إليها. لا يُتلَف شيء؛ تصير السلسلة سجلّ تجارب صغيرًا.
سير عمل يؤتي ثماره فعلًا
إليك النمط الذي يقنع المتشكّكين، مأخوذ من استخدام حقيقيّ:
- اكتب المسوّدة على نموذج سريع. ابدأ نصًّا على نموذج سريع ورخيص لتحصل على الشكل العامّ. أرصدة رخيصة، إنجاز سريع.
- فرّع الدور الصعب إلى نموذج استدلاليّ. حين تصل إلى الجزء الصعب فعلًا — الحجّة التي يجب أن تصمد، الكود الذي يجب أن يكون صحيحًا — فرّع تلك الرسالة فقط إلى Opus أو GPT-5.5. تدفع العلاوة حيث يهمّ فقط.
- قارِن، لا تخمّن. حين يختلف نموذجان حول أمر واقعيّ، فذلك الخلاف نفسه معلومة. فرّع نموذجًا ثالثًا حكَمًا، أو أرسِل بحثًا على الويب بعده.
النتيجة أنّ متوسّط تكلفتك لكلّ محادثة ينخفض، لأنّك لا تدفع أسعار النماذج المتقدّمة للثمانين بالمئة السهلة — وترتفع جودتك في العشرين بالمئة الصعبة، لأنّك توجّهها إلى النموذج البارع فيها فعلًا.
لماذا يهمّ اشتراك واحد هنا
لا يعمل التفريع إلّا إذا كانت النماذج كلّها في مكان واحد، على مجمّع أرصدة مشترك واحد. في اللحظة التي تجد فيها نفسك تتنقّل بين ثلاثة اشتراكات منفصلة وثلاثة تبويبات منفصلة، يقتل الاحتكاك العادة — تتوقّف عن المقارنة وتستخدم أيّ تبويب مفتوح أصلًا. هكذا ينتهي بك المطاف منحصرًا في مزوّد واحد بالقصور الذاتيّ لا بالاختيار.
داخل الـ studio، تبديل النماذج نقرة واحدة وبالأرصدة نفسها. تكلفة التحقّق تقارب الصفر، فيتحقّق الناس. على مدى بضعة أسابيع يتحوّل ذلك إلى حسّ حقيقيّ مكتسب بأيّ نموذج تمدّ يدك إليه — وهو أثمن من أيّ مقياس أداء يمكننا نشره.
جرّبه على برومبتك الصعب القادم
في المرّة القادمة التي تحصل فيها على جواب شبه صحيح، لا تعِد استفزاز النموذج نفسه وتأمل. فرّعه إلى نموذج آخر. نصف الوقت يفهمها النموذج الثاني ببساطة — وستكون قد تعلّمت شيئًا راسخًا عن كليهما لم يكن أيُّ مقال مراجعة ليخبرك به.
وجدت خطأً أو تريد الاعتراض؟ راسلنا .