reasoning-نماذج في 2026: متى يؤتي extended thinking ثماره فعلًا
Opus thinking و GPT-5.4 Mini و DeepSeek R1 — ثلاث طرق لنفس الفكرة. تتبّعنا أي المشاكل تصبح أحدّ بمزيد من الحوسبة، وأيّها تصبح فقط أبطأ.
- reasoning
- النماذج
- قياسات
توقّفت reasoning-نماذج عن كونها جدّة قبل سنة تقريبًا. هي الآن جزء من الكتالوج — Opus 4.7 فيه extended thinking، GPT-5.4 Mini يفكّر افتراضيًّا، DeepSeek R1 مفتوح ورخيص. فالسؤال المثير ليس هل تعمل، بل متى يستحقّ زمن الكمون الإضافي.
نتتبّع هذا السؤال داخليًّا منذ أشهر. إليك ما تقوله البيانات والحدس معًا.
ما الذي يكسبه «reasoning» فعلًا
حين نقول إن النموذج يفكّر، نعني أنه يُسمح له بإنفاق توكنات أكثر قبل إنتاج جواب — chain-of-thought خاص لا يُريك عادةً. توكنات أكثر تعني فرصًا أكثر لالتقاط خطأ، فرصًا أكثر للنظر في بديل، حوسبة أكثر موجَّهة للمشكلة.
تلك الحوسبة الإضافية تساعد كثيرًا في بعض المشاكل وبالكاد في غيرها. النمط ثابت تقريبًا:
- مشاكل متعدّدة الخطوات بفحوصات وسطية (براهين رياضية، refactors كود يلمس عدّة ملفات، مهام تخطيط): reasoning يفوز.
- مشاكل أحادية الخطوة حيث الجواب الصحيح على بعد قفزة استدلال واحدة (لخّص هذا الإيميل، أعد كتابة هذه الجملة، ما عاصمة منغوليا): reasoning يضيّع وقتك ومالك.
- مشاكل إبداعية حيث لا يوجد جواب صحيح قابل للتحقّق (اكتب قصيدة، مسوّدة مقال رأي، اقترح أسماء): reasoning غالبًا يجعلها أسوأ، لا أفضل. التداول الزائد قد يفلطح الصوت.
مقايضة زمن الكمون حقيقية
نموذج بلا reasoning يردّ في 2–8 ثوانٍ. نموذج reasoning يأخذ 15–90 ثانية، أحيانًا أكثر. هذا تباطؤ 5–15x تأكله في كل دور.
للـ 20٪ من البرومبتات حيث يغيّر reasoning الجواب فعلًا، يستحقّ — هذه البرومبتات كانت ستأخذ منك أربع رسائل متابعة على أي حال، وتفضّل إنفاق ساعة الحائط مرّة لا أربعًا. للـ 80٪ حيث لا يغيّر، أنت الآن تنتظر دقيقة لإجابة كنت ستقبلها في خمس ثوانٍ.
هذا الجزء لا تلتقطه التصنيفات. «نموذج X يسجّل 4 نقاط أعلى في القياس Y» صحيح ومملّ إن استغرق ثماني مرّات أطول. المقياس الصحيح هو فائدة-بالثانية، وعلى هذا المحور الصورة أقرب بكثير.
كيف نعرضه
في الاستوديو، لا تختار «reasoning» أو «بلا» — تختار نموذجًا، وreasoning زرّ تبديل على ما يدعمه. الزرّ مرئي (cmd+shift+R)، ومعاينة التكلفة تخبرك ما سيكلّفه الدور بالأرصدة قبل الإرسال.
السلوك الافتراضي:
- Opus 4.7، GPT-5.5: thinking مطفأ افتراضيًّا. شغّله للمشاكل الصعبة.
- GPT-5.4 Mini، R1: thinking مشتغل افتراضيًّا. هذه النماذج هي نسخة reasoning.
- Haiku 4.5، Gemini Flash، Nano: لا وضع thinking، بحكم التصميم.
إن كانت الذاكرة مشتغلة، يتعلّم الاستوديو متى تميل إلى قلب الزرّ ويقترحه أبكر المرّة التالية التي تبدأ فيها خيطًا مشابهًا.
حجّة الإبقاء على نموذج سريع بالجوار
حتى لو كنت لا تستخدم إلّا reasoning-نماذج، تريد على الأغلب نموذجًا سريعًا بلا reasoning على نفس الاختصار. Cmd+Shift+M وضغطة مفتاح واحدة ينبغي أن تنقلك من Opus thinking إلى Haiku 4.5 للرسالة التالية. اختبرنا بدون ذلك الاختصار أسبوعًا، والاحتكاك ظهر فورًا — تتوقّف عن التكرار لأن كل تكرار يكلّفك دقيقة.
أكثر نمط فعّال وجدناه، بفارق كبير، هو:
- ابدأ بـ reasoning-نموذج على المشكلة الصعبة.
- انزل إلى نموذج سريع للمتابعات والتعديلات وإعادة الصياغة.
- ارتفع إلى reasoning فقط حين تغيّر الاتّجاه جوهريًّا.
ما لا نعتقده
شيئان نسمعهما كثيرًا ولا نعتقد أنّهما صحيحان:
«reasoning-نماذج ستحلّ محلّ النماذج بلا reasoning». لن تفعل. أرضية زمن الكمون أساسية — لا يمكنك جعل chain-of-thought أقصر دون جعله أغبى. ستظلّ هناك فئة سريعة طالما هناك فئة صعبة.
«reasoning-نماذج أذكى في كل شيء». ليست. هي أذكى في المشاكل ذات الخطوات الوسطية القابلة للتحقّق، ومماثلة تقريبًا في كل ما عدا. فجوة القياس في الكتابة الإبداعية في 2026 صفر تقريبًا.
إذًا: فكّر حين تكون المشكلة صعبة. لا تفعل حين لا تكون. الاستوديو يجعل الزرّ على ضغطة مفتاح لسبب.
وجدت خطأً أو تريد الاعتراض؟ راسلنا .