GPT-5 و Claude Opus 4 و Gemini 2.5 Pro: مواجهة 2026
أجرينا نفس 18 برومبتًا على كل نموذج متقدّم وتتبّعنا أين يفوز فعلًا. الجواب ليس «استخدم الأحدث» — بل أكثر طرافة من ذلك.
- قياسات
- مقارنات
- النماذج
تتحرّك الواجهة المتقدّمة بسرعة تجعل مقالات القياس قديمة لحظة نشرها. ومع ذلك — ها نحن بعد أربعة أشهر من 2026، وثلاثة أشياء صارت واضحة لمن يستخدم هذه النماذج طوال اليوم بدل قراءة المقالات عنها.
النتيجة العامّة
Claude Opus 4 أفضل عامّ إن قِسته بـ «كم مرّة لم يحتج الجواب إلى متابعة». GPT-5 الأفضل حين تحتاج اتباع تعليمات معقّدة دون أن يضيع الخيط بعد ثلاث فقرات. Gemini 2.5 Pro الأفضل حين يحتوي البرومبت على PDF من 200 صفحة وتحتاج إلى قراءتها فعلًا لا تصفّحها.
أجرينا 18 برومبتًا تمثيليًا عبر الثلاثة. تنقسم المهام إلى أربعة أنواع:
- reasoning ورياضيات — مسائل Project Euler من المئات الستّ، أسئلة إحصاء تطبيقي، مسألتان مفتوحتان من AIME.
- مراجعة كود — diffs بـ Go من 200 سطر، React hook عُطِّل عمدًا، استعلامان SQL بأخطاء صحّة دقيقة.
- كتابة — نصّ صفحة مبيعات، مخطّط مقال من 1,200 كلمة، مسوّدة مقال تقني.
- سياق طويل — تنصيصات من 80k توكن، تركيب متعدّد الـ PDF، مهمّة استرجاع عبر 12 مستندًا.
أين يفوز كل نموذج فعلًا
Claude Opus 4 سيطر على مراجعة الكود بفارق أكبر مما توقّعنا. يلتقط الدقائق — off-by-one في window function في SQL، useEffect closure يلتقط متغيّرًا قديمًا — حيث يكتفي الآخران بـ «يبدو سليمًا». وضع extended thinking أضاف درجة لكن فقط على الأصعب؛ للمراجعة اليومية، Opus العادي كان جاهزًا.
GPT-5 فاز في اتباع التعليمات متعدّدة الخطوات. أعطينا كل نموذج برومبتًا بأحد عشر مطلبًا صريحًا (تنسيق، نبرة، طول، عبارات محدّدة لتُدرَج، أشياء تُستبعَد). GPT-5 ضرب عشرة من أحد عشر من المحاولة الأولى. Claude ضرب ثمانية. Gemini ضرب سبعة. إن كان برومبتك مواصفات منظَّمة، فـ GPT-5 لا يزال الأكثر أمانًا.
Gemini 2.5 Pro فاز بالسياق الطويل حسمًا. نافذة 2M توكن ليست حيلة سيرك — يستخدم فعلًا ما تعطيه. في مهمّة تركيب 12 PDF، Gemini أشار صحيحًا إلى المستندات من الثالث إلى الحادي عشر؛ الآخرون استشهدوا غالبًا بالأوّل. القدرة الأصلية متعدّدة الوسائط أيضًا تهمّ أكثر مما توحي القياسات: تحليل لقطات الشاشة داخل المحادثة يوفّر جولة.
ما الذي يعنيه هذا للاستخدام اليومي
الجزء الذي تتجاوزه مقالات القياس: عمليًّا، أنت تبدّل. تفتح المحادثة في Opus لأنه الأفضل في مراجعة الكود. تلاحظ أن سؤال اليوم مواصفات منظّمة. تتحوّل إلى GPT-5 وسط المحادثة. الدور التالي يتضمّن PDF — تتحوّل إلى Gemini، تسأل، وتعود.
هذا بالضبط التدفّق الذي صُمِّم له Any AI Studio. ميزتا التفريع والمقارنة جنبًا إلى جنب تعنيان أنك لست مضطرًّا للاختيار مسبقًا. أرسل البرومبت إلى نموذجين معًا، احتفظ بالجواب الأفضل، وفرّع الخاسر لإعادة الكتابة.
تحفّظات
هذه النتائج صحّت في مايو 2026. الترقية الفصلية القادمة ستقلب على الأرجح فئة واحدة على الأقلّ. سنعيد التشغيل عند إطلاق GPT-5.1 (يُشاع أواخر الصيف) وننشر تحديثًا.
أيضًا: التكلفة مهمّة. Opus الأغلى بين الثلاثة بتكلفة التوكن. إن كنت تُحاسَب على API، فـ GPT-5 ينتهي أرخص لجودة مماثلة في معظم المهام غير البرمجية. لا نمرّر تكلفة التوكن لمستخدمي Pro، فهذا حاشية مثيرة — لكنّها تستحقّ الذكر إن كنت تقارن أسعار المزوّدين مباشرة.
الخلاصة
استخدم Opus للكود، GPT-5 للمواصفات المنظَّمة، Gemini للسياق الطويل. أو — أسهل — افتح Any AI Studio ودع منتقي النماذج يتذكّر أيّها تطلب في كل موقف.
وجدت خطأً أو تريد الاعتراض؟ راسلنا .