GPT-5, Claude Opus 4, Gemini 2.5 Pro: очная ставка 2026
Одни и те же 18 промптов через каждую frontier-модель. Где каждая реально выигрывает. Ответ не «бери самую новую» — интереснее.
- бенчмарки
- сравнения
- модели
Фронтир движется так быстро, что бенчмарк-посты обычно устаревают к моменту выхода. И всё же — четыре месяца в 2026, и три вещи стали очевидны, если использовать эти модели каждый день, а не читать про них.
Главный результат
Claude Opus 4 — лучший универсал, если мерить по «как часто ответ не требовал доуточнения». GPT-5 — лучший, когда нужно следовать сложной инструкции и не терять нить через три абзаца. Gemini 2.5 Pro — лучший, когда в промпте 200-страничный PDF и нужно его действительно прочитать, а не пробежать.
Мы прогнали 18 репрезентативных промптов на всех трёх. Задачи делились на четыре корзины:
- Reasoning и математика — Project Euler уровня 600, прикладная статистика, две открытые задачи AIME.
- Code review — Go-диффы по 200 строк, намеренно сломанный React-хук, два SQL-запроса с тонкими багами корректности.
- Тексты — лендинг-копирайтинг, план эссе на 1 200 слов, черновик технического поста.
- Длинный контекст — транскрипты на 80k токенов, синтез по нескольким PDF, задача поиска по 12 источникам.
Где каждая реально побеждает
Claude Opus 4 доминировал в code review с большим отрывом, чем мы ожидали. Ловит тонкости — off-by-one в SQL window function, useEffect-замыкание, удерживающее устаревшую переменную, — там, где остальные двое пытаются совпасть с «выглядит нормально». Extended thinking добавляет ещё один уровень, но только на самых сложных задачах; для повседневного ревью обычного Opus уже хватает.
GPT-5 выиграл по следованию многошаговым инструкциям. Мы дали каждой модели промпт с одиннадцатью явными требованиями (формат, тон, длина, обязательные фразы, исключения). GPT-5 закрыл десять из одиннадцати с первого раза. Claude — восемь. Gemini — семь. Если ваш промпт — это структурированная спецификация, GPT-5 всё ещё самый безопасный выбор.
Gemini 2.5 Pro выиграл в длинном контексте — однозначно. Окно в 2M токенов — не салонный трюк, модель реально использует то, что ей дают. На задаче синтеза по 12 PDF Gemini корректно ссылался на документы три–одиннадцать; остальные в основном цитировали первый. Нативная мультимодальность тоже важнее, чем показывают бенчмарки: разбор скриншотов прямо в чате экономит круг.
Что это значит на практике
То, что бенчмарк-посты пропускают: на практике вы переключаетесь. Открываете чат в Opus, потому что он лучший в code review. Замечаете, что сегодняшний вопрос — структурированная спека. Переключаетесь на GPT-5 посреди разговора. Следующий ход — с PDF: переключаетесь на Gemini, задаёте вопрос, переключаетесь обратно.
Под такой воркфлоу и сделана Any AI Studio. Бранчинг и сравнение бок-о-бок означают, что выбирать заранее не нужно. Отправьте промпт двум моделям сразу, оставьте лучший ответ, ответвите проигравшего на переписку промпта.
Оговорки
Эти результаты держатся в мае 2026. Следующий квартальный апдейт, скорее всего, перевернёт хотя бы одну категорию. Перегоним набор, когда выйдет GPT-5.1 (по слухам — поздним летом), и опубликуем апдейт.
И ещё: стоимость имеет значение. Opus — самый дорогой из трёх по токену. Если вы платите по API, GPT-5 выходит дешевле при сопоставимом качестве на большинстве не-кодовых задач. Мы не прокидываем потокенную цену подписчикам Pro, так что это чисто любопытная сноска — но она важна, если сравниваете прямые тарифы провайдеров.
TL;DR
Opus — для кода, GPT-5 — для структурированных спек, Gemini — для длинного контекста. Или проще: откройте Any AI Studio и дайте пикеру моделей запоминать, к кому вы тянетесь в какой ситуации.
Нашли опечатку или хотите поспорить? Напишите нам .