GPT-5 vs Claude Opus 4.5 vs Gemini 3 Pro: битва reasoning-моделей. Кто победил в 2025? / forpes.ru

Главная
GPT-5 vs Claude Opus 4.5 vs Gemini 3 Pro: битва reasoning-моделей. Кто победил в 2025?

GPT-5 vs Claude Opus 4.5 vs Gemini 3 Pro: битва reasoning-моделей. Кто победил в 2025? +5

09.12.2025 08:30

MrRjxrby 5 7500 Источник

Доброго времени суток, «Хабр»!

Год близится к завершению, и за это время мы получили в распоряжение множество вполне достойных моделей. Взять хотя бы тот факт, что в ближайшее время ожидается выход новой версии GPT. К тому же, после моей предыдущей статьи о Claude Opus 4.5 родилась идея: почему бы не устроить состязание среди лидирующих сейчас текстовых моделей?

Сегодня в битве участвуют: GPT-5, Claude Opus 4.5 и Gemini 3 Pro. Делайте ставки, а я приступаю к сравнению.

Краткий экскурс

Claude Opus 4.5

Самая мощная модель от Anthropic, уже признанная лидером в сфере программирования. Если нужно решить действительно сложную задачу, написать код или разобраться в запутанной теме - это работа для Claude Opus 4.5.

Модель, как сказано выше, демонстрирует великолепные навыки в написании кода, обладает продвинутыми мультимодальными возможностями (отлично работает с визуализацией) и поддерживает длинный контекст (эффективна в продолжительных диалогах).

GPT-5

Масштабная языковая модель от OpenAI, сочетающая инженерную устойчивость, многофункциональность и управляемость.

В отличие от предыдущих релизов компании, GPT-5 - не одна модель, а интегрированная система с динамической маршрутизацией, многоуровневой безопасностью и адаптацией под конкретные задачи. Она разрабатывалась не для повышения результатов в бенчмарках, а для решения практических задач бизнеса, науки, программирования и здравоохранения. Нельзя также забыть о качестве рассуждений и стабильности.

Кстати, уже скоро - состоится релиз GPT-5.2. Ответ OpenAI на выход Claude Opus 4.5 от Anthropic.

Gemini 3 Pro

Gemini 3 Pro - это флагманская LLM от Google, новейшее поколение, объединяющее все возможности поколений 1, 2 и 2.5. Google называет ее самым интеллектуальным и фактологически точным искусственным интеллектом на сегодняшний день. Компания активно продвигает эту модель как новый этап эволюции.

DeepMind характеризует Gemini 3 Pro как значительно превосходящую своего предшественника практически по всем параметрам, доступным для измерения: способность рассуждать, писать код, поддерживать мультимодальные взаимодействия и даже убедительно вести диалоги, демонстрируя убедительность даже в тех случаях, когда это требуется.

Небольшое отступление

Модели для битвы были взяты у агрегатора нейросетей BotHub. Список нейросетей там обширен - от работы с текстом до транскрибации и генерации видео. По специальной ссылке для регистрации можно получить 100 000 капсов для собственных экспериментов.

Правила битвы

Все три модели пройдут через четыре задачи. В качестве оценки будет три вариации:

Плохо (1 балл)
Хорошо (2 балла)
Отлично (3 балла)

Конечно, есть и вариант с нулем баллов, но не думаю, что какая-то из рассматриваемых моделей покажет настолько плохой результат.

В конечном итоге баллы суммируются и делятся на четыре - так мы получим среднее арифметическое. Таким образом построится рейтинг. Кстати в конце будет таблица с конечным итогом всей битвы.

Первое задание

Первое задание будет, пожалуй, самым простым. Мне захотелось почитать творения ИИ и посмотреть, получится ли у них создать что-то адекватное в комедийном жанре. Собственно, задание и связано с этим.

Скрытый текст

Напиши комедийный рассказ в жанре научной фантастики, состоящий из пяти объемных глав. Действие происходит в далеком будущем в галактической человеческой цивилизации.

Основные требования:

Сюжет: История обычного человека (например, техника, курьера, бюрократа), который по нелепой случайности попадает в центр межгалактического конфликта или абсурдной авантюры. Ключ - комедийные недоразумения и попытки выпутаться, которые лишь усугубляют ситуацию.

Юмор: Основан на контрасте высоких технологий и низменных человеческих слабостей, сатире на современность, нелепых диалогах и гиперболе.

Мир: Яркий, но не перегруженный деталями. Технологии должны быть на грани поломки, а грандиозные космические явления - вызывать бытовые неудобства.

Структура: Пять глав с четкой драматургией: Завязка - Развитие - Кризис - Решение - Развязка. В каждой главе должна быть своя комедийная кульминация.

Финал: Должен быть удовлетворительным, подводить итоги трансформации героя и оставлять легкое, ироничное послевкусие.

Второе задание

Здесь задание будет немного сложнее. И мы перейдем от литературы к математике. Вроде бы чего-то сложного тут нет, но слышал, что задача в конечном итоге оказывается достаточно трудной для моделей.

Скрытый текст

Определи ранги элементов системы, заданной графом G = (V,U), где V – множество вершин, а U – множество ребер

V = {1,2,3,4,5} U= {(1,2)},(1,3),(1,4),(2,3),(2,4),(3,5),(4,5),(5,2)}.

Сначала тебе нужно построить матрицу смежности a__ij.

Затем тебе нужно построить матрицу полных путей p__ij.

Ранг элемента равен R__i = \frac{\sum__{j} p__ij}{\sum__{ji} p__ij}

Третье задание

Здесь я воспользуюсь идеей от одного из комментаторов прошлой статьи. Я немного доработал и усложнил ее.

Скрытый текст

Привет! Ты - профессиональный разработчик игр. Напиши проект игры, суть которой:

Полноценная игра в жанре RPG. В стартовом меню игрок может выбрать одну из трех рас (человек, эльф, дворф), а затем - один из пяти классов (воин, маг, друид, паладин, некромант). Должна быть реализована прокачка уровня с повышением характеристик, различные игровые активности и события (поход на миссию, защита королевства, поиск артефактов и тому подобное). Не забудь о GUI-интерфейсе. Язык программирования - Python.

Четвертое задание

Финальным тестом станет несложная логическая задача, с которой модели часто справляются плохо.

Скрытый текст

Автобус едет со скоростью 56 миль в час. В последнем ряду сидят три человека, а в предпоследнем - два. Сколько всего людей в автобусе?

Такое задание я уже встречал, поэтому сразу поясню: в моей трактовке водитель - не автопилот. Грубо говоря, модель должна понять, что в автобусе не менее шести человек.

Задание первое

GPT-5

Первой на поле боя выйдет модель от OpenAI.

Скрытый текст

Не судите строго, но выше средней оценки я бы не поставил. Модель справилась с задачей, справилась достаточно быстро, но вот качество комедии, а для меня по большей части именно оно является определяющим фактором в этом задании, здесь хромает. Юмор тут не настолько смешной, зато в текст его заливают буквально ведрами. Словно лучше было бы меньше, но более забавных шуток, чем такое количество, которое лишь портит общее впечатление.

Claude Opus 4.5

Вообще, модель лидирует в кодинге, но и здесь способна продемонстрировать успех.

Скрытый текст

Результат от Claude значительно превосходит GPT-5, пожалуй, мой вердикт - максимальная оценка. Комедийная составляющая есть, пусть и не гениальная, но общее качество текста мне понравилось.

Gemini 3 Pro

Скрытый текст

С одной стороны, объем текста у Gemini меньше, чем у того же GPT, но я снова поставлю высший балл. Лично мне из трех рассказов больше всего понравился именно этот.

Задание второе

GPT-5

Задача решена неверно. Ранжирование - слабое место для многих моделей. Для тех, кому интересно, правильный ответ:

R1 = 0.5;

R2 = 0.154;

R3 = 0.115;

R4 = 0.115;

R5 = 0.115;

Claude Opus 4.5

Ответ снова неверный, хотя я ожидал, что Claude справится с этой задачей.

Gemini 3 Pro

У меня было предчувствие, что все модели запутаются в этой задаче, - так и произошло. Gemini тоже провалился в задаче на ранжирование.

Третье задание

Пожалуй, здесь я не буду приводить скриншоты кода. Ощущаю, что их объем окажется слишком большим для статьи. Эх, уже представляю себе эти тридцать минут чтения по подсчетам Хабра.

GPT-5

1200 строк кода, игра работает - топорно, но работает. Ничего особенного в реализации я не нашел. Из косяков - элементы худа наползают друг на друга, из-за чего порой трудно угадать, какой у тебя уровень. Класс волшебника - имба, сидишь, закидываешь врагов заклинаниями и становишься практически непобедимым.

Это неплохая основа, хотя до полноценной игры ей еще далеко.

Claude Opus 4.5

2300 строк кода - на этом и закончили... Ошибка в функции, но ничего страшного, просьба поправить - и уже со второго захода удалось создать персонажа.

Здесь больше событий, лучше проработана игровая механика. Реализованы система прокачки характеристик, инвентарь, торговцы. В целом мне понравилось, следовательно, оценка очевидна. Конечно, было немного грустно увидеть ошибку при первой попытке - подумал, все, не получится поиграть, но нет, Opus 4.5 исправил все.

Gemini 3 Pro

Результат явно нельзя назвать удовлетворительным, поэтому за это задание модель получает один балл. Ведь можно было сделать хотя бы на уровне GPT-5.

Четвертое задание

Задание на самом деле максимально простое, но оно направлено на логику. Интересно посмотреть, как модели определят количество человек в автобусе.

GPT-5

Хороший ответ - и соответствующий балл. Модель правильно сделала минимальный расчет, хотя и не учла неопределенность с другими пассажирами. По крайней мере, она не забыла про водителя.

Claude Opus 4.5

Opus 4.5 заметил подвох, четко его обозначил и дал минимально возможный ответ. Задача решена верно.

Gemini 3 Pro

В отличие от задания с игрой, здесь модель не подвела и дала ответ, аналогичный Opus 4.5. Снова максимальный балл.

Итог

Задание\Модель	GPT-5	Claude Opus 4.5	Gemini 3 Pro
Первое задание	2	3	3
Второе задание	0	0	0
Третье задание	2	3	1
Четвертое задание	2	3	3
Среднее значение	1,5	2,25	1,75

Согласно таблице, места распределились так: Claude Opus 4.5, Gemini 3 Pro, GPT-5. Если говорить прямо - от лучшей модели к худшей. Однако стоит отметить, что все участники продемонстрировали достойный уровень. Даже GPT-5 незначительно уступает конкурентам, а с учетом скорого выхода новой версии она может серьезно потеснить лидеров или встать на уровень с ними.

Спасибо за внимание!

Комментарии (5)

creativenew
09.12.2025 10:08
#29227668
Бред, так тестировать это аналогично людей так же тестировать, все обучены по разному, у все будет свое видение задачи и пути решения. Я пишу код, план делает Gemini и Opus, первый может интереснее накидать и частенько лучше пишет код чем Opus, когда мне лень)

pol_pot
09.12.2025 10:08
#29228978
В нашей унылой северокорейской реальности джемини побеждает с огромным отрывом за счет гигантской халявы.

Гпт и клод сдыхают после 5 минут работы и переходят в режим вымогательства подписки, которую нормальным способом не купить.

Джемини в ai studio дает нахаляву очень много токенов (в переводе на баксы не меньше 20$ в день), и если не хватило просто переключаешься на другой аккаунт и продолжаешь.

KEugene
09.12.2025 10:08
#29230986
Как оказалось, при переходе на Opus 4.5 в Клоде, суточная квота токенов выжирается в 5 раз быстрее...

Pusk1
09.12.2025 10:08
#29233202
К тесрированию вопросы, но мой любимчик для кода Opus 4.5. На стадии планирования Gemini 3 Pro, для отладки Sonet 4.5

nikv19
09.12.2025 10:08
#29236904
Интересно, но не репрезентабельно.

GPT-5 vs Claude Opus 4.5 vs Gemini 3 Pro: битва reasoning-моделей. Кто победил в 2025? +5

Краткий экскурс

Claude Opus 4.5

GPT-5

Gemini 3 Pro

Небольшое отступление

Правила битвы

Первое задание

Второе задание

Третье задание

Четвертое задание

Задание первое

GPT-5

Claude Opus 4.5

Gemini 3 Pro

Задание второе

GPT-5

Claude Opus 4.5

Gemini 3 Pro

Третье задание

GPT-5

Claude Opus 4.5

Gemini 3 Pro

Четвертое задание

GPT-5

Claude Opus 4.5

Gemini 3 Pro

Итог

Комментарии (5)

creativenew

pol_pot

KEugene

Pusk1

nikv19