Доброго времени суток, «Хабр»!

Год близится к завершению, и за это время мы получили в распоряжение множество вполне достойных моделей. Взять хотя бы тот факт, что в ближайшее время ожидается выход новой версии GPT. К тому же, после моей предыдущей статьи о Claude Opus 4.5 родилась идея: почему бы не устроить состязание среди лидирующих сейчас текстовых моделей?

Сегодня в битве участвуют: GPT-5, Claude Opus 4.5 и Gemini 3 Pro. Делайте ставки, а я приступаю к сравнению.


Краткий экскурс

Claude Opus 4.5

Самая мощная модель от Anthropic, уже признанная лидером в сфере программирования. Если нужно решить действительно сложную задачу, написать код или разобраться в запутанной теме - это работа для Claude Opus 4.5.

Модель, как сказано выше, демонстрирует великолепные навыки в написании кода, обладает продвинутыми мультимодальными возможностями (отлично работает с визуализацией) и поддерживает длинный контекст (эффективна в продолжительных диалогах).

GPT-5

Масштабная языковая модель от OpenAI, сочетающая инженерную устойчивость, многофункциональность и управляемость.

В отличие от предыдущих релизов компании, GPT-5 - не одна модель, а интегрированная система с динамической маршрутизацией, многоуровневой безопасностью и адаптацией под конкретные задачи. Она разрабатывалась не для повышения результатов в бенчмарках, а для решения практических задач бизнеса, науки, программирования и здравоохранения. Нельзя также забыть о качестве рассуждений и стабильности.

Кстати, уже скоро - состоится релиз GPT-5.2. Ответ OpenAI на выход Claude Opus 4.5 от Anthropic.

Gemini 3 Pro

Gemini 3 Pro - это флагманская LLM от Google, новейшее поколение, объединяющее все возможности поколений 1, 2 и 2.5. Google называет ее самым интеллектуальным и фактологически точным искусственным интеллектом на сегодняшний день. Компания активно продвигает эту модель как новый этап эволюции.

DeepMind характеризует Gemini 3 Pro как значительно превосходящую своего предшественника практически по всем параметрам, доступным для измерения: способность рассуждать, писать код, поддерживать мультимодальные взаимодействия и даже убедительно вести диалоги, демонстрируя убедительность даже в тех случаях, когда это требуется.


Небольшое отступление

Модели для битвы были взяты у агрегатора нейросетей BotHub. Список нейросетей там обширен - от работы с текстом до транскрибации и генерации видео. По специальной ссылке для регистрации можно получить 100 000 капсов для собственных экспериментов.


Правила битвы

Все три модели пройдут через четыре задачи. В качестве оценки будет три вариации:

  • Плохо (1 балл)

  • Хорошо (2 балла)

  • Отлично (3 балла)

Конечно, есть и вариант с нулем баллов, но не думаю, что какая-то из рассматриваемых моделей покажет настолько плохой результат. 

В конечном итоге баллы суммируются и делятся на четыре - так мы получим среднее арифметическое. Таким образом построится рейтинг. Кстати в конце будет таблица с конечным итогом всей битвы.  

Первое задание

Первое задание будет, пожалуй, самым простым. Мне захотелось почитать творения ИИ и посмотреть, получится ли у них создать что-то адекватное в комедийном жанре. Собственно, задание и связано с этим.

Скрытый текст

Напиши комедийный рассказ в жанре научной фантастики, состоящий из пяти объемных глав. Действие происходит в далеком будущем в галактической человеческой цивилизации.

Основные требования:

Сюжет: История обычного человека (например, техника, курьера, бюрократа), который по нелепой случайности попадает в центр межгалактического конфликта или абсурдной авантюры. Ключ - комедийные недоразумения и попытки выпутаться, которые лишь усугубляют ситуацию.

Юмор: Основан на контрасте высоких технологий и низменных человеческих слабостей, сатире на современность, нелепых диалогах и гиперболе.

Мир: Яркий, но не перегруженный деталями. Технологии должны быть на грани поломки, а грандиозные космические явления - вызывать бытовые неудобства.

Структура: Пять глав с четкой драматургией: Завязка - Развитие - Кризис - Решение - Развязка. В каждой главе должна быть ��воя комедийная кульминация.

Финал: Должен быть удовлетворительным, подводить итоги трансформации героя и оставлять легкое, ироничное послевкусие.

Второе задание

Здесь задание будет немного сложнее. И мы перейдем от литературы к математике. Вроде бы чего-то сложного тут нет, но слышал, что задача в конечном итоге оказывается достаточно трудной для моделей.

Скрытый текст

Определи ранги элементов системы, заданной графом G = (V,U), где V – множество вершин, а U – множество ребер

V = {1,2,3,4,5} U= {(1,2)},(1,3),(1,4),(2,3),(2,4),(3,5),(4,5),(5,2)}.

Сначала тебе нужно построить матрицу смежности a__ij.

Затем тебе нужно построить матрицу полных путей p__ij.

Ранг элемента равен R__i = \frac{\sum__{j} p__ij}{\sum__{ji} p__ij}

Третье задание

Здесь я воспользуюсь идеей от одного из комментаторов прошлой статьи. Я немного доработал и усложнил ее.

Скрытый текст

Привет! Ты - профессиональный разработчик игр. Напиши проект игры, суть которой:

Полноценная игра в жанре RPG. В стартовом меню игрок может выбрать одну из трех рас (человек, эльф, дворф), а затем - один из пяти классов (воин, маг, друид, паладин, некромант). Должна быть реализована прокачка уровня с повышением характеристик, различные игровые активности и события (поход на миссию, защита королевства, поиск артефактов и тому подобное). Не забудь о GUI-интерфейсе. Язык программирования - Python.

Четвертое задание

Финальным тестом станет несложная логическая задача, с которой модели часто справляются плохо.

Скрытый текст

Автобус едет со скоростью 56 миль в час. В последнем ряду сидят три человека, а в предпоследнем - два. Сколько всего людей в автобусе?

Такое задание я уже встречал, поэтому сразу поясню: в моей трактовке водитель - не автопилот. Грубо говоря, модель должна понять, что в автобусе не менее шести человек.


Задание первое

GPT-5

Первой на поле боя выйдет модель от OpenAI.

Скрытый текст

Не судите строго, но выше средней оценки я бы не поставил. Модель справилась с задачей, справилась достаточно быстро, но вот качество комедии, а для меня по большей части именно оно является определяющим фактором в этом задании, здесь хромает. Юмор тут не настолько смешной, зато в текст его заливают буквально ведрами. Словно лучше было бы меньше, но более забавных шуток, чем такое количество, которое лишь портит общее впечатление.

Claude Opus 4.5

Вообще, модель лидирует в кодинге, но и здесь способна продемонстрировать успех.

Скрытый текст

Результат от Claude значительно превосходит GPT-5, пожалуй, мой вердикт - максимальная оценка. Комедийная составляющая есть, пусть и не гениальная, но общее качество текста мне понравилось.

Gemini 3 Pro

Скрытый текст

С одной стороны, объем текста у Gemini меньше, чем у того же GPT, но я снова поставлю высший балл. Лично мне из трех рассказов больше всего понравился именно этот.


Задание второе

GPT-5

Задача решена неверно. Ранжирование - слабое место для многих моделей. Для тех, кому интересно, правильный ответ:

R1 = 0.5;

R2 = 0.154;

R3 = 0.115;

R4 = 0.115;

R5 = 0.115;

Claude Opus 4.5

Ответ снова неверный, хотя я ожидал, что Claude справится с этой задачей.

Gemini 3 Pro

У меня было предчувствие, что все модели запутаются в этой задаче, - так и произошло. Gemini тоже провалился в задаче на ранжирование.


Третье задание

Пожалуй, здесь я не буду приводить скриншоты кода. Ощущаю, что их объем окажется слишком большим для статьи. Эх, уже представляю себе эти тридцать минут чтения по подсчетам Хабра.

GPT-5

1200 строк кода, игра работает - топорно, но работает. Ничего особенного в реализации я не нашел. Из косяков - элементы худа наползают друг на друга, из-за чего порой трудно угадать, какой у тебя уровень. Класс волшебника - имба, сидишь, закидываешь врагов заклинаниями и становишься практически непобедимым.

Это неплохая основа, хотя до полноценной игры ей еще далеко.

Claude Opus 4.5

2300 строк кода - на этом и закончили... Ошибка в функции, но ничего страшного, просьба поправить - и уже со второго захода удалось создать персонажа.

Здесь больше событий, лучше проработана игр��вая механика. Реализованы система прокачки характеристик, инвентарь, торговцы. В целом мне понравилось, следовательно, оценка очевидна. Конечно, было немного грустно увидеть ошибку при первой попытке - подумал, все, не получится поиграть, но нет, Opus 4.5 исправил все.

Gemini 3 Pro

Результат явно нельзя назвать удовлетворительным, поэтому за это задание модель получает один балл. Ведь можно было сделать хотя бы на уровне GPT-5.


Четвертое задание

Задание на самом деле максимально простое, но оно направлено на логику. Интересно посмотреть, как модели определят количество человек в автобусе.

GPT-5

Хороший ответ - и соответствующий балл. Модель правильно сделала минимальный расчет, хотя и не учла неопределенность с другими пассажирами. По крайней мере, она не забыла про водителя.

Claude Opus 4.5

Opus 4.5 заметил подвох, четко его обозначил и дал минимально возможный ответ. Задача решена верно.

Gemini 3 Pro

В отличие от задания с игрой, здесь модель не подвела и дала ответ, аналогичный Opus 4.5. Снова максимальный балл.


Итог

Задание\Модель

GPT-5

Claude Opus 4.5

Gemini 3 Pro

Первое задание

2

3

3

Второе задание

0

0

0

Третье задание

2

3

1

Четвертое задание

2

3

3

Среднее значение

1,5

2,25

1,75

Согласно таблице, места распределились так: Claude Opus 4.5, Gemini 3 Pro, GPT-5. Если говорить прямо - от лучшей модели к худшей. Однако стоит отметить, что все участники продемонстрировали достойный уровень. Даже GPT-5 незначительно уступает конкурентам, а с учетом скорого выхода новой версии она может серьезно потеснить лидеров или встать на уровень с ними.

Спасибо за внимание!

Комментарии (0)