В этой части добавил Claude Opus 4.5 и GPT 5.1-Codex-Max
Предыдущая часть: https://habr.com/ru/articles/967828/
Для тех, кто не любит читать, результат сразу тут:

И ссылка на рейтинг, который теперь переехал вот сюда: https://vibecoding1c.ru/bench
Условия стандартные: Подключены правила и MCP серверы без MCP по шаблонам и MCP с напарником. Для чистоты эксперимента, но всё таки в нормальных условиях.
Но по итогам этого рейтинга есть изменение: теперь лучшая модель для ИИ разработки на 1С - Claude Opus 4.5.
Этот обзор будет финальным в виде статьи, потому что бенчмарк переехал на сервис, который я собираюсь поддерживать на регулярной основе и надеюсь на присоединение сообщества.
Задачи пока не изменились от предыдущих бенчмарков, но теперь каждый может добавить свою задачу и оценку:

В этом отношении самое главное "как сохранить целостность самого бенчмарка если кто угодно будет ставить какие угодно оценки". На самом деле тут работает правило 80/20 - если 80% моделей имеют оценку по данной задаче, то она учитывается в рейтинге - если нет - все оценки неактивны.
Оградит ли это от манипуляций? Нет конечно, но модерация предусмотрена, а если человек сделал задачу и оценил её со всеми моделями, ну вряд ли это делалось просто "по фану".
Также результат оценки теперь содержит сгенерированный код:

Соответственно можно проверить +- достоверность результатов.
Но методика содержит скоринг для оценок:

Конечно оценка качества кода при таком подходе - дело субъективное, но, к слову, оценка кода всегда дело субъективное, вся LMArena по сути основана на этому субъективном мнении. SWEBench вроде нет, но итоги SWEBench часто бывают более странными чем LMArena.
Почему же методика именно ручной оценки а не формат LMArena или SWEBench?
На SWEBench у меня надежды не было изначально - всё таки в 1С есть достаточно много специфики и версий платформ. Всё таки применять подход, справедливый для классических языков программирования здесь не получится, как минимум нет консоли, нужны метаданные, слишком разные версии, зависимость от MCP, невозможность (пока) полностью агентского сценария.
LMArena - более интересный способ, но вспомним после какого количества битв модель появляется в рейтинге классической LMArena? Примерно 1000+ битв. Только на таком количестве битв статистическая погрешность постепенно отступает.
Для 1С мы такого количества "битв" можем просто не набрать, особенно с учетом скорости выхода новых моделей. Поэтому затея конечно крутая, но на практике реализовать практически не получится. Стоит сказать что за то время пока я собирался всё таки переехать на оценку в сервисе появился бенчмарк, который подтвердил мои опасения:
https://1c-llm-benchmark.ru/#leaderboard
Вот так выглядит их SWE:

Очевидно что сильный "плевок в морду" Anthropic, потому что они "делают новые модели хуже чем старые" (не��). Совсем неуместный в рейтинге для 1С gpt-5 (даже не codex) и gemini 2.5 только 8-й в "рейтинге" проигравший аж двум deepseek. Claude Opus 4.5 вообще отсутствует как и Gemini 3. Хотя вышли достаточно давно по меркам современного мира
Для сравнения общий SWEBench сейчас выглядит вот так:

Он не может не коррелировать с 1С по определению, и вцелом результаты похожи, хотя могут быть и расхождения. Например OpenAI модели вообще ничего не хотят знать про 1С и без MCP показывают из ряда вон ужасные результаты.
C Arena получилось несколько лучше:

Есть новые модели, но опять "камень в огород" Anthropic, которые зачем то выпускают модели новые хуже предыдущих (ни в коем случае нет!) и zAI (где 4.6 прямо очень существенно лучше 4.5) ну и результаты с количеством битв 19-20 конечно совсем не релевантны для такого способа оценки. Заметьте - количество оценок и количество "битв" это о разном. "Битва" это 1/N оценки, где N - число моделей по сути.
К моделям в Arena тоже есть вопросы - как то попал gemini flash - Для разработки совсем непригодный и Qwen3 Coder почему то 30B - не то чтобы младший братик, а скоре "домашняя зверушка" основной модели Qwen3.
Текущая Arena общего профиля сейчас выглядит вот так:

Для 1С соответственно отлетают все творения OpenAI ну и Gemini3 Всё таки объективно слабее в разработке чем даже Sonnet 4.5. С этим, к слову, не спорит даже сам Google:

https://blog.google/products/gemini/gemini-3/#gemini-3
Который утверждает что Gemini 3 лучше всех и во всём кроме того где 100% и Разработки, где Sonnet её опередила.
Собственно это сподвигло всё таки не бросать затею с бенчмарком пока не появится что то более объективное, а может и не надо.
Очевидно стало только то, что нужно добавлять задачи в бенчмарк, а некоторые может и убирать, что я и собираюсь делать. С простыми задачами современные SOTA модели справляются достаточно хорошо. Opus 4.5 тут уже покусился даже на запрос с неограниченной иерархией, который решается транзитивным замыканием. Сложных и при этом специфичных для 1С задач надо больше. А любимую "Сортировку пузырьком" буду убирать.
Итого:
Новый лидер рейтинга Cloude Opus 4.5
Больше статей на хабр на эту тему выходить не будет - сам рейтинг переехал сюда https://vibecoding1c.ru/bench - добавьте себе в закладки
Об обновлениях я конечно буду отписываться на канале https://t.me/comol_it_does_matter - подписывайтесь
Добавляйте новые задачи и оценки в рейтинг, это явно поможет ему стать лучше.