Бенчмарк разработан в Управлении экспериментальных систем машинного обучения Sber Al. Мы учим собственные модели, активно продвигаем науку в области, ставим уникальные эксперименты, пишем статьи уровня А* и создаем собственные бенчмарки. 1C Code Bench создан командой GigaCode R&D и командой разметки УЭСМО.

В прошлой статье я описал 1C Code Bench — бенчмарк для оценки способности LLM писать правильный код на 1С. Там я описал принципы составления задач и проверки результатов, использованные технологии и прочее. На момент написания той статьи бенчмарк насчитывал 20 задач.

Где мы сейчас

В чём слабость маленьких бенчмарков:

  • статистический шум;

  • малое покрытие разнообразия бизнес-требований;

  • слишком большая гранулярность ранжирования;

  • слишком большое влияние задач-аутлайеров.

В текущей версии уже 147 задач — вполне серьёзный набор, чтобы делать замеры без вышеперечисленных недостатков. Помимо увеличения количества мы ввели градации сложности — простые, средние и сложные. Цель задач осталась прежней: модель должна написать одну функцию на языке 1С, которая выполняет определённую бизнес-задачу.

Результаты оценки десяти популярных моделей

Мы измеряли:

  • compile rate — решение получает статус compile, если оно прошло проверку синтаксиса и код отработал без ошибок;

  • success rate — решение получает статус success, если результат написанного кода прошёл проверочный тест.

Кто участвовал в забеге:

Модель

Вендор

Характеристика

Gemini 3 Pro

Google

Флагман линейки Gemini, с длинным контекстом и сильным reasoning.

Gemini 3 Flash

Google

Лёгкий и быстрый младший брат Pro, дешевле в инференсе.

Claude Opus 4.6

Anthropic

Топовая модель Anthropic.

Claude Sonnet 4.6

Anthropic

Средняя по размеру и цене модель Anthropic, одноклассник Gemini 3 Flash.

GPT-5.5

OpenAI

Флагман общей линейки GPT-5.

GPT-5.3 Codex

OpenAI

Специализированный для кодогенерации вариант GPT-5.

GLM 5.1

Z.AI (Zhipu AI)

Открытая большая MoE-модель из Китая, обучена в том числе писать код.

Qwen 3.6 Max

Alibaba

Самая большая MoE-модель из линейки Qwen, открытая.

Qwen 3.6 35B

Alibaba

Маленькая dense-модель той же линейки, целевой сценарий — локальный запуск.

DeepSeek V4 Pro

DeepSeek

Открытая флагманская MoE-модель от Deepseek.

Не все измеряемые модели находятся в одной весовой категории — в наборе есть и тяжёлые проприетарные флагманы (Gemini 3 Pro, Opus 4.6, GPT-5.5), и средние модели (Sonnet 4.6, Gemini 3 Flash), и большие открытые MoE (GLM 5.1, Qwen 3.6 Max, DeepSeek V4), и совсем маленький открытый dense на 35 млрд параметров (Qwen 3.6 35B). Так и было задумано: хотелось понять, на каком уровне сейчас находится open-source относительно фронтира, на какие модели можно рассчитывать в условиях санкций, и какие модели вообще можно использовать для вайбкодинга в 1С.

Чемпион — Gemini 3 Pro с 51,7% Success Rate и 74,1% Compile Rate. На втором месте — Claude Opus 4.6 (46,9% / 76,9%); по компиляции он даже чуть впереди, но по итоговой доле решённых задач Gemini выигрывает за счёт лучшей логики.

Аутсайдер — Qwen 3.6 35B с провальным результатом 3,4% Success Rate и 17,0% Compile Rate. По сути, единственная модель в подборке, которая для 1С пока не годится ни в каком виде — её и брали как нижнюю планку в open-source-сегменте.

Полный список:

Модель

Compile Rate

Success Rate

Gemini 3 Pro

74.2%

51.7%

Claude Opus 4.6

76.9%

46.9%

Gemini 3 Flash

59.9%

38.1%

GPT-5.5

55.1%

34.0%

Claude Sonnet 4.6

54.4%

32.0%

Qwen 3.6 Max

49.7%

24.5%

GLM 5.1

44.2%

23.8%

DeepSeek V4 Pro

43.5%

20.4%

GPT-5.3 Codex

34.0%

18.4%

Qwen 3.6 35B

17.0%

3.4%

Несколько неожиданных моментов:

  • GPT-5.3 Codex — узкоспециализированная под код модель OpenAI — оказалась внизу таблицы (18,4%). Главная причина — провальный Compile Rate (34,0%): модель пишет уверенно, но«не на 1С» — путает синтаксис с C#, Python и JavaScript-подобным.

  • Sonnet 4.6 в этом раунде уступил Gemini 3 Flash, хотя они сравнимы по позиционированию (средние модели своих линеек). Flash оказался удивительно хорошим в синтаксисе 1С, причём раньше Sonnet обгонял Flash.

  • Открытые модели (GLM 5.1, Qwen 3.6 Max, DeepSeek V4) кучно расположились в районе 20-25% — то есть до фронтира им далеко, но они не безнадежны.

Где модели чаще ошибаются

Все ошибки удобно разделить на пять групп. Ниже я описал, кто и в чём чаще грешит.

1. Синтаксические ошибки 1С (код не компилируется платформой). Самая массовая категория. Модель пишет что-то похожее на 1С, но платформа отказывается это компилировать, потому что использованы конструкции из других языков, перепутаны ключевые слова, потеряна русская или английская раскладка имён.

Кто чаще ошибается: GPT-5.3 Codex (74), Qwen 3.6 35B (68), GPT-5.5 (55), Sonnet 4.6 (34).
Кто почти не ошибается: Gemini 3 Pro (7), Opus 4.6 (10).

Особенно показателен GPT-5.3 Codex: модель специализирована под код, но 1С она «не видела» в нужном объёме и подменяет его привычным C-подобным синтаксисом.

2. Ошибки в языке запросов. Запросы 1С — отдельный DSL со своим синтаксисом (ВЫБРАТЬ ИЗ, ГРУППИРОВАТЬ ПО, виртуальные таблицы регистров и так далее). Модели путают порядок секций, забывают | в начале каждой строки запроса, придумывают несуществующие ключевые слова (УБЫВАЮЩАЯ вместо УБЫВ).

Кто чаще ошибается: Qwen 3.6 35B (14), Gemini 3 Flash (10), GLM 5.1 (8).
Кто почти не ошибается: GPT-5.5 (0), Opus 4.6 (1).

3. Ошибки объектной модели (поля и методы). Код компилируется, но при исполнении платформа падает с «Поле не найдено» или «Метод объекта не обнаружен». Модель пытается угадать имя реквизита («Товар.ВидТовара» вместо «Товар.Вид»), вызывает несуществующий метод коллекции, путает имена ресурсов регистра.

Кто чаще ошибается: DeepSeek V4 (29), Qwen 3.6 Max (16), Sonnet 4.6/Gemini 3 Flash/GLM 5.1/Qwen 3.6 35B (по 13).
Кто почти не ошибается: GPT-5.5 (3), Codex (4), Opus 4.6 (6).

Это «галлюцинационная» категория — она хорошо коррелирует с тем, насколько много модель при обучении видела типовые конфигурации 1С.

4. Ошибки логики (код выполнился, но результат неверный). Это самый интересный класс — модель «всё знает», но всё равно решает задачу неправильно: неверное условие отбора, не та группировка, забытый случай, неправильный знак, не тот режим записи документа.

Кто чаще ошибается (в абсолютных числах): Opus 4.6 (44), Qwen 3.6 Max (37), DeepSeek V4/Sonnet 4.6/Gemini Pro (33–34).

Здесь надо смотреть осторожно: высокие абсолютные числа у Opus и Gemini Pro — следствие того, что у них вообще много задач доходит до выполнения. Они же стали лидерами по доле от скомпилированных решений.

5. Ошибки формата ответа (LLM не вернула функцию). Иногда модель оборачивает ответ в Markdown без кода, теряет имя функции, переименовывает её или вставляет код в комментарий.

Кто чаще ошибается: GLM 5.1 (13), Qwen 3.6 35B (13), Gemini 3 Pro (8).

Любопытно, что в эту категорию иногда попадает даже Gemini 3 Pro — флагманская модель. Видимо, у Gemini сильнее всех «собственное мнение» и она чаще переименовывает функции под собственное представление.

Выводы после прогона бенчмарка на основных моделях

Закрытые флагманы пока заметно впереди. Top-2 — Gemini 3 Pro и Claude Opus 4.6 — единственные, кто перешагнул отметку 45,0% Success Rate. Разрыв с лучшим открытым решением (Qwen 3.6 Max, 24.5%) почти двукратный. До состояния надёжного помощника по 1С не дотягивает пока никто, но фронтир уже близок к практической применимости.

Размер модели — необходимое, но недостаточное условие. GPT-5.3 Codex — большая и узкоспециализированная под код модель, но по 1С она хуже даже среднего Gemini Flash. И наоборот, Gemini Flash при заметно меньших ресурсах побеждает Sonnet 4.6 и GPT-5.5.
Решающим оказывается состав обучающего датасета: был ли в нём код 1С и в каком объёме.

Узкая «кодовая» специализация без 1С в обучении не помогает. Codex стабильно пишет «красивый код», но не на том языке. Это сильный сигнал, что для качественной работы с 1С нужно целевое дообучение (fine-tuning), а не просто «модель посильнее».

Самая массовая проблема — компиляция, а не логика. Из 1470 запусков (10 моделей × 147 задач) ≈ 390 решений не скомпилировались — это около четверти всего объёма. Если научить модели писать код, который мог бы хотя бы грамотно компилироваться, то средний Success Rate подскочит на десятки процентных пунктов безо всякого улучшения «понимания» бизнеса.

Маленькие открытые модели для 1С пока не работают. Qwen 3.6 35B с её 3,4% — это, по сути, нулевой результат. Локальный запуск 1С-ассистента на одной видеокарте — пока ненадёжный сценарий.

Open-source MoE подтягивается, но отстаёт. GLM 5.1, Qwen 3.6 Max и DeepSeek V4 устойчиво держатся в коридоре 20-25% Success Rate. Они уже годятся для черновых решений и автодополнения, но не для самостоятельной работы.

Приходите к нам работать!

Ссылки

Комментарии (0)