1C Code Bench — спустя 5 месяцев / forpes.ru

Главная
1C Code Bench — спустя 5 месяцев

1C Code Bench — спустя 5 месяцев +2

29.05.2026 08:21

BelowZero 3 5400 Источник

Бенчмарк разработан в Управлении экспериментальных систем машинного обучения Sber Al. Мы учим собственные модели, активно продвигаем науку в области, ставим уникальные эксперименты, пишем статьи уровня А* и создаем собственные бенчмарки. 1C Code Bench создан командой GigaCode R&D и командой разметки УЭСМО.

В прошлой статье я описал 1C Code Bench — бенчмарк для оценки способности LLM писать правильный код на 1С. Там я описал принципы составления задач и проверки результатов, использованные технологии и прочее. На момент написания той статьи бенчмарк насчитывал 20 задач.

Где мы сейчас

В чём слабость маленьких бенчмарков:

статистический шум;
малое покрытие разнообразия бизнес-требований;
слишком большая гранулярность ранжирования;
слишком большое влияние задач-аутлайеров.

В текущей версии уже 147 задач — вполне серьёзный набор, чтобы делать замеры без вышеперечисленных недостатков. Помимо увеличения количества мы ввели градации сложности — простые, средние и сложные. Цель задач осталась прежней: модель должна написать одну функцию на языке 1С, которая выполняет определённую бизнес-задачу.

Результаты оценки десяти популярных моделей

Мы измеряли:

compile rate — решение получает статус compile, если оно прошло проверку синтаксиса и код отработал без ошибок;
success rate — решение получает статус success, если результат написанного кода прошёл проверочный тест.

Кто участвовал в забеге:

Модель	Вендор	Характеристика
Gemini 3 Pro	Google	Флагман линейки Gemini, с длинным контекстом и сильным reasoning.
Gemini 3 Flash	Google	Лёгкий и быстрый младший брат Pro, дешевле в инференсе.
Claude Opus 4.6	Anthropic	Топовая модель Anthropic.
Claude Sonnet 4.6	Anthropic	Средняя по размеру и цене модель Anthropic, одноклассник Gemini 3 Flash.
GPT-5.5	OpenAI	Флагман общей линейки GPT-5.
GPT-5.3 Codex	OpenAI	Специализированный для кодогенерации вариант GPT-5.
GLM 5.1	Z.AI (Zhipu AI)	Открытая большая MoE-модель из Китая, обучена в том числе писать код.
Qwen 3.6 Max	Alibaba	Самая большая MoE-модель из линейки Qwen, открытая.
Qwen 3.6 35B	Alibaba	Маленькая dense-модель той же линейки, целевой сценарий — локальный запуск.
DeepSeek V4 Pro	DeepSeek	Открытая флагманская MoE-модель от Deepseek.

Не все измеряемые модели находятся в одной весовой категории — в наборе есть и тяжёлые проприетарные флагманы (Gemini 3 Pro, Opus 4.6, GPT-5.5), и средние модели (Sonnet 4.6, Gemini 3 Flash), и большие открытые MoE (GLM 5.1, Qwen 3.6 Max, DeepSeek V4), и совсем маленький открытый dense на 35 млрд параметров (Qwen 3.6 35B). Так и было задумано: хотелось понять, на каком уровне сейчас находится open-source относительно фронтира, на какие модели можно рассчитывать в условиях санкций, и какие модели вообще можно использовать для вайбкодинга в 1С.

Чемпион — Gemini 3 Pro с 51,7% Success Rate и 74,1% Compile Rate. На втором месте — Claude Opus 4.6 (46,9% / 76,9%); по компиляции он даже чуть впереди, но по итоговой доле решённых задач Gemini выигрывает за счёт лучшей логики.

Аутсайдер — Qwen 3.6 35B с провальным результатом 3,4% Success Rate и 17,0% Compile Rate. По сути, единственная модель в подборке, которая для 1С пока не годится ни в каком виде — её и брали как нижнюю планку в open-source-сегменте.

Полный список:

Модель	Compile Rate	Success Rate
Gemini 3 Pro	74.2%	51.7%
Claude Opus 4.6	76.9%	46.9%
Gemini 3 Flash	59.9%	38.1%
GPT-5.5	55.1%	34.0%
Claude Sonnet 4.6	54.4%	32.0%
Qwen 3.6 Max	49.7%	24.5%
GLM 5.1	44.2%	23.8%
DeepSeek V4 Pro	43.5%	20.4%
GPT-5.3 Codex	34.0%	18.4%
Qwen 3.6 35B	17.0%	3.4%

Несколько неожиданных моментов:

GPT-5.3 Codex — узкоспециализированная под код модель OpenAI — оказалась внизу таблицы (18,4%). Главная причина — провальный Compile Rate (34,0%): модель пишет уверенно, но«не на 1С» — путает синтаксис с C#, Python и JavaScript-подобным.
Sonnet 4.6 в этом раунде уступил Gemini 3 Flash, хотя они сравнимы по позиционированию (средние модели своих линеек). Flash оказался удивительно хорошим в синтаксисе 1С, причём раньше Sonnet обгонял Flash.
Открытые модели (GLM 5.1, Qwen 3.6 Max, DeepSeek V4) кучно расположились в районе 20-25% — то есть до фронтира им далеко, но они не безнадежны.

Где модели чаще ошибаются

Все ошибки удобно разделить на пять групп. Ниже я описал, кто и в чём чаще грешит.

1. Синтаксические ошибки 1С (код не компилируется платформой). Самая массовая категория. Модель пишет что-то похожее на 1С, но платформа отказывается это компилировать, потому что использованы конструкции из других языков, перепутаны ключевые слова, потеряна русская или английская раскладка имён.

Кто чаще ошибается: GPT-5.3 Codex (74), Qwen 3.6 35B (68), GPT-5.5 (55), Sonnet 4.6 (34).
Кто почти не ошибается: Gemini 3 Pro (7), Opus 4.6 (10).

Особенно показателен GPT-5.3 Codex: модель специализирована под код, но 1С она «не видела» в нужном объёме и подменяет его привычным C-подобным синтаксисом.

2. Ошибки в языке запросов. Запросы 1С — отдельный DSL со своим синтаксисом (ВЫБРАТЬ ИЗ, ГРУППИРОВАТЬ ПО, виртуальные таблицы регистров и так далее). Модели путают порядок секций, забывают | в начале каждой строки запроса, придумывают несуществующие ключевые слова (УБЫВАЮЩАЯ вместо УБЫВ).

Кто чаще ошибается: Qwen 3.6 35B (14), Gemini 3 Flash (10), GLM 5.1 (8).
Кто почти не ошибается: GPT-5.5 (0), Opus 4.6 (1).

3. Ошибки объектной модели (поля и методы). Код компилируется, но при исполнении платформа падает с «Поле не найдено» или «Метод объекта не обнаружен». Модель пытается угадать имя реквизита («Товар.ВидТовара» вместо «Товар.Вид»), вызывает несуществующий метод коллекции, путает имена ресурсов регистра.

Кто чаще ошибается: DeepSeek V4 (29), Qwen 3.6 Max (16), Sonnet 4.6/Gemini 3 Flash/GLM 5.1/Qwen 3.6 35B (по 13).
Кто почти не ошибается: GPT-5.5 (3), Codex (4), Opus 4.6 (6).

Это «галлюцинационная» категория — она хорошо коррелирует с тем, насколько много модель при обучении видела типовые конфигурации 1С.

4. Ошибки логики (код выполнился, но результат неверный). Это самый интересный класс — модель «всё знает», но всё равно решает задачу неправильно: неверное условие отбора, не та группировка, забытый случай, неправильный знак, не тот режим записи документа.

Кто чаще ошибается (в абсолютных числах): Opus 4.6 (44), Qwen 3.6 Max (37), DeepSeek V4/Sonnet 4.6/Gemini Pro (33–34).

Здесь надо смотреть осторожно: высокие абсолютные числа у Opus и Gemini Pro — следствие того, что у них вообще много задач доходит до выполнения. Они же стали лидерами по доле от скомпилированных решений.

5. Ошибки формата ответа (LLM не вернула функцию). Иногда модель оборачивает ответ в Markdown без кода, теряет имя функции, переименовывает её или вставляет код в комментарий.

Кто чаще ошибается: GLM 5.1 (13), Qwen 3.6 35B (13), Gemini 3 Pro (8).

Любопытно, что в эту категорию иногда попадает даже Gemini 3 Pro — флагманская модель. Видимо, у Gemini сильнее всех «собственное мнение» и она чаще переименовывает функции под собственное представление.

Выводы после прогона бенчмарка на основных моделях

Закрытые флагманы пока заметно впереди. Top-2 — Gemini 3 Pro и Claude Opus 4.6 — единственные, кто перешагнул отметку 45,0% Success Rate. Разрыв с лучшим открытым решением (Qwen 3.6 Max, 24.5%) почти двукратный. До состояния надёжного помощника по 1С не дотягивает пока никто, но фронтир уже близок к практической применимости.

Размер модели — необходимое, но недостаточное условие. GPT-5.3 Codex — большая и узкоспециализированная под код модель, но по 1С она хуже даже среднего Gemini Flash. И наоборот, Gemini Flash при заметно меньших ресурсах побеждает Sonnet 4.6 и GPT-5.5.
Решающим оказывается состав обучающего датасета: был ли в нём код 1С и в каком объёме.

Узкая «кодовая» специализация без 1С в обучении не помогает. Codex стабильно пишет «красивый код», но не на том языке. Это сильный сигнал, что для качественной работы с 1С нужно целевое дообучение (fine-tuning), а не просто «модель посильнее».

Самая массовая проблема — компиляция, а не логика. Из 1470 запусков (10 моделей × 147 задач) ≈ 390 решений не скомпилировались — это около четверти всего объёма. Если научить модели писать код, который мог бы хотя бы грамотно компилироваться, то средний Success Rate подскочит на десятки процентных пунктов безо всякого улучшения «понимания» бизнеса.

Маленькие открытые модели для 1С пока не работают. Qwen 3.6 35B с её 3,4% — это, по сути, нулевой результат. Локальный запуск 1С-ассистента на одной видеокарте — пока ненадёжный сценарий.

Open-source MoE подтягивается, но отстаёт. GLM 5.1, Qwen 3.6 Max и DeepSeek V4 устойчиво держатся в коридоре 20-25% Success Rate. Они уже годятся для черновых решений и автодополнения, но не для самостоятельной работы.

Приходите к нам работать!

Ссылки

Комментарии (3)

VVizard
31.05.2026 09:51
#30043488
Нет смысла в таких тестах.

Это все равно что тестировать микроскопы по тому как хорошо они разбивают орехи.

Пункты 1-3 (все что не касается логики) должны закрываться MCP сервером который сообщит синтаксис, проверит запрос, сообщит структуру метаданных.

Так же модель должна иметь возможность запустить и проверить код.

Нужен тест комплексный с хорошим MCP сервером, грамотными правилами, и ide с вызовом инструментов и хорошим системным промптом.

Плюс желательно иметь хорошую спецификацию (это закроет ошибки логики).

И в таком рабочем сетапе результаты будут принципиально другими.

В современных тяжёлых моделях возможно набрать 100% по пунктам 1-3, на первое место выходят вопросы времени и бюджета (количество токенов).
1. ZAVHome
  31.05.2026 09:51
  #30043586
  Ну, тест хорош для ситуации когда нужно поправить что-то по быстрому в готовом коде.
  А заморачиваться с развёртыванием инфры, нет желания или возможностей.
1. BelowZero Автор
  31.05.2026 09:51
  #30043940
  То что вы описали, это агентское поведение. Такой бенчмарк тоже готовится, будет скоро. Смысл не-агентских бенчмарков в том, чтобы понять, какие модели уже имеют достаточно компетенций по 1С в своих весах, без скаффолдинга в виде MCP и скиллов