В этом рейтинге обновлены: Gemini 3, GPT 5.1, GLM 4.6, Kimmi K2.

Предыдущая часть тут: https://habr.com/ru/articles/951884/

Результат сразу - для тех кто не любит читать:

Некоторые условия эксперимента:

  1. Используется Агент Cursor последней версии

  2. MCP серверы из комплекта: https://vibecoding1c.ru/ Подключен сервер по справке 1С и по проверке синтаксиса. Ни в коем случае не подключен TemplateSearch и Codecheck (1С напарник) - и ним просто сети находят нужные шаблоны и получается почти 100% результат

  3. Rules отсюда

На момент проведения эксперимента LMArena выглядит следующим образом:

SWE-bench:

Таким образом мы вцелом охватываем топ сетей для генерации кода.

Задачи привожу только для повторения:

 Задача 1:

Напиши код на языке 1С который заполняет массив случайными целыми числами и потом сортирует его методом пузырька

Задача 2:

Создай таблицу значений с полями "номенклатура, Количество, Сумма, Дата" заполни тестовыми данными и напиши код который демонстрирует списание товара из этой таблицы по методу FIFO. При списании указывается только количество и номенклатура. Это должен быть код на языке 1С

Задача 3:

есть таблица - Основная таблица регистра накопления. В ней есть колонки Номенклатура, Дата, Количество, а также Цена. Пусть регистр накопления называется ОстаткиТовара. Напиши запрос на языке 1С которые получает цену товара на заданную дату. Дата задаётся в параметре запроса

Задача 3.1: 

есть таблица - таблица значений. В ней есть колонки Номенклатура, Дата, Количество, а также Цена. П. Напиши запрос на языке 1С которые получает цену товара на заданную дату. Дата задаётся в параметре запроса. Это должен быть именно запрос а не код для перебора таблицы

Задача 3.2: 

есть таблица в базе 1С. В ней есть колонки Номенклатура, Дата, Цена. Это непереодический регистр сведений "цены товара" (использовать СрезПоследних() не получится). Напиши запрос на языке 1С которые получ��ет актуальную (последнюю по дате) цену всех товаров на заданную дату. Дата задаётся в параметре запроса.

Задача 4: 

Есть справочник номенклатура с неограниченным числом уровней иерархии. Нужно запросом вывести все его группы и уровень иерархии каждой. Запрос на языке 1С.

Задача 5: 

 Используя API с сайта ЦБ РФ https://www.cbr.ru/development/sxml/ напиши код на языке 1С Предприятия для загрузки курса доллара за последний год на каждый день в таблицу значений

Задача 6: 

Есть файл Excel с колонками: Артикул, Наименование, Описание, Единица измерения. Есть справочник Номенклатура в 1С с аналогичными реквизитами. Напиши код на языке 1С для загрузки данного Excel файла в справочник.

Задача 7:

У меня есть две одновременно открытые управляемые формы в 1С. На одной из форм есть заполненная табличная часть "товары", мне нужно передать наполнение этой табличной части во вторую форму чтобы отобразить его на ней. Напиши код для одной формы и для второй.

Задача 8:

У меня в конфигурации есть справочник Номенклатура - напиши код на языке 1С для его выгрузки в идентичную конфигурацию.

Задача 9:

В конфигурации 1С Справочник Номенклатура, у него на форме элемента есть элемент с типом "Декорация" с видом "Картинка", называется "Картинка" а также реквизит "Картинка" с типом "ХранилищеЗначения". Напиши код который отображает картинку из реквизита при открытии формы и при нажатии на картинку на форме даёт возможность выбора файла с картинкой и перезаписывает её для элемента

Задача 10:

На форме документа 1С основной реквизит "Объект". У документа есть реквизит "Комментарий". Напиши код, работающий при нажатии на кноку "Записать комментарий", который в комментарий документа добавляет слово "Тест" - к текущему комментарию и записывает документ в базу данных не закрывая формы.

Задача 11:

На форме документа 1С есть табличная часть "товары". В документе обычно более 1000 строк. В табличной части есть реквизит "Сумма". Напиши код который работает при нажатии на кнопку "общая сумма" который должен посчитать сумму по всем строкам и вывести её пользователю

Результаты

Самый главный результат - кажется для топовых LLM большинство задач бенчмарка слишком просты. С момента выхода первой статьи качество SOTA моделей сильно выросло конечно. Но давайте что мне есть сказать по моделям.

Gemini 3 Pro:

Модель получилась хорошая, существенно лучше чему Gemini 2.5, но Claude 4.5 оказалась на удивление слишком удачной моделью. Gemini 3 не удалось её превзойти. Итого - она лучше Gemini 2.5, достаточно существенно, но всё ещё уступает Claude 4.5.

Кроме того, кажется пока Sonnet 4.5 существенно более адаптирована к Cursor и к работе в агентском режиме. Знает когда нужно использовать Grep, когда Web поиск, когда нужно выполнить команды в терминале и какие. И всё таки более ориентирован на достижение конечной цели. Суммарно Gemini 3 Pro пока всё так же уступает Sonnet 4.5

GPT 5.1:

По качеству ответов существенной разницы с GPT 5 не получается. Но скорость выросла просто в разы, если не в десятки раз. Я бы даже сказал из всех представленных сейчас это самая скоростная модель.

GLM 4.6:

Лучше чем 4.5 на порядок. Вцелом текущие её результаты даже получше чем у Qwen3 Coder. Скорость тоже на высоте. Вообще хорошая модель. Несколько недооцененная как по мне.

Kimmi K2:

Эту модель я бы вычеркнул из списка и пока не рекомендовал для использования в продакшн.

Периодически ответ модели в Cursor выглядит примерно так:

И это не разовая ошибка. В OpenRouter модель часто работает уж очень долго. В Cursor, собственно, тоже весьма не быстро. С учетом того что результаты модели весьма средненькие на первых тестах завершать их, пожалуй не имеет смысла.

Думаю это крайний обзор в таком формате, уже готов сервис для оценки моделей и скоро будет презентован. Можно будет добавлять свои задачи и результаты. Получим что то вроде LmArena но с 1С-ной спецификой. А пока всем спасибо за внимание, хотите узнать больше о развитии ИИ и вайбкодинга в 1С - подписывайтесь на канал https://t.me/comol_it_does_matter

С наилучшими пожеланиями, не пишите код руками :).

Комментарии (7)


  1. rPman
    19.11.2025 03:23

    Попробуйте а вручную пройтись по неправильным ответам моделей, как то классифицировать их ошибки и добавить в таблицу.


  1. bestuzheff
    19.11.2025 03:23

    Есть вот такой сайтик https://1c-llm-benchmark.ru/ сравние производительности лучших языковых моделей мира в среде 1С!


  1. ic10
    19.11.2025 03:23

    Лучшие нейросети для вайбкодинга в 1С 5

    Я так понимаю, стоит возвращаться к практике сохранения всех бумажных квитанций на всякий случай? :)


    1. rPman
      19.11.2025 03:23

      Стоит вернуться к древним как мир практикам.

      Вкладываете деньги в своего сотрудника что бы он был умнее llm-ок, а что бы он не убежал, выдаете его замуж/жените за свою родню, родственные связи чуть сильнее безликих финансовых на конкурентном рынке. Но и это будет без гарантий.


  1. rodion-m
    19.11.2025 03:23

    Спасибо
    Уточните, Kimi K2 или K2 Thinking бенчмаркали?