Когда команда выбирает LLM для продакшена, «сравнение по бенчмаркам» — это лишь первый фильтр. Для CTO ключевой вопрос звучит иначе: какую комбинацию качества, стоимости, стабильности API, юридических ограничений и интеграций мы получим на реальной нагрузке. 

Я разобрал популярные модели через призму двух контуров: качество/бенчмарки и инфраструктурная пригодность.

Сравнение бенчмарков

Современные крупные языковые модели можно оценивать по разным бенчмаркам, отражающим их способность решать широкий круг задач, включая генерацию текстов, понимание контекста и решение прикладных задач.

Важно: бенчмарк отвечает на вопрос «что модель может в лаборатории», но не отвечает на вопросы «сколько это будет стоить на 1M запросов», «как поведёт себя на пиках», «какие SLA/uptime», «где хранятся данные» и «какие есть ограничения по оплате/контрактованию». Поэтому дальше — сначала кратко про качество, затем — про инфраструктуру и эксплуатацию.

Chat GPT-5

  • Лидер в большинстве публичных оценок: GPT-5 — «умнее, быстрее и полезнее», со встроенным режимом рассуждений и механизмом выбора режима ответа, который решает, когда отвечать быстро, а когда — глубже анализировать.

  • Показывает топовые результаты в лидербордах, в том числе у Альянса в сфере ИИ (MERA): в разделе по коду вверху рейтинга — модели семейства GPT-5 (например, GPT-5.1-Codex-Max).

  • Сильная адаптация к прикладным задачам и интеграциям через API: есть линейка «размеров» (GPT-5 / GPT-5 mini / GPT-5 nano), настройка «глубины рассуждений», большой контекст (до 400 000) и поддержка ввода текст+изображения. 

    GPT-5.2

  • Сильное качество на русском: в MERA Text у GPT-5.2 общий результат 0.707 и 5-е место — это сводный балл по набору русскоязычных задач.

  • Где особенно хороша: модель в «топе» по нескольким основным задачам и на части из них показывает результат выше “человеческого” ориентира (например, RWSD, ruWorldTree, ruOpenBookQA, ruTiE).

  • Инфраструктура и эксплуатация (проще): это закрытая модель, доступная через API — то есть её обычно подключают вызовами к сервису, а не разворачивают у себя; в сабмите также зафиксированы параметры инференса (часто без случайности, а для кодовых задач — с temperature=0.6).

Gigachat Max 

  • Занимает 45 место в MERA Text, общий результат — 0.588.

  • По задачам видно «профиль» качества: в топе по ruModAr (входит в число основных; 0.938), при этом хорошие результаты на ruWorldTree (0.975/0.975) и ruOpenBookQA (0.918/0.737), но заметно слабее на ряде задач вроде ruCodeEval (0.077/0.093/0.098), ruDetox (0.199) и ruHateSpeech (0.611).

  • С точки зрения эксплуатации в рамках бенчмарка это закрытая модель через API; прогон делали на инфраструктуре 5× NVIDIA H100 80GB, batch=1; генерация в большинстве задач детерминированная, а на кодовых — со сэмплированием. 

DeepSeek V3

  • Представляет собой мощную открытую языковую модель с 671 миллиардами параметров, из которых 37 миллиардов активируются для каждого токена.

  • Русский (MERA Text): в рейтинге MERA для русского текста у сабмита DeepSeek-V3 общий результат 0.677 и 9-е место. В “сильных” задачах отмечены ruWorldTree (результат выше человеческого), MaMuRAMu (тоже выше человеческого), а также ruTiE/USE/MathLogicQA; среди слабых — RWSD, RCB, ruEthics и др. 

  • Практика доступа/стабильность: веса у модели доступны по MIT-лицензии, но в конкретном замере MERA модель гоняли через API (openrouter / deepseek-chat) — поэтому в реальном проекте качество “по цифрам” упирается ещё и в провайдера/канал доступа (лимиты, задержки, доступность).

Сравнение отечественных LLM-моделей

Уделю внимание, конечно, и производительности моделей на русском языке, думаю, это нам с вами особенно актуально.

GPT-5.2 — сильный универсальный ориентир по качеству: в русскоязычном бенчмарке MERA у модели 0,707 общего результата и 5-е место в рейтинге. При этом OpenAI позиционирует GPT-5.2 как модельную серию для профессиональной работы и агентных сценариев (инструменты/длинные цепочки).

YandexGPT Pro 5.1 — флагманская модель Яндекса в продуктах «Алисы»: компания указывает, что ответы «Алисы» в мессенджерах работают на базе YandexGPT 5.1 Pro и доступен режим рассуждений для сложных задач.

GigaChat 3 Ultra Preview — ставка на русскоязычность и контроль развертывания: SberDevices пишет, что это крупная открытая MoE-модель, «нативно обученная на русском», с 702B параметров и ≈36B активных (на токен), опубликованная под MIT-лицензией. В MERA эта версия показывает 0,683 и занимает 6-е место.

DeepSeek — сильная инженерная/агентная линия: в MERA для DeepSeek-V3 зафиксированы 0,677 и 9-е место. В декабре 2025 DeepSeek анонсировал V3.2 как reasoning-first модели «для агентов» и отдельно подчеркивает интеграцию thinking прямо в tool-use (а также выпуск весов). При этом по «чисто русскому» качеству многое будет зависеть от ваших данных/инструкций/пост-тюнинга, даже если общая архитектура и метрики сильные.

Проблемы с включением YandexGPT Pro 5.1 в бенчмарки

YandexGPT Pro 5.1 отсутствует в публичном лидерборде MERA. Возможное ограничение — часть задач в бенчмарках часто считают через log-likelihood, где нужны логиты/лог-вероятности, а многие API этого не отдают; MERA отмечает, что log-likelihood режим обычно не подходит для API-моделей и рекомендует генеративный режим. При этом MERA поддерживает оценку через API (с v1.2.0), поэтому при наличии опубликованного сабмита/интеграции модель можно замерить и сравнить.

По данным Яндекса, 5.1 Pro выигрывает у предыдущей версии и в их внутренних сравнениях приближается к GPT-4.1, но это вендорская оценка с ограниченно раскрытой методикой. 

Ключевой вывод: «нет в Leaderboard» ≠ «хуже», но это означает, что сравнение становится неполным и требует либо собственного бенчмарка, либо пилота на реальных данных. В таких случаях правильная практика — фиксировать метрики качества/ошибок/стоимости на своём датасете и прогонять модели в одинаковых условиях (температура, промпт, длина контекста, формат ответа).

Инфраструктурное сравнение LLM-моделей

Для оценки инфраструктурных параметров языковых моделей я анализировал ключевые показатели, включая стоимость, размер контекстного окна (количество токенов), поддержку LangChain и стоимость обработки отзывов. Анализ основан на представленных данных, включающих модели Chat GPT-5, Gigachat Max, GPT-5.2, YandexGPT 5.1 Pro, Cotype и DeepSeek V3.

Ключевые параметры сравнения

GPT-5 (OpenAI)

  • Стоимость токенов (Standard, за 1 млн токенов): input: $1.25 → 96,51 ₽; output: $10 → 772,09₽.

  • Контекстное окно: 128 000 токенов.

  • Поддержка LangChain: да (через стандартную интеграцию OpenAI API).

  • Стоимость обработки отзывов: если 300 input + 60 output токенов на 1 отзыв, то ≈ 75,3₽ за 1000 отзывов (при курсе выше).

GPT-5.2 (OpenAI)

  • Стоимость токенов (Standard, за 1 млн токенов): input: $1.75 → 135,12₽; output: $14 → 1080,93₽.

  • Контекстное окно:  128 000 токенов.

  • Поддержка LangChain: да (OpenAI API).

  • Стоимость обработки отзывов (300+60 токенов): ≈ 105,4₽ за 1000 отзывов.

GigaChat Max

  • Стоимость токенов: 650 ₽ за 1 млн токенов (то есть 0,65₽ за 1000 токенов).

  • Контекстное окно: 128 000 токенов.

  • Поддержка LangChain: прямой «из коробки» коннектор зависит от вашей обвязки; как минимум есть официальный SDK/инструменты вокруг GigaChat API (обычно подключают через адаптер).

  • Стоимость обработки отзывов (300+60 токенов): всего 360 токенов, значит ≈ 234₽ за 1000 отзывов.

YandexGPT Pro 5.1 (Yandex AI Studio)

  • Стоимость токенов: 0,82 ₽/1000 токенов (вход и выход, синхронно, вкл. НДС), 0,41 ₽/1000 (асинхронно, вкл. НДС).  

  • Контекстное окно: фиксируйте по разделу лимитов/моделей.

  • Поддержка LangChain: практически да, потому что у AI Studio есть режим совместимости с OpenAI.

  • Стоимость обработки отзывов (300+60 токенов): ≈ 186,23 ₽ за 1000 отзывов.

Cotype (MWS AI / МТС)

  • Стоимость токенов: от 0,40 ₽ за 1000 токенов (pay-as-you-go; публично на сайте MWS GPT). 

  • Контекстное окно: до 128 000 токенов

  • Поддержка LangChain: да через OpenAI-совместимый API.

  • Стоимость обработки отзывов (300+60=360 токенов): 0,144 ₽, 144 ₽ за 1000 отзывов.

DeepSeek V3

  • Стоимость токенов: вход: $0,28 / 1 млн токенов → ≈ 21,62 ₽ / 1 млн,, выход: $0,42 / 1 млн токенов → ≈ 32,43 ₽ / 1млн

  • Контекстное окно: 128 000 токенов.

  • Поддержка LangChain: да.

  • Стоимость обработки отзывов: (300 вход + 60 выход): ≈ 0,00843₽ (≈ 0,84 коп.) ⇒ ≈ 8,43 ₽ за 1000 отзывов.

Что рекомендую

Если задача с жёстким ограничением бюджета

DeepSeek V3 — лучший выбор по цене: ≈ 8,43 ₽ за 1000 отзывов (300+60), LangChain да, контекст 128k.

Если нужен чуть более качественный текст, но бюджет всё равно важен: GPT-5 — ≈ 75,3 ₽ за 1000 отзывов и LangChain да.

Практичный вариант: каскад — DeepSeek для 90–95% отзывов, GPT-5/5.2 только для сложных/пограничных случаев (экономит деньги без потери качества там, где важно).

Если нужны большие контексты + высококачественная генерация

DeepSeek V3 — лучший баланс большой контекст + минимальная цена; для длинных входов/доков это самый бюджетный вариант из списка.

Если приоритет — контур/корпоративная эксплуатация + 128k, то Cotype (128k, LangChain да) — но по цене на 1000 отзывов он выходит ≈ 144 ₽, то есть дороже GPT-5 в твоём расчёте (75,3 ₽), но с преимуществом “инфраструктурно ближе”.

GigaChat-2 Max тоже даёт 128k, но по твоему сценарию самый дорогой на отзывы: ≈ 234 ₽ / 1000 — я бы выбирала его, когда важнее экосистема/политики/интеграции, чем цена.

Важно: у GPT-5 / GPT-5.2 в твоих данных нет значения контекстного окна, поэтому «лучший для больших контекстов» я их не называю — иначе это было бы предположение.

Для русскоязычных задач, где важна специфика языка

Если приоритет — русскоязычная нативность + локальная экосистема, то:

— YandexGPT 5.1 Pro (LangChain “практически да” через OpenAI-совместимость) — но по цене в твоём расчёте ≈ 186,23 ₽ / 1000 отзывов.
— GigaChat-2 Max — тоже “про русский”, но ещё дороже: ≈ 234 ₽ / 1000.

  • Если приоритет — строгий формат и предсказуемость вывода (JSON) при минимальной цене, то DeepSeek V3 выигрывает у локальных по бюджету и даёт 128k (но при таком выборе обычно заранее проверяют качество именно на вашей предметной области).

  • Если приоритет — наиболее «ровная» генерация (тон/стиль/структура) и бюджет не самый жёсткий — GPT-5.2 (дороже GPT-5: ≈ 105,4 ₽ / 1000 vs 75,3 ₽ / 1000).

В следующий раз расскажу про инфраструктуру для использования LLM как сервиса. Если остались вопросы – пишите, буду рад.

Комментарии (14)


  1. sushka0
    16.02.2026 13:46

    Вы бы хоть прочитали перед тем как публиковать


  1. Kamil_GR
    16.02.2026 13:46

    YandexGPT 5.1 Pro (LangChain “практически да” через OpenAI-совместимость) — но по цене в твоём расчёте ≈ 186,23 ₽ / 1000 отзывов


  1. onyxmaster
    16.02.2026 13:46

    я бы выбирала его, когда важнее экосистема/политики/интеграции, чем цена

    Денис, вы бы с полом персонажа, от чьего лица ведёте повествование определились бы...


  1. Angel_of_Sorrow
    16.02.2026 13:46

    Без перехода на личности конечно, но это статья от CTO компании(судя по профилю). Комментарии излишни как мне кажется.


  1. achekalin
    16.02.2026 13:46

    Вот что мне в российских LLM нравится - так это стабильность. Опускание цен, частые релизы, прорывы... ну, не слышали, но пообещаем в пресс-релизах.


  1. FSmile
    16.02.2026 13:46

    Неконкурентоспособно


  1. drbond
    16.02.2026 13:46

    Если российская команда выбирает LLM для продакшена и этот продакшен будет связан с пользовательскими данными, то ничего другого у команды, кроме российских LLM не остаётся. Если же команда не российская, то наверное она будет ориентироваться на законодательство своей страны в вопросах обработки ПДн.


    1. ToniDoni
      16.02.2026 13:46

      А почему? Ллмка не хранит данные.

      А на обработку вроде согласия субъекта достаточно.


      1. drbond
        16.02.2026 13:46

        Вот три фундаментальные ошибки в аргументации «LLM не хранит, а согласия достаточно»:

        Ошибка 1: «LLM не хранит данные»

        Это опасное упрощение. Даже если сама модель не запоминает промпты навсегда, инфраструктура вокруг неё — почти наверняка хранит:

        • Логи и телеметрия: API-провайдеры (OpenAI, Anthropic, Google и др.) логируют запросы и ответы для мониторинга, отладки и борьбы со злоупотреблениями.

        • Улучшение моделей: Многие провайдеры по умолчанию используют пользовательские данные для дообучения моделей, если это явно не запрещено в настройках Enterprise-тарифа.

        • Кеширование и бэкапы: Данные могут временно или постоянно сохраняться на стороне провайдера.

        Итог: Даже если вы не сохраняете данные у себя, их получает и обрабатывает третья сторона. С точки зрения закона, это не отменяет факта обработки.

        Ошибка 2: «Согласия субъекта достаточно»

        Нет, недостаточно. Ни в РФ (152-ФЗ), ни в ЕС (GDPR).

        В контексте 152-ФЗ (Россия):

        1. Локализация (ст. 18(5)): Первичный сбор и хранение персональных данных граждан РФ должны осуществляться на серверах, физически находящихся в России. Отправка данных в API иностранной LLM нарушает это требование, даже при наличии согласия.

        2. Трансграничная передача: Если данные уходят за рубеж, это отдельный юридический процесс. Он требует либо наличия страны в «белом списке» Роскомнадзора, либо обеспечения адекватной защиты, либо выполнения ряда бюрократических процедур. Просто «получить галочку согласия» здесь не работает.

        3. Комплекс мер: Закон также требует обеспечения безопасности (шифрование, доступы), уведомления Роскомнадзора, назначения ответственного и т.д.

        Вывод: Согласие — это лишь одно из условий начала обработки, но оно не отменяет требования локализации и безопасности.

        Ошибка 3: «Нет хранения = нет регулирования»

        Законы о персональных данных регулируют обработку (processing), а не только хранение.

        • Определение: Обработка — это любое действие с данными: сбор, запись, передача, систематизация, использование, обезличивание, блокирование, удаление.

        • Транзит — это тоже обработка: Сам факт отправки промпта с персональными данными (например, «Пациент Иванов, диагноз...») на сервер в другую юрисдикцию уже является трансграничной передачей и подпадает под регулирование.

        Почему для российской команды это критично?

        Если российский сервис отправляет пользовательские данные (ФИО, телефоны, историю обращений) в API иностранной LLM:

        1. Нарушается требование локализации баз данных.

        2. Возникает неконтролируемая трансграничная передача.

        3. Провайдер LLM может использовать эти данные для обучения, что делает невозможным выполнение требования об удалении данных по запросу пользователя («право на забвение»).

        Резюме: Использование иностранных LLM для работы с персональными данными граждан РФ возможно только в обезличенном виде, либо через специальные шлюзы/прокси, обеспечивающие локализацию и юридическую чистоту передачи. В противном случае выбор действительно сводится к российским решениям или self-hosted моделям, развернутым внутри контура компании.

        Надеюсь, теперь Вы видите разницу между «технически модель не запоминает» и «юридически мы передали данные третьей стороне». Безопасность и комплаенс — это про архитектуру целиком, а не только про веса модели.


        1. ToniDoni
          16.02.2026 13:46

          Ну это понятно, что нужна первичная локализация, плюс согласие, если страна не в белом списке там тоже есть процедура кажется, с уведомлением надзирающих органов и так далее, и если они разрешат, тогда можно использовать зарубежную ллмку, так ведь?

          Использование иностранных LLM для работы с персональными данными граждан РФ возможно только в обезличенном виде

          Ну нет же если Вы не спорите с тем, что законодательно предусмотрена процедура получение разрешения на трансграничную передачу.


        1. ToniDoni
          16.02.2026 13:46

          Логи и телеметрия

          Ну об этом вообще говорите особого смысла нет потому что так то ПД и внутри РФ абы где хранить нельзя, и если эти логи с ПД абы где такие осели, то это уже залёт.


  1. Dywar
    16.02.2026 13:46

    ИИ ускорил человечество в генерации хлама


  1. XRay108
    16.02.2026 13:46

    Если вы сами не читаете свои статьи то почему мы должны их читать? Попросите хотя бы любую вашу llm побыть редактором сделать вычитку и привести статью к единому стилю


  1. panshin91
    16.02.2026 13:46

    Жаль кармы нет минус поставить, обычно если не нравится, то просто скипаю, но тут прям коробит, сам много общаюсь с LLM'ками, от того же ChatGPT уже тошнит.

    "Если хочешь, напиши: бла-бла-бла, и я сделаю бла-бла-бла" (с) чатгпт