Когда обсуждают стоимость внедрения генеративного ИИ, разговор часто сводится к цене за токен или цене за арендуемый GPU. Это удобно — одно число. Но в реальном продакшене такая оценка почти всегда обманчива.
Стоимость GenAI-системы — это не только сколько стоит вызвать модель. Это инфраструктура, эксплуатация, безопасность, наблюдаемость, разработка, интеграции, поддержка пользователей и постоянные изменения вокруг моделей. Именно поэтому «мы поднимем open-source модель сами, будет дешевле» часто оказывается правдой только на первом слайде презентации.
Из чего складывается стоимость GenAI в продакшене
Типовая GenAI-система состоит не из одной модели. Даже если бизнес-задача звучит просто, например, сделать Q&A чат-бота по документам, внутри быстро появляются:
backend-сервис (API)
модель или несколько моделей
RAG: индексация документов, эмбеддинги, векторный поиск
хранилище документов
авторизация и права доступа
модерация и guardrails
трассировка запросов
мониторинг качества
логирование ошибок
рейт-лимиты, очереди и ретраи
CI/CD
регламент обновления моделей
поддержка пользователей и команд, которые интегрируются с этим сервисом
Пока всё работает в демо-режиме, это кажется избыточным. Но как только сервис начинает использоваться внутри компании, особенно в задачах с персональными данными, документами, юридическими текстами, финансами или внутренними знаниями, нужна архитектура и практики.
Цена за токен — заметный, но не единственный расход
Если использовать Yandex Cloud AI Studio, стоимость зависит от режима работы модели и количества токенов: входных, исходящих, кешированных и токенов инструментов. Это уже важная деталь: один и тот же пользовательский сценарий может стоить по-разному в зависимости от длины промпта, длины ответа, истории диалога и использования tools.
Например, в синхронном режиме YandexGPT Pro 5.1 стоит 0,8 ₽ за 1000 входящих токенов и 0,8 ₽ за 1000 исходящих токенов с НДС. YandexGPT Lite стоит 0,2 ₽ за 1000 входящих и 0,2 ₽ за 1000 исходящих токенов. DeepSeek V3.2 в AI Studio стоит 0,5 ₽ за 1000 входящих токенов и 0,8 ₽ за 1000 исходящих токенов.
Допустим, у нас есть внутренний ассистент, который обрабатывает 1 млн запросов в месяц. Средний запрос:
1000 входящих токенов
500 исходящих токенов
Тогда примерная стоимость генерации:
Модель |
Расчёт на 1 запрос |
1 млн запросов в месяц |
YandexGPT Lite |
0,2 ₽ + 0,1 ₽ |
300 000 ₽ |
YandexGPT Pro 5.1 |
0,8 ₽ + 0,4 ₽ |
1 200 000 ₽ |
DeepSeek V3.2 |
0,5 ₽ + 0,4 ₽ |
900 000 ₽ |
На этом этапе возникает соблазм сказать, что Lite дешевле Pro в 4 раза и нужно брать эту модель. Но если Lite отвечает хуже, чаще требует повторных запросов, хуже следует инструкциям, хуже работает с длинным контекстом или создаёт больше ошибок для пользователей, реальная стоимость может быть выше. Дешёвый токен может привести к дорогому бизнес-процессу.
Покупка GPU vs оплата за токены
Другой популярный подход — поднять open-source модель самостоятельно на своей инфраструктуре. Например, через vLLM, TGI или другой serving-стек.
В Yandex DataSphere конфигурация g2.8 с 8 GPU A100 стоит 4 401,83808 ₽ в час. При расчёте 720 часов в месяц это примерно:
4 401,84 ₽ × 720 ≈ 3 169 323 ₽ / месяц
Конфигурация g2.1 с 1 GPU A100 стоит 550,22976 ₽ в час, а g1.1 с 1 GPU V100 — 341,52192 ₽ в час. Цены DataSphere для региона Россия указаны с НДС.
На первый взгляд, 8×A100 за ~3,17 млн ₽/месяц может выглядеть конкурентно, если у вас большой объём трафика. Но это только compute. Дальше нужно добавить:
Kubernetes или другой runtime
хранилище для моделей и образов (container registry)
observability стек (наблюдаемость)
сетевую инфраструктуру
инженерную команду
а также процессы вокруг:
обновления моделей
тестирования качества
безопасности
работу с деградациями и инцидентами
DataSphere отдельно тарифицирует хранение моделей, Docker-образов, дисков, датасетов и других артефактов; например, хранение модели внутри DataSphere сверх бесплатных лимитов стоит 13,08 ₽ за 1 ГБ в месяц.
То есть self-hosting может быть дешевле на большом масштабе. Но он редко бывает дешевле сам по себе. Он становится выгодным, когда у компании уже есть сильная инфраструктурная команда, понятный объём нагрузки и реальная потребность контролировать serving, latency, безопасность и модельный стек.
Главный скрытый расход — ФОТ
В России стоимость инженерной команды ниже, чем в США, но она всё равно быстро становится одной из основных категорий расходов. По данным Dream Job, средняя зарплата ML Engineer в России в 2026 году — 185 000 ₽ на руки, типичный диапазон — 140 000—230 000 ₽, а в Москве среднее значение указано как 260 000 ₽. Другой обзор по рынку ML-инженеров указывает ориентиры по грейдам: Middle — около 160 000—200 000 ₽, Senior — 280 000—350 000 ₽, Lead — 360 000—450 000 ₽ в зависимости от региона и формата работы.
Но для продакшен GenAI вам обычно нужен не один ML Engineer. Минимальный состав может выглядеть так:
Роль |
Зачем нужна |
Backend Engineer |
API, бизнес-логика, интеграции |
ML / LLM Engineer |
выбор моделей, промпты, evals, качество |
Platform / DevOps Engineer |
Kubernetes, GPU, CI/CD, observability |
Security / InfoSec |
доступы, данные, аудит, compliance |
Product / Analyst |
сценарии, метрики, приоритизация |
Даже маленькая команда из 2—3 сильных инженеров может стоить компании заметно больше, чем API-вызовы модели. Особенно если считать не только зарплату на руки, а полную стоимость сотрудника: налоги, оборудование, менеджмент, найм, отпуска, простои, коммуникации и стоимость ошибок.
Именно здесь часто ломается наивная математика: API стоит 1 млн ₽ в месяц, а self-hosting на GPU — 3 млн ₽. Значит API дешевле.
Или наоборот: GPU стоит 3 млн ₽ в месяц, а API при нашем объёме стоит 5 млн ₽. Значит self-hosting дешевле.
Обе оценки неполные. Нужно считать людей, эксплуатацию, риски и качество.
Доступ к LLM через API vs self-hosting
Упрощённо выбор выглядит так.
Доступ к LLM через API
Выгоднее если вы только запускаете продукт, нагрузка непредсказуема, команда маленькая, а главная задача — быстро проверить гипотезу. В этом случае YandexGPT, DeepSeek или другие модели через API позволяют не строить всю инфраструктуру с нуля.
Плюсы:
быстрый старт
не нужно управлять GPU
проще масштабироваться на раннем этапе
меньше эксплуатационной нагрузки
проще считать стоимость на уровне токенов
Минусы:
зависимость от провайдера
ограничения по моделям и настройкам
меньше контроля над latency (временем отклика)
сложнее оптимизировать serving под свой сценарии и тип нагрузки
возможные ограничения по данным и комплаенсу
Self-hosting моделей
Выгоднее если у вас большой и стабильный объём запросов, есть инфраструктурная команда, нужны строгие требования по данным, есть желание контролировать модели, serving-стек, batching, маршрутизацию и стоимость на большом масштабе.
Плюсы:
больше контроля
можно оптимизировать serving
можно выбирать open-source модели
можно строить собственный роутинг и механизмы кэширования
потенциально ниже стоимость за токен на большом объёме
Минусы:
высокая сложность
нужен опыт с GPU-инфраструктурой
нужны SRE-практики
нужно самим решать инциденты
нужно самим обновлять модели
нужно самим строить evals и release gates
Скрытые расходы, о которых забывают
Наблюдаемость
Для обычного backend-сервиса достаточно latency, error rate, throughput и логов. Для LLM-системы этого мало.
Нужно понимать:
сколько токенов потребляется
какие промпты дают плохие ответы
где растёт latency
где модель галлюцинирует
какие пользователи повторяют запросы
какие инструменты вызываются
какие документы попадают в контекст
как меняется качество после обновления модели
Без этого система становится чёрным ящиком: деньги тратятся, пользователи жалуются, а команда не понимает, где проблема.
Обновление моделей
Модель — это не статичная библиотека. Провайдеры обновляют версии, меняют поведение, добавляют новые режимы, снимают старые версии с поддержки.
Каждое обновление требует:
регрессионного тестования
сравнения качества
проверки промптов
проверки latency
проверки стоимости
коммуникации с пользователями
rollback-плана
Если этого нет, можно обновить модель и сломать upstream-команды.
Безопасность
В корпоративном контексте вопрос не только в том, где дешевле токен.
Нужно отвечать на вопросы:
какие данные уходят в модель
логируются ли запросы
где хранятся трейсы запросов
можно ли отправлять персональные данные
как работает маскирование PII и других данных
кто имеет доступ к истории запросов
можно ли использовать внешние tools
как аудитить действия агента
Это не бесплатная часть системы. Её кто-то должен проектировать, внедрять и поддерживать.
Качество
Стоимость плохого ответа может быть выше стоимости токенов.
Например, если модель помогает бухгалтерии, юристам, поддержке или инженерам, ошибка может привести к:
потере времени
неправильному решению
ручной перепроверке
недоверию пользователей
отказу от продукта
инциденту безопасности
Поэтому более дорогая модель иногда дешевле в реальности, если она снижает количество ошибок и повторных запросов.
Как посчитать полную стоимость GenAI-системы
Хорошая формула выглядит не так:
TCO = цена токенов
где TCO — это Total Cost of Ownership, т. е. полная стоимость владения.
А примерно так:
TCO = стоимость inference + стоимость инфраструктуры + стоимость хранения + стоимость сети + стоимость разработки + стоимость эксплуатации + стоимость observability + стоимость безопасности + стоимость обновления моделей + стоимость ошибок
Для managed API основная переменная часть — токены. Для self-hosting — GPU, инфраструктура и команда.
Практический подход:
Посчитать ожидаемый объём запросов.
Разделить входные и исходящие токены.
Посчитать стоимость для 2—3 моделей.
Добавить RAG: embeddings, хранилища, поиск.
Добавить observability и логи.
Оценить стоимость команды.
Оценить стоимость поддержки и инцидентов.
Сравнить API и self-hosting не на демо, а на горизонте 6—12 месяцев.
Пример: внутренний AI-ассистент
Допустим, компания хочет сделать внутреннего ассистента для сотрудников.
Параметры:
1 000 активных пользователей
30 запросов на пользователя в месяц
30 000 запросов в месяц
1 500 входящих токенов
700 исходящих токенов
Для YandexGPT Pro 5.1:
Вход: 1500 / 1000 × 0,8 ₽ = 1,2 ₽ Выход: 700 / 1000 × 0,8 ₽ = 0,56 ₽ Итого: 1,76 ₽ за запрос 30 000 × 1,76 ₽ = 52 800 ₽ / месяц
Для YandexGPT Lite:
Вход: 1500 / 1000 × 0,2 ₽ = 0,3 ₽ Выход: 700 / 1000 × 0,2 ₽ = 0,14 ₽ Итого: 0,44 ₽ за запрос 30 000 × 0,44 ₽ = 13 200 ₽ / месяц
На таком масштабе стоимость токенов почти наверняка не будет главным расходом. Главным расходом будет разработка, интеграция, поддержка, безопасность и внедрение в бизнес-процессы.
Но если это уже не 30 000, а 3—10 млн запросов в месяц, математика меняется. Тогда имеет смысл отдельно смотреть на кэширование, роутинг запросов, batch-режимы, более дешёвые модели для простых задач и self-hosting.
Вывод
Главная ошибка при оценке GenAI систем — сравнивать только цену токена или часа за аренду GPU.
Для прототипа это нормально. Для продакшена — нет.
Managed API может быть дороже на единицу inference, но дешевле по TCO (полной стоимости владения), если экономит месяцы разработки и эксплуатации. Self-hosted open-source модель может быть дешевле на большом объёме, но только если у вас есть команда, инфраструктура и зрелые процессы.
Правильный вопрос звучит не так:
Какая модель дешевле?
А так:
Какая архитектура даёт нужное качество, время отклика, безопасность и управляемость при минимальной полной стоимости владения?
И почти всегда ответ зависит не от одной цены в прайсе, а от масштаба, команды и зрелости компании.
P.S. Про разработку в эпоху ИИ, агентов и LLM ?? тут
Marwin
Я бы еще отметил один неочевидный нюанс при варианте со своим оборудованием, который может сильно просадить сроки окупаемости и вообще любые сроки. Если компания решается закупить железо за кучу миллионов, значит компания чаще более менее крупная с приличным штатом разработчиков. А значит и далеко не одной командой, которых будут просить переносить на ИИ рельсы внутренние бизнес-процессы или различные разрабатываемые продукты. А это это значит, что ты не будешь единственным пользователем этого сервера. А значит нужна отдельная команда, которая будет рулить правами доступа, регламентом обращений, балансировкой нагрузки и вот этим всем. А это значит что ты неделями будешь ждать пока эта команда соизволит обновить модель на сервере, поменять одну на другую, выложить обновленный python скрипт. А тебе это нужно делать десятки раз для проверки гипотез, сравнения эвалов и всего подобного.
Более того, эта самая команда в принципе не может разрешить тебе грузить сервер на 100%, ибо есть другие команды, которые должны иметь возможность получать ответы в чатике не через 5 минут… а у тебя наоборот пакетная дата-процессинговая нагрузка, которая должна положить сервер в полку на неделю, ибо клиент ждёт и тебе в лучшем случае выделят процентов 50 от ресурсов. Остальное просто будет простаивать в ожидании пришествия единичных юзеров. А более умную балансировку нагрузки писать некому и вообще непонятно как. Я вот устал ждать всего это… собрал у себя дома сервер с аналогичным железом (ну пусть на меньшем количестве карт), благо 48ГБ VRAM напихать достаточно недорого, а уже вполне достаточно для хотя бы тестирования на приличных моделях. И можно менять модели, эмбеддеры, реранкеры хоть по 10 раз на день в зависимости от целей, условий, сложности промптов текущей задачи. Ну либо да, облако, если личного авантюризма не хватает. И уже финальные комбинации оттестированные и оптимизированные просить собирать на корпоративном сервере.