В этой статье разберём, во сколько обходится LLM-сервис при нагрузке в 100 000 диалогов в день и где проходит граница окупаемости разных вариантов. Посмотрим на стоимость облачных API, аренды GPU и собственного железа, а заодно прикинем, какая инфраструктура нужна, чтобы всё это выдержало боевой трафик.

Исходные допущения

Представим продукт, в котором пользователи активно общаются с моделью:

  • 100 000 диалогов в день.

  • Каждый диалог — это 100–300 токенов от пользователя.

  • На один диалог модель отвечает примерно тремя сообщениями.

  • В среднем получаем: ~900 токенов на вход (input) и ~1 200 токенов на выход (output) на один диалог.

Дальше считаем стоимость и нагрузку исходя из этих допущений.

Стоимость на GPT-4O Mini (без кеша)

Для начала посмотрим на сценарий с облачной моделью GPT-4O Mini.

Входящие токены

(900 × 100 000): $11.48 (не кеш) + $1.01 (кеш) = $12.49/день

Исходящие токены

(1,200 × 100 000): $72/день

Всего

~$84.49/день или ~$2 535/месяц

Какой получается RPS (запросов в секунду)  при идеальных условиях

Берём 100 000 диалогов в день: 100 000 ÷ 86 400 секунд ≈ 1.16 RPS

Это средняя нагрузка за сутки, если бы диалоги равномерно распределялись по времени. В реальной жизни так не бывает: всегда есть часы пик.

Предположим, что 70% всего трафика приходится на 6 самых загруженных часов в день. Тогда: 70 000 диалогов / (6 × 3 600 секунд) ≈ 5.63 RPS в пиковые часы.

Если хотим свой уровень качества, как у GPT-4O Mini

Теперь перенесёмся в сценарий, где мы хотим свою модель, которая по качеству не повторяет GPT-4O Mini, но хотя бы не сильно ему уступает. В моём бенчмарке буду использовать условную Qwen2.5-32B-Instruct.

Что по инфраструктуре: A100 и пропускная способность

Одна видеокарта A100 на RunPod стоит примерно $1.89 в час
Её «пропускная способность» — 2–3 запроса в секунду со стримингом ответов. Если нам нужно иметь запас по производительности, горизонтальное масштабирование, то берём 6 серверов.

Если прикинуть бюджет локального развёртывания на RunPod, картина получается такой. 

Одна A100 обходится примерно в $1.89 в час. Для обслуживания нашей пиковой нагрузки с запасом мы закладываем 6 таких серверов, то есть стоимость инфраструктуры составляет 6 × $1.89 = $11.34 в час. 

Если считать работу кластера в режиме 24/7, месячные расходы выглядят так: $11.34 × 24 × 30 ≈ $8 164.80 в месяц.

Для сравнения: при тех же параметрах трафика использование облачной GPT-4O Mini стоит порядка $2 535 в месяц. Локальное решение на базе Qwen2.5-32B-Instruct, развёрнутое на шести A100, выходит примерно в $8 165 в месяц.

Сценарий_simple_text_chat_system: 100 000 текстовых диалогов в сутки

Ежедневно обрабатывается около 100 тысяч диалогов, в каждом из которых в среднем по 3 сообщения от пользователя. 

В пересчёте на токены это даёт примерно 900 токенов на вход и 1 200 токенов на выход на один диалог. 

При таком трафике средняя нагрузка на систему составляет около 1.16 запросов в секунду, а в пиковые часы, когда 70% всего трафика приходится на шесть наиболее загруженных часов, нагрузка вырастает до 5.63 RPS.

Стоимость Cloud API (GPT-4o-mini)

Параметр

Расчёт

Сумма

Вход

900 × 100 000 × $0.15

$12.5/день

Выход

1 200 000 × 100 000 × $0.6

$72/день

Итого

$2 535/месяц

Аренда RunPod

Параметр

Расчёт

Сумма

A100

$1.9 × 6 × 24 × 30

$8165/месяц

Стоимость своего оборудования

Параметр

Сумма

Железо

$106 000

Colocation

$240/месяц

Электроэнергия

$400/месяц

Амортизация

$2 945/месяц

DevOps-инженеринг

$3 000/месяц

Итого

$6 585/месяц

Сравнение решений

Решение

$/месяц

Преимущества

Недостатки

Cloud API

$2 500

Низкий порог входа

Зависимость от API 

RunPod

$8 100

Гибкость

Высокая стоимость 

Local

$6 500

Полный контроль

Высокая стоимость 

Когда переходить на собственные модели?

Переход на собственные модели — это всегда баланс между экономикой и требованиями к контролю над данными. С точки зрения денег есть 3 ключевых сигнала. 

Во-первых, объём трафика: при высоком количестве запросов локальное решение начинает выигрывать у GPT-4o-mini — ориентировочно после отметки в 140 000 диалогов в день. 

Во-вторых, важна длина контекста: если вы регулярно обрабатываете большие массивы информации — свыше 100 000 токенов на один запрос, — счёт быстро растёт, и собственная инфраструктура становится логичнее. 

В-третьих, если вы планируете работать с моделью долгосрочно, то покупка и эксплуатация своего «железа» начинают отбиваться относительно аренды GPU (RunPod в нашем примере) примерно за 24 месяца.

Но есть и неэкономические факторы, которые часто оказываются даже важнее.

Для многих компаний критична конфиденциальность данных: любые сценарии, где запрещено передавать информацию внешним сервисам, автоматически подталкивают к on-prem или self-hosted-подходу. 

Свою роль играют и регуляторные требования: соответствие GDPR, 152-ФЗ, ограничения на трансграничную передачу данных — всё это проще и прозрачнее обеспечить, когда модели и данные работают внутри контролируемого контура.

Наконец, собственная инфраструктура даёт больше стабильности: нет очередей и ограничений по скорости, нет кредитных лимитов в аккаунте, а риск того, что провайдер внезапно перестанет поддерживать нужную версию модели, существенно ниже — вы сами управляете стеком и циклами обновления.

Альтернативные сценарии использования agentic-систем

Показательный кейс SAST-агент-«патчер» на базе Qwen2.5-Coder, который автоматически анализирует репозитории, находит уязвимости и готовит правки. Экономику такого сценария можно прикинуть довольно просто. 

Допустим, у нас есть около 50 репозиториев с ежедневными сканированиями — это вполне типичный объём для средней корпорации уровня Tier-1–2.

Ежедневно возникает порядка 20 уязвимостей, которые требуют анализа с последующим оперативным исправлением. 

В сумме это даёт примерно 1000 запусков агента в день с объёмом 160 000 токенов на вход и 25 000 токенов на выход на каждый запуск.

Если перенести этот сценарий целиком на GPT-4o-mini, даже на старте мы получаем весьма ощутимый ежемесячный счёт. 

При этом важно помнить, что речь идёт о multi-agent system (MAS): под каждый агент в пайплайне у нас набирается 40+ промптов, связанных между собой. Только представьте, что после PoC вы решаете переехать, например, с облака на Qwen — все эти промпты придётся адаптировать и переписывать, что сильно увеличивает стоимость экспериментов и миграции.

И чтобы не быть голословным, приведу цифры. 

Решение

Стоимость/месяц 

GPT-4o-mini

$990   

Local(A100)

$868  

Для стартапов и проектов с небольшим объёмом запросов (и не самыми жёсткими требованиями к безопасности после PoC) оптимальным выбором по-прежнему остаются облачные API. У них низкий порог входа: не нужно сразу вкладываться в инфраструктуру, покупать «железо» и настраивать сложный контур — достаточно завести аккаунт и начать работу.

Во многих случаях лучше всего работает гибридная модель. На старте и для типовых сценариев разумно использовать облачные API, а по мере роста нагрузки и появления чувствительных кейсов — подключать локальные модели. Тогда конфиденциальные данные и высоконагруженные задачи обрабатываются в своём контуре, а всё остальное продолжает идти через облако, не требуя капитальных затрат.

Комментарии (0)