Как выбрать между облаком, арендой GPU и своим железом для LLM-систем / forpes.ru

Главная
Как выбрать между облаком, арендой GPU и своим железом для LLM-систем

Как выбрать между облаком, арендой GPU и своим железом для LLM-систем

24.11.2025 17:04

NagaevDen 0 481 Источник

В этой статье разберём, во сколько обходится LLM-сервис при нагрузке в 100 000 диалогов в день и где проходит граница окупаемости разных вариантов. Посмотрим на стоимость облачных API, аренды GPU и собственного железа, а заодно прикинем, какая инфраструктура нужна, чтобы всё это выдержало боевой трафик.

Исходные допущения

Представим продукт, в котором пользователи активно общаются с моделью:

100 000 диалогов в день.
Каждый диалог — это 100–300 токенов от пользователя.
На один диалог модель отвечает примерно тремя сообщениями.
В среднем получаем: ~900 токенов на вход (input) и ~1 200 токенов на выход (output) на один диалог.

Дальше считаем стоимость и нагрузку исходя из этих допущений.

Стоимость на GPT-4O Mini (без кеша)

Для начала посмотрим на сценарий с облачной моделью GPT-4O Mini.

Входящие токены

(900 × 100 000): $11.48 (не кеш) + $1.01 (кеш) = $12.49/день

Исходящие токены

(1,200 × 100 000): $72/день

Всего

~$84.49/день или ~$2 535/месяц

Какой получается RPS (запросов в секунду) при идеальных условиях

Берём 100 000 диалогов в день: 100 000 ÷ 86 400 секунд ≈ 1.16 RPS

Это средняя нагрузка за сутки, если бы диалоги равномерно распределялись по времени. В реальной жизни так не бывает: всегда есть часы пик.

Предположим, что 70% всего трафика приходится на 6 самых загруженных часов в день. Тогда: 70 000 диалогов / (6 × 3 600 секунд) ≈ 5.63 RPS в пиковые часы.

Если хотим свой уровень качества, как у GPT-4O Mini

Теперь перенесёмся в сценарий, где мы хотим свою модель, которая по качеству не повторяет GPT-4O Mini, но хотя бы не сильно ему уступает. В моём бенчмарке буду использовать условную Qwen2.5-32B-Instruct.

Что по инфраструктуре: A100 и пропускная способность

Одна видеокарта A100 на RunPod стоит примерно $1.89 в час
Её «пропускная способность» — 2–3 запроса в секунду со стримингом ответов. Если нам нужно иметь запас по производительности, горизонтальное масштабирование, то берём 6 серверов.

Если прикинуть бюджет локального развёртывания на RunPod, картина получается такой.

Одна A100 обходится примерно в $1.89 в час. Для обслуживания нашей пиковой нагрузки с запасом мы закладываем 6 таких серверов, то есть стоимость инфраструктуры составляет 6 × $1.89 = $11.34 в час.

Если считать работу кластера в режиме 24/7, месячные расходы выглядят так: $11.34 × 24 × 30 ≈ $8 164.80 в месяц.

Для сравнения: при тех же параметрах трафика использование облачной GPT-4O Mini стоит порядка $2 535 в месяц. Локальное решение на базе Qwen2.5-32B-Instruct, развёрнутое на шести A100, выходит примерно в $8 165 в месяц.

Сценарий_simple_text_chat_system: 100 000 текстовых диалогов в сутки

Ежедневно обрабатывается около 100 тысяч диалогов, в каждом из которых в среднем по 3 сообщения от пользователя.

В пересчёте на токены это даёт примерно 900 токенов на вход и 1 200 токенов на выход на один диалог.

При таком трафике средняя нагрузка на систему составляет около 1.16 запросов в секунду, а в пиковые часы, когда 70% всего трафика приходится на шесть наиболее загруженных часов, нагрузка вырастает до 5.63 RPS.

Стоимость Cloud API (GPT-4o-mini)

Параметр	Расчёт	Сумма
Вход	900 × 100 000 × $0.15	$12.5/день
Выход	1 200 000 × 100 000 × $0.6	$72/день
Итого		$2 535/месяц

Аренда RunPod

Параметр	Расчёт	Сумма
A100	$1.9 × 6 × 24 × 30	$8165/месяц

Стоимость своего оборудования

Параметр	Сумма
Железо	$106 000
Colocation	$240/месяц
Электроэнергия	$400/месяц
Амортизация	$2 945/месяц
DevOps-инженеринг	$3 000/месяц
Итого	$6 585/месяц

Сравнение решений

Решение	$/месяц	Преимущества	Недостатки
Cloud API	$2 500	Низкий порог входа	Зависимость от API
RunPod	$8 100	Гибкость	Высокая стоимость
Local	$6 500	Полный контроль	Высокая стоимость

Когда переходить на собственные модели?

Переход на собственные модели — это всегда баланс между экономикой и требованиями к контролю над данными. С точки зрения денег есть 3 ключевых сигнала.

Во-первых, объём трафика: при высоком количестве запросов локальное решение начинает выигрывать у GPT-4o-mini — ориентировочно после отметки в 140 000 диалогов в день.

Во-вторых, важна длина контекста: если вы регулярно обрабатываете большие массивы информации — свыше 100 000 токенов на один запрос, — счёт быстро растёт, и собственная инфраструктура становится логичнее.

В-третьих, если вы планируете работать с моделью долгосрочно, то покупка и эксплуатация своего «железа» начинают отбиваться относительно аренды GPU (RunPod в нашем примере) примерно за 24 месяца.

Но есть и неэкономические факторы, которые часто оказываются даже важнее.

Для многих компаний критична конфиденциальность данных: любые сценарии, где запрещено передавать информацию внешним сервисам, автоматически подталкивают к on-prem или self-hosted-подходу.

Свою роль играют и регуляторные требования: соответствие GDPR, 152-ФЗ, ограничения на трансграничную передачу данных — всё это проще и прозрачнее обеспечить, когда модели и данные работают внутри контролируемого контура.

Наконец, собственная инфраструктура даёт больше стабильности: нет очередей и ограничений по скорости, нет кредитных лимитов в аккаунте, а риск того, что провайдер внезапно перестанет поддерживать нужную версию модели, существенно ниже — вы сами управляете стеком и циклами обновления.

Альтернативные сценарии использования agentic-систем

Показательный кейс SAST-агент-«патчер» на базе Qwen2.5-Coder, который автоматически анализирует репозитории, находит уязвимости и готовит правки. Экономику такого сценария можно прикинуть довольно просто.

Допустим, у нас есть около 50 репозиториев с ежедневными сканированиями — это вполне типичный объём для средней корпорации уровня Tier-1–2.

Ежедневно возникает порядка 20 уязвимостей, которые требуют анализа с последующим оперативным исправлением.

В сумме это даёт примерно 1000 запусков агента в день с объёмом 160 000 токенов на вход и 25 000 токенов на выход на каждый запуск.

Если перенести этот сценарий целиком на GPT-4o-mini, даже на старте мы получаем весьма ощутимый ежемесячный счёт.

При этом важно помнить, что речь идёт о multi-agent system (MAS): под каждый агент в пайплайне у нас набирается 40+ промптов, связанных между собой. Только представьте, что после PoC вы решаете переехать, например, с облака на Qwen — все эти промпты придётся адаптировать и переписывать, что сильно увеличивает стоимость экспериментов и миграции.

И чтобы не быть голословным, приведу цифры.

Решение	Стоимость/месяц
GPT-4o-mini	$990
Local(A100)	$868

Для стартапов и проектов с небольшим объёмом запросов (и не самыми жёсткими требованиями к безопасности после PoC) оптимальным выбором по-прежнему остаются облачные API. У них низкий порог входа: не нужно сразу вкладываться в инфраструктуру, покупать «железо» и настраивать сложный контур — достаточно завести аккаунт и начать работу.

Во многих случаях лучше всего работает гибридная модель. На старте и для типовых сценариев разумно использовать облачные API, а по мере роста нагрузки и появления чувствительных кейсов — подключать локальные модели. Тогда конфиденциальные данные и высоконагруженные задачи обрабатываются в своём контуре, а всё остальное продолжает идти через облако, не требуя капитальных затрат.