В 2025 году рынок корпоративного ИИ-инференса составил  ~100 миллиардов долларов. Но парадокс в том, что успех автоматизации бизнес-процессов с помощью LLM зависит не только от выбора модели, а от глубокого понимания двух принципиально разных этапов работы нейросети: Prefill и Decode. Игнорирование их различий — самая дорогая ошибка в AI-инфраструктуре, которая может исказить реальную стоимость запроса в 10-50 раз.

Два подхода для обработки одного запроса

LLM-инференс — это не монолитный процесс, а две технологически несовместимые фазы. Prefill (обработка входящего промпта) — это пиковая вычислительная нагрузка. Модель загружает и анализирует весь входной контекст, создавая так называемый KV-кеш. Это высокопараллельная операция, которая нагружает тензорные ядра GPU на 90-95%.

Как только модель начинает генерировать ответ по одному токену, начинается Decode. Это совершенно другой процесс - последовательный и лимитированный пропускной способностью памяти. Утилизация GPU на этой фазе драматически падает до 20-40%, а то и до 15-30%.

Именно поэтому экономика «плоского тарифа за токен» в корне неверна. Запрос на 2000 токенов промпта с 50 токенами ответа потребляет в разы больше ресурсов GPU, чем запрос с 10 токенами промпта и длинной генерацией на 2000 токенов, хотя общее число токенов сопоставимо.

Железо решает: скорость в час пик

Связывать обе фазы с одной и той же дорогой железкой — все равно что возить на суперкаре почту в час пик. Как это выглядит на рынке GPU:

NVIDIA H100 (80GB) — флагман за $25-35 тысяч за карту. Его массивные тензорные ядра и архитектура Transformer Engine идеальны для быстрого Prefill, но на Decode простаивают, ограниченные пропускной способностью памяти.

NVIDIA L40S — за $8-12 тысяч. Менее мощная, но обладает отличной пропускной способностью памяти и уже захватила более 30% рынка именно в сегменте инференса. Это идеальный кандидат для Decode-пула.

В облаке H100 обойдется от $2 до $13 в час, в то время как L40S — около $1 в час, а то и ниже.

Фреймворки нового поколения — vLLM, SGLang, TensorRT-LLM — уже научились разделять Prefill и Decode на разные пулы GPU. Результат: Prefill отправляется на пул мощных H100, а бесконечный Decode — на пул бюджетных L40S. Суммарно, такая дезагрегация снижает затраты на инфраструктуру на 15-40% и увеличивает пропускную способность до 6.4 раз.

Модели и экономика токена

Законы юнит-экономики проявляются и в ценообразовании API ведущих вендоров. Обратите внимание на диспропорцию:

GPT-4o: $2.50 за 1 млн входных токенов (Prefill) и $10.00 за 1 млн выходных (Decode).

Claude 3.5 Sonnet: $3 за вход и $15 за выход.

Llama 3 70B (на выделенном хостинге): $0.23 за вход и $0.40 за выход.

DeepSeek R1: самообслуживание по цене железа или $0.55 за вход и $2.19 за выход.

Разрыв в 3-5 раз между ценой входного и выходного токена обусловлен объективной реальностью: Decode — это самый неэффективный этап с точки зрения использования железа, где ресурс простаивает. Поэтому приложения с длинными диалогами и малым входящим контекстом — финансовый кошмар для бизнеса, в то время как суммаризация больших документов (Prefill-heavy) оказывается значительно экономичнее.

Где оптимизация дает максимальный эффект

Самый дешевый токен — тот, который не нужно вычислять. Технология «токенных складов» и префиксного кэширования позволяет предзаполнить (Prefill) KV-кеш для повторяющихся частей промптов — например, для огромных системных инструкций или одинаковых описаний товаров. Это может улучшить время до первого токена в 75 раз и сократить потребление энергии в 200 раз.

Практика показывает: компания, работающая в SERM и обрабатывающая до 300 отзывов в день, может тратить до 1500 токенов на повторяющийся системный контекст при каждом запросе, оставляя лишь 100 токенов на полезный ответ. Без кэширования это приводит к КПД транзакции всего в 6% и астрономическим счетам за API.

Считаем юнит-экономику

Рынок LLM-инференса развивается быстрее, чем любой другой технологический сегмент в истории: стоимость обработки миллиона токенов падает в 10 раз ежегодно. Эквивалент производительности GPT-4 сейчас стоит $0.40 против $20 в конце 2022 года.

Чтобы автоматизация бизнес-процессов не обернулась финансовой катастрофой, необходимо:

Считать не абстрактный «токен», а приписывать стоимость GPU конкретным фазам работы. Модель атрибуции затрат внутри батча должна учитывать, сколько миллисекунд GPU-времени съел именно Prefill и сколько — Decode конкретного запроса.

Проектировать гибридную архитектуру: мощные GPU для Prefill (H100/A100) и бюджетные (L40S/L4) для Decode-пула.

Внедрять кэширование префиксов. Это даст эффект, сопоставимый с покупкой еще десятка дорогих видеокарт.

Игнорирование различий между Prefill и Decode в 2026 году — это не технический долг, а прямая финансовая некомпетентность. Экономика LLM давно перестала быть магией токенов и стала строгой практикой управления гетерогенными вычислительными ресурсами.

Комментарии (0)