
Организации в РФ переходят от AI-экспериментов к масштабным внедрениям, сталкиваясь с трудностями в оценке сопутствующих издержек. Традиционные фин.модели не всегда отражают экономическую сложность развертывания и сопровождения AI решений, что приводит к заблуждениям в сравнении альтернативных вариантов. В сегодняшней статье разберем LCOAI - адаптированный для AI подход к оценке стоимости владения цифровым продуктом - и ответим на вопрос "Сколько же стоит внедрить этот ваш ИИ?“.
В одной из предыдущих статей мы обсуждали важность контроля за FinOps на этапе масштабирования отпилотированного AI решения - Levelized Cost of Artificial Intelligence (LCOAI) подход позволяет получить полную и объективную картину, объединяя все аспекты сопряженных с запуском AI инициатив затрат, включая первоначальные капитальные затраты (такие как инфраструктура для обучения модели, разработка data пайплайнов, имплементация прикладного AI решения) и текущие операционные расходы (вычислительные мощности для инференса, хранение данных, мониторинг и обслуживание системы), нормированные на общее количество обрабатываемых запросов на протяжении всего срока службы системы.
Методология расчета
Впервые LCOAI подход был представлен Eliseo Curcio в его статье Introducing LCOAI: A Standardized Economic Metric for Evaluating AI Deployment Costs
Идея методологии подсчета проста, как все гениальное, и раскрывается в элегантной формуле ниже:
????? = (????? ????? + ????? ???? ) / ????? ?????? ?? ????? ????????????
Здесь Total CAPEX включает в себя все первоначальные инвестиции, необходимые для разработки и ввода в эксплуатацию системы искусственного интеллекта: расходы, связанные с приобретением вычислительной инфраструктуры( GPU) и серверного оборудования, первоначальным обучением и\или донастройкой модели, разработкой пайплайна данных и их разметкой, лицензиями на программное обеспечение (например, решения по безопасности, мониторингу и др.), трудозатраты на внедрение проекта и инженерные работы.
Total OPEX отражает постоянные расходы в течение всего срока эксплуатации развернутой системы: стоимость инференса, потребление облачных ресурсов, тех. обслуживание, периодическая донастройка для поддержания точности работы модели, трудозатраты на DevOps, , аудит безопасности и и прочие дополнительные накладные расходы, связанные с поддержанием эффективного функционирования AI решения.
Total Number of Valid Interference - общее количество пользовательских запросов, успешно обработанное системой.
Применяем LCOAI на практике
Для иллюстрации возможностей LCOAI методологии рассмотрим несколько примеров, диктуемых текущими реалиями: организации, приходя к точке старта разработки AI решения, всегда задаются вопросом необходимой инфраструктуры - идти ли по пути аренды мощностей в облаке, запускаться на собственном «железе» или вовсе отдать предпочтение облачному API?
Чтобы ответить на этот вопрос с помощью описанного выше фреймворка, давайте возьмем приближенные к условиям реального проекта разработки и внедрения AI решения ограничения:
наиболее часто употребимую нами на продакшене модель - Qwen 3.5 35B A3B в квантовании AWQ
нагруженность системы в среднем объеме на этапе пилотирования ( 10 млн. запросов\год) и высоком объеме( 50 млн. запросов\год) на этапе скейлинга и дальнейшей промышленной эксплуатации.
средний объем инференса оценим в 1000 токенов
3 опции развертывания: облачный API( на примере Yandex Cloud), аренду виртуалок в облаке(опять же на примере Yandex Cloud), on-prem на локальных мощностях
для опций с «железом» берем 2 ноды для отказоустойчивости
с точки зрения капитальных затрат на разработку и внедрение решения для всех 3 опций развертывания возьмем единую величину стоимости в 5 млн. р., как некую медианную цифру «по больнице» - разумеется, эта величина очень условная и для простых решений, внедряемых в СМБ может быть и кратно меньше, тогда как для сложных решений, внедряемых в отрасли с жесткой регуляцией и требованиями( например, здравоохранение), может быть и кратно выше
В качестве горизонта, на котором будем делать расчеты, возьмем 3 года, как некий средний срок окупаемости AI инициатив.
Погнали считать.
Облачный API
Для Qwen3.5 35B имеем на сегодняшний день стоимость в Yandex Cloud в 0,3 р. за 1000 токенов. Таким образом, исходя из предположений выше о средней размерности 1 запроса в 1000 токенов, имеем OPEX и стоимость инференса на 10м запросов\год в 3 000 000 р., на 50м запросов\год - 15 000 000 р.

Аренда мощностей в облаке
Для расчета в рамках данной опции, исходя из ограничений выше, возьмем конфигурацию из 2 «виртуалок» с GPU (например, A100 80GB) + базовой сопутствующей обвязкой (векторная база, CPU, трафик). Стоимость подобной конфигурации на Yandex Cloud на сегодняшний день составляет примерно 900 тыс. руб./мес. При этом важно отметить, что подобная конфигурация будет работать и для 10M
запросов, и для 50M запросов с примерно одинаковой стоимостью. Расcчитывая годовой OPEX получаем 10.8 млн руб.

Свое «железо»
В этом случае к обозначенному выше CAPEX нам необходимо добавить закупку собственных вычислительных мощностей и серверов. Под Qwen 35B с учетом выше описанных ограничений наша конфигурация будет выглядеть примерно так: 2 сервера + 2 карточки L40S (48GB). Общая примерная стоимость приобретения такого набора обойдется нам в 12 млн. руб. При этом OPEX - размещение в ЦОД, затраты на электричество, поддержка - будет относительно гуманным: примерно 800 тыс. руб. в год. Опять же как и в случае с арендой VM мы данной конфигурацией успешно закроем и потребность в 10M, и в 50M запросов.

Облако или нет?
Сведем воедино полученные данные, чтобы получить общую картину и попробовать с помощью LCOAI ответить на вопрос, какому инфраструктурном подходу все же отдать предпочтение.

Итого мы видим, что любая из конфигураций имеет право на жизнь, и в зависимости от обстоятельств может оббегать альтернативные опции с точки зрения экономической эффективности обработки пользовательского запроса.
Так, если мы говорим, о проверке бизнес-гипотезы в рамках пилота или даже полноценного решения на продуктиве с небольшой нагрузкой, то опция с API выглядит наиболее предпочтительной - она более чем вдвое дешевле on-prem варианта и аренды мощностей. Но на больших объемах API уже демонстрирует линейный прирост стоимости и здесь «приз» уходит другому кандидату - в первый работы решения на больших объемах облачные «виртуалки» уже выгоднее API, а если говорить про игру «вдолгую», то тут безоговорочным чемпионом становится уже «свое железо» - себестоимость запроса в этом варианте двое ниже арендных мощностей, и втрое ниже API.
Заключение
Выбор инфраструктуры для запуска AI инициативы — это комплексная задача, выходящая далеко за рамки чисто финансового сравнения. На решение влияет множество факторов:
Корпоративные политики и требования к безопасности данных (особенно для регулируемых отраслей);
Наличие собственных компетенций и инженерных команд;
Срочность запуска проекта и допустимые сроки ввода в эксплуатацию;
Доступность капитальных инвестиций (CAPEX) против операционного бюджета (OPEX);
Прогнозируемый рост нагрузки и волатильность спроса.
В примерах выше мы, очевидно, рассмотрели задачу в упрощенном виде, чтобы продемонстрировать, что LCOAI методология представляет собой удобный инструмент поддержки принятия решений при внедрении ИИ, помогающий снизить градус неопределенности, увидев объективную общую картину в разрезе экономических метрик.
Для организаций, переходящих от экспериментов с искусственным интеллектом к промышленной эксплуатации, использование LCOAI фреймворка я бы оценил, как must have — особенно в условиях жёстких бюджетных ограничений 2026 года и необходимости обоснования инвестиций перед владельцами бюджетов.
----------------
Алексей Бобок,
AI трансформация, Рафт
Делюсь опытом внедрения ИИ в бизнес через поиск максимальной ценности:
Комментарии (6)

midas_works
25.04.2026 03:03Хороший подход, но у LCOAI есть малозаметная слепая зона при оценке агентных пайплайнов — "агентный множитель".

albonemo Автор
25.04.2026 03:03Спасибо! Очень хорошее замечание - реальность, разумеется, сложнее, чем приведенная в статье иллюстрация: в жизни действительно необходимо будет дополнительно вводить поправочные коэффициенты, зависящий от имплементируемого решения, инженерной обвязки, системы развертывания для апроксимации приближенной к реальности картины.
sAIpiens
Похоже чем-то на то, что в Эн+ для нормированой стоимости электричества используется
albonemo Автор
Все верно - если посмотрите исходную на статью автора подхода( ссылка есть в публикации), то он открыто указывает на то, что предложенная методика "списана" с используемой в ТЭК LCOE (levelized cost of electricity) и адаптирована под специфику ML решений.
airwaves182444
А как понять сколько запросов нужно в год пусть на 100 сотрудников?
albonemo Автор
Тут простой формулы, к сожалению, не существует и общее число запросов зависит от ряда факторов – от того, какой “плотности” бизнес-процесс или его часть вы автоматизируете, с помощью каких решений это делаете (например, RAG, агенты), того, как эти решения реализованы и т.д.
Если какие-то краткие рекомендации тут давать, то:
- предварительную оценку кол-ва запросов можно сделать, исходя из статистики существующего неавтоматизированного процесса – это можно будет взять, как некий бейзлайн
- в зависимости от имплементируемого решения нужно будет накинуть на бейзлайн поправочный коэффициент – например, для RAG системы ~х1.3, для агентной системы ~х3
- в формате пилота запуститься на этих предварительно рассчитанных цифрах и собрать статистику по фактичесскому кол-ву запросов и объему токенов, затрачиваемому в среднем на запрос, по латенси и т.д.
- отталкиваясь от фактической статистики можно будет уже более уверенно прогнозировать и итоговые цифры по потреблению в рамках полномасштабной эксплуатации и использовать полученную статистику для более точного расчета сайзинга на продакшене