Организации в РФ переходят от AI-экспериментов к масштабным внедрениям, сталкиваясь с трудностями в оценке сопутствующих издержек. Традиционные фин.модели не всегда отражают экономическую сложность развертывания и сопровождения AI решений, что приводит к заблуждениям в сравнении альтернативных вариантов. В сегодняшней статье разберем LCOAI - адаптированный для AI подход к оценке стоимости владения цифровым продуктом - и ответим на вопрос "Сколько же стоит внедрить этот ваш ИИ?“.

В одной из предыдущих статей мы обсуждали важность контроля за FinOps на этапе масштабирования отпилотированного AI решения - Levelized Cost of Artificial Intelligence (LCOAI) подход позволяет получить полную и объективную картину, объединяя все аспекты сопряженных с запуском AI инициатив затрат, включая первоначальные капитальные затраты (такие как инфраструктура для обучения модели, разработка data пайплайнов, имплементация прикладного AI решения) и текущие операционные расходы (вычислительные мощности для инференса, хранение данных, мониторинг и обслуживание системы), нормированные на общее количество обрабатываемых запросов на протяжении всего срока службы системы.

Методология расчета

Впервые LCOAI подход был представлен Eliseo Curcio в его статье Introducing LCOAI: A Standardized Economic Metric for Evaluating AI Deployment Costs

Идея методологии подсчета проста, как все гениальное, и раскрывается в элегантной формуле ниже:

????? = (????? ????? + ????? ???? ) / ????? ?????? ?? ????? ????????????

Здесь Total CAPEX включает в себя все первоначальные инвестиции, необходимые для разработки и ввода в эксплуатацию системы искусственного интеллекта: расходы, связанные с приобретением вычислительной инфраструктуры( GPU) и серверного оборудования, первоначальным обучением и\или донастройкой модели, разработкой пайплайна данных и их разметкой, лицензиями на программное обеспечение (например, решения по безопасности, мониторингу и др.), трудозатраты на внедрение проекта и инженерные работы.

Total OPEX отражает постоянные расходы в течение всего срока эксплуатации развернутой системы: стоимость инференса, потребление облачных ресурсов, тех. обслуживание, периодическая донастройка для поддержания точности работы модели, трудозатраты на DevOps, , аудит безопасности и и прочие дополнительные накладные расходы, связанные с поддержанием эффективного функционирования AI решения.

Total Number of Valid Interference - общее количество пользовательских запросов, успешно обработанное системой.

Применяем LCOAI на практике

Для иллюстрации возможностей LCOAI методологии рассмотрим несколько примеров, диктуемых текущими реалиями: организации, приходя к точке старта разработки AI решения, всегда задаются вопросом необходимой инфраструктуры - идти ли по пути аренды мощностей в облаке, запускаться на собственном «железе» или вовсе отдать предпочтение облачному API?

Чтобы ответить на этот вопрос с помощью описанного выше фреймворка, давайте возьмем приближенные к условиям реального проекта разработки и внедрения AI решения ограничения:

  • наиболее часто употребимую нами на продакшене модель - Qwen 3.5 35B A3B в квантовании AWQ

  • нагруженность системы в среднем объеме на этапе пилотирования ( 10 млн. запросов\год) и высоком объеме( 50 млн. запросов\год) на этапе скейлинга и дальнейшей промышленной эксплуатации.

  • средний объем инференса оценим в 1000 токенов

  • 3 опции развертывания: облачный API( на примере Yandex Cloud), аренду виртуалок в облаке(опять же на примере Yandex Cloud), on-prem на локальных мощностях

  • для опций с «железом» берем 2 ноды для отказоустойчивости

  • с точки зрения капитальных затрат на разработку и внедрение решения для всех 3 опций развертывания возьмем единую величину стоимости в 5 млн. р., как некую медианную цифру «по больнице» - разумеется, эта величина очень условная и для простых решений, внедряемых в СМБ может быть и кратно меньше, тогда как для сложных решений, внедряемых в отрасли с жесткой регуляцией и требованиями( например, здравоохранение), может быть и кратно выше

  • В качестве горизонта, на котором будем делать расчеты, возьмем 3 года, как некий средний срок окупаемости AI инициатив.

Погнали считать.

Облачный API

Для Qwen3.5 35B имеем на сегодняшний день стоимость в Yandex Cloud в 0,3 р. за 1000 токенов. Таким образом, исходя из предположений выше о средней размерности 1 запроса в 1000 токенов, имеем OPEX и стоимость инференса на 10м запросов\год в 3 000 000 р., на 50м запросов\год - 15 000 000 р.

Аренда мощностей в облаке

Для расчета в рамках данной опции, исходя из ограничений выше, возьмем конфигурацию из 2 «виртуалок» с GPU (например, A100 80GB) + базовой сопутствующей обвязкой (векторная база, CPU, трафик). Стоимость подобной конфигурации на Yandex Cloud на сегодняшний день составляет примерно 900 тыс. руб./мес. При этом важно отметить, что подобная конфигурация будет работать и для 10M

запросов, и для 50M запросов с примерно одинаковой стоимостью. Расcчитывая годовой OPEX получаем 10.8 млн руб.

Свое «железо»

В этом случае к обозначенному выше CAPEX нам необходимо добавить закупку собственных вычислительных мощностей и серверов. Под Qwen 35B с учетом выше описанных ограничений наша конфигурация будет выглядеть примерно так: 2 сервера + 2 карточки L40S (48GB). Общая примерная стоимость приобретения такого набора обойдется нам в 12 млн. руб. При этом OPEX - размещение в ЦОД, затраты на электричество, поддержка - будет относительно гуманным: примерно 800 тыс. руб. в год. Опять же как и в случае с арендой VM мы данной конфигурацией успешно закроем и потребность в 10M, и в 50M запросов.

Облако или нет?

Сведем воедино полученные данные, чтобы получить общую картину и попробовать с помощью LCOAI ответить на вопрос, какому инфраструктурном подходу все же отдать предпочтение.

Итого мы видим, что любая из конфигураций имеет право на жизнь, и в зависимости от обстоятельств может оббегать альтернативные опции с точки зрения экономической эффективности обработки пользовательского запроса.

Так, если мы говорим, о проверке бизнес-гипотезы в рамках пилота или даже полноценного решения на продуктиве с небольшой нагрузкой, то опция с API выглядит наиболее предпочтительной - она более чем вдвое дешевле on-prem варианта и аренды мощностей. Но на больших объемах API уже демонстрирует линейный прирост стоимости и здесь «приз» уходит другому кандидату - в первый работы решения на больших объемах облачные «виртуалки» уже выгоднее API, а если говорить про игру «вдолгую», то тут безоговорочным чемпионом становится уже «свое железо» - себестоимость запроса в этом варианте двое ниже арендных мощностей, и втрое ниже API.

Заключение

Выбор инфраструктуры для запуска AI инициативы — это комплексная задача, выходящая далеко за рамки чисто финансового сравнения. На решение влияет множество факторов:

  • Корпоративные политики и требования к безопасности данных (особенно для регулируемых отраслей);

  • Наличие собственных компетенций и инженерных команд;

  • Срочность запуска проекта и допустимые сроки ввода в эксплуатацию;

  • Доступность капитальных инвестиций (CAPEX) против операционного бюджета (OPEX);

  • Прогнозируемый рост нагрузки и волатильность спроса.

В примерах выше мы, очевидно, рассмотрели задачу в упрощенном виде, чтобы продемонстрировать, что LCOAI методология представляет собой удобный инструмент поддержки принятия решений при внедрении ИИ, помогающий снизить градус неопределенности, увидев объективную общую картину в разрезе экономических метрик.

Для организаций, переходящих от экспериментов с искусственным интеллектом к промышленной эксплуатации, использование LCOAI фреймворка я бы оценил, как must have — особенно в условиях жёстких бюджетных ограничений 2026 года и необходимости обоснования инвестиций перед владельцами бюджетов.

----------------

Алексей Бобок,

AI трансформация, Рафт

Делюсь опытом внедрения ИИ в бизнес через поиск максимальной ценности:

https://t.me/aibobok

Комментарии (6)


  1. sAIpiens
    25.04.2026 03:03

    Похоже чем-то на то, что в Эн+ для нормированой стоимости электричества используется


    1. albonemo Автор
      25.04.2026 03:03

      Все верно - если посмотрите исходную на статью автора подхода( ссылка есть в публикации), то он открыто указывает на то, что предложенная методика "списана" с используемой в ТЭК LCOE (levelized cost of electricity) и адаптирована под специфику ML решений.


      1. airwaves182444
        25.04.2026 03:03

        А как понять сколько запросов нужно в год пусть на 100 сотрудников?


        1. albonemo Автор
          25.04.2026 03:03

          Тут простой формулы, к сожалению, не существует и общее число запросов зависит от ряда факторов – от того, какой “плотности” бизнес-процесс или его часть вы автоматизируете, с помощью каких решений это делаете (например, RAG, агенты), того, как эти решения реализованы и т.д.

          Если какие-то краткие рекомендации тут давать, то:

          - предварительную оценку кол-ва запросов можно сделать, исходя из статистики существующего неавтоматизированного процесса – это можно будет взять, как некий бейзлайн

          - в зависимости от имплементируемого решения нужно будет накинуть на бейзлайн поправочный коэффициент – например, для RAG системы ~х1.3, для агентной системы ~х3

          - в формате пилота запуститься на этих предварительно рассчитанных цифрах и собрать статистику по фактичесскому кол-ву запросов и объему токенов, затрачиваемому в среднем на запрос, по латенси и т.д.

          - отталкиваясь от фактической статистики можно будет уже более уверенно прогнозировать и итоговые цифры по потреблению в рамках полномасштабной эксплуатации и использовать полученную статистику для более точного расчета сайзинга на продакшене


  1. midas_works
    25.04.2026 03:03

    Хороший подход, но у LCOAI есть малозаметная слепая зона при оценке агентных пайплайнов — "агентный множитель".


    1. albonemo Автор
      25.04.2026 03:03

      Спасибо! Очень хорошее замечание - реальность, разумеется, сложнее, чем приведенная в статье иллюстрация: в жизни действительно необходимо будет дополнительно вводить поправочные коэффициенты, зависящий от имплементируемого решения, инженерной обвязки, системы развертывания для апроксимации приближенной к реальности картины.