Оценка эффективности внедрения искусственного интеллекта / forpes.ru

Главная
Оценка эффективности внедрения искусственного интеллекта

Оценка эффективности внедрения искусственного интеллекта -10

22.11.2025 11:35

flaojke 2 649 Источник

Заканчивается 2025 год, повсюду цели и лозунги о внедрении ИИ. Каждый месяц мы видим очередную новость о том, что AI технологии совершили прорыв и наша жизнь уже не станет прежней. Но действительно ли ИИ повышает производительность IT-специалистов? Без объективных метрик сложно понять - приносит ИИ пользу и сокращает трудоемкость, или создает новые проблемы - усложняет процесс, увеличивает технический долг и снижает качества кода.

Меня зовут Ларин Станислав, я руковожу разработкой и интеграцией IT-систем в финтехе. Команды активно внедряют ИИ в производственный процесс, поэтому в статье я поделюсь теорией и примерами оценки эффективности внедрения ИИ.

Что будет в статье?

Ключевые группы метрик
Исследование метрик IT-компаний
Рекомендации
Технологии повышения качества ИИ-результатов
Чек-лист внедрения AI

Процесс внедрения и комплексный подход к оценке

Что за ИИ или AI мы обсуждаем?

В этой статье ИИ и AI может означать следующие технологии, которые используют IT специалисты на работе:

Ассистенты и чат-боты (ChatGPT, Claude, Gemini, Microsoft Copilot, Grok, Deepseek)
Инструменты для IDE (Cursor, JetBrains AI, Qwen)
Платформы (Google AI studio, Yandex AI Studio)
Инструменты анализа данных

Мы не обсуждаем всеми любимые генеративные сервисы для фото и видео, они не используются в разработке неигрового ПО. А также, игнорируем специализированные модели, фактически, отдельные системы, разработанные для решения конкретных узкопрофильных задач компаний.

Процесс внедрения

Как измерить реальное изменение эффективности IT сотрудников в компании? Зачем вообще измерять продуктивность? Все просто: цель любого проекта внедрения - это получение бизнес-результата, а не факта внедрения системы.

Как обычно выглядит процесс внедрения на практике:

~~Определить и измерить ключевые параметры до внедрения~~
Внедрить систему
Измерить ~~ключевые~~ имеющиеся параметры после внедрения
Оценить, есть ли эффект от внедрения
Принять решение:

Продолжение финансирования проекта
Закрытие проекта
Изменение концепции или методов

Если бизнес-эффект устраивает стейкхолдеров, а пользовательский опыт нравится сотрудникам, остается только распределить человеческие ресурсы так, чтобы все были заняты делом с учетом изменившихся ролей и бизнес-процессов.

Ключевые группы метрик

Но как же измерить этот эффект? В 2025 г. каждая компания делает это по-своему. Анализ, проведенный DX (Developer Experience) показывает, как это делают гиганты индустрии - Google, Microsoft, GitHub и другие. Они комбинируют специфичные для ИИ метрики (например, уровень внедрения) с ключевыми инженерными метриками (например, скорость и качество поставки).

Если взять результат их работы и добавить метрики из нашего опыта, рекомендую сосредоточиться трёх ключевых группах метрик:

Использование - насколько активно внедряются и используются AI-инструменты:
- Использование AI‑инструментов (DAUs/WAUs и другие производные)
- Доля PR, выполненная с помощью ИИ
- Доля кода, сгенерированного ИИ
- Процент рабочих запросов (анализ запросов сотрудников и исключение тех, которые не относятся к рабочим задачам)
Влияние - измерение влияния на производительность: прямые (экономия времени разработчиков) и косвенные метрики.
- Экономия времени за счет ИИ (часы специалистов)
- CSAT (Customer Satisfaction Score)
- DXI (Developer Experience Index)
- Пропускная способность PR
- Скорость поставки
- Поддерживаемость кода
- Процент неудачных изменений
- Метрики DORA
- Cycle Time
Стоимость - эффект от инвестиций (отслеживание затрат и чистой прибыли)
- Затраты на ИИ (как общие, так и на одного разработчика)
- Чистый прирост времени на одного разработчика (экономия времени − затраты на ИИ). Это самая сложная метрика, т.к. необходимо для каждой роли (должность + уровень) определить, какие показатели эффективности для него подходят. Обычно такая информация является тайной компании.

Эти группы опираются на жизненный цикл внедрения ИИ: сначала команды уделяют приоритетное внимание внедрению и использованию, затем переходят к оценке влияния и в конечном счёте сосредотачиваются на управлении, стандартизации и экономической эффективности. Более качественный подход — сочетание прямых и косвенных показателей, а не использование одного из них.

Опыт зарубежных компаний

Измерение эффекта от внедрения ИИ — это сложная задача, требующая комплексного подхода. Необходимо выбрать те метрики и технологии, которые подойдут вашей команде или компании. Например, можно выбрать наиболее подходящие вам метрики из таблицы ниже.

Какие параметры преобладают в ИТ-компаниях при оценке эффективности ИИ?

DAU/WAU/MAU: число уникальных пользователей, которые взаимодействовали с инструментом ИИ в течение дня, недели или месяца. Это базовый показатель внедрения и вовлеченности внутри компании.
• CSAT - показатель удовлетворенности инструментом. Измеряются с помощью опросов.
• DXI - это комплексный показатель, который часто включает в себя CSAT, но является более широким понятием, охватывающим всю среду разработки. В нашем случае разработчика, аналитика и т.д.

Кажется, что все корректно, да? Можно смело бежать оценивать эти критерии и радостно докладывать руководству о выполненной задаче. На практике сотрудники будут "гуглить" в GPT всё, что им лень искать в интернете, а также решать задачи, которые никак не влияют на производственный процесс. Что же делать в таком случае? Ответ прост - помимо описанных метрик считайте такие группы показателей, как "влияние" и "стоимость".

• Pull Request Throughput: количество изменений, которые команда или сотрудник вливает в основную ветку за определенный период.

• Change Failure Rate: процент изменений, которые приводят к сбоям в продакшене и требуют исправлений. Важно отслеживать эту метрику вместе с метриками скорости, чтобы убедиться, что ускорение не происходит за счет качества.

• DORA Metrics (Deployment Frequency, Lead Time for Changes, Mean Time to Recover, Change Failure Rate): набор из четырех ключевых метрик для оценки производительности DevOps-команд. Включает в себя частоту развертывания, время выполнения изменений, время восстановления после сбоя и процент неудачных изменений.

• Cycle Time: время, которое проходит с момента начала работы над задачей до ее завершения (например, от создания ветки до слияния PR).

Пример

Наиболее эффективный пример внедрения - Dropbox. Компания достигла 78% уровня использования ИИ-инструментов среди инженеров. Dropbox отслеживает такие метрики, как ежедневные и еженедельные активные пользователи ИИ-инструментов, удовлетворенность клиентов (CSAT) ИИ-инструментами, сэкономленное время на инженера и затраты на ИИ. Сочетая эти данные с другими метриками (частота откатов изменений, пропускная способность PR), Dropbox обнаружил, что инженеры, регулярно использующие ИИ, объединяют на 20% больше PR (pull-request) в неделю, одновременно снижая частоту откатов изменений. Это подчеркивает важность комплексного подхода, который не фокусируется только на одном показателе, таком как внедрение.

Технологии повышения качества ИИ-результатов

А что, если улучшать качество не только со стороны процессов, но и со стороны самой системы? Не стоит забывать про возможности погружения ИИ в вашу специфику, если она есть или если вас не устраивает качество результатов. Это можно сделать несколькими способами, но наиболее популярные сейчас - это RAG, MCP и Fine-Tuning.

Технология	Как это работает?	Плюсы	Минусы	Идеально для
RAG (Retrieval-Augmented Generation)	Поиск релевантных данных из базы и передача их в LLM для генерации ответа.	+ Доступ к актуальным данным и знаниям + Повышение точности (меньше галлюцинаций) + Низкая стоимость	- Результат зависит от качества поиска - Может терять общий контекст	FAQ, техподдержка, юридические и финансовые консультанты на основе внутренней базы знаний
Fine-Tuning	Дообучение готовой модели на вашем наборе данных - изменение весов существующей модели на целевом наборе данных.	+ Модель перестраивается под стиль и специфику данных. + Может выполнять сложные задачи в узкой области	- Модель перестраивается под стиль (может утрачивает человечность) - Дорогое и долгое обучение, требуется экспертиза - Устаревание модели при изменении данных	Задачи, в которых требуется глубокий контекст и особый стиль ответов
MCP (Model Context Protocol)	Фреймворк для подключения LLM к внешним инструментам, API и данным в реальном времени	+ Доступ к динамическим данным и действиям + Высокая актуальность информации+ Безопасное управление доступом + Универсальность (один протокол для многих сервисов)	- Зависимость от внешних сервисов- Задержки из-за сетевых запросов - Требует настройки серверов и инструментов - Сложнее в отладке	Работа с API, автоматизация workflows, доступ к реальным данным (погода, биржи, базы данных), выполнение действий
Создание собственной модели с нуля	Полное обучение нейросети на ваших данных	+ Полная кастомизация под задачу+ Наиболее точные результаты	- Чрезвычайно дорого - Требует огромных данных и вычислительных мощностей.	Специализированные задачи, в которых общедоступныемодели не подходят

На самом деле, MCP - не альтернатива RAG или Fine-Tuning, а дополнение к ним. В то время как RAG работает со базой знаний, а Fine-Tuning меняет саму модель, MCP предоставляет возможности для взаимодействия с внешним миром в реальном времени.

Идеальное сочетание - это MCP + RAG / Fine-Tuning. Такая связка создает мощнейшую систему, где модель имеет знания и возможность действовать, а также говорит с вами на одном профессиональном языке.

Заключение

Эффективность измеряется не только использованием ИИ и скоростью написания кода, но и качеством процессов и способностью решать сложные проблемы. А это требует пересмотра ролей в сторону аналитики, проектирования и управления ИИ. AI служит инструментом для автоматизации рутины, но не заменяет критическое мышление и архитектурные решения.

Чек-лист внедрения ИИ в процессы разработки

Этап	Основное действие
I. Оценка до внедрения	Определить и изучить метрики до внедрения ИИ
II. Процессы и UX	Скорректировать процессы, создать понятные гайдлайны и принципы разработки
III. Техническая готовность	Развернуть систему и обеспечить её безопасность (система отключена от интернета и развернута на своих мощностях без обращения к внешним ресурсам или убедиться в отсутствии коммерческой тайны и перс. данных для использования онлайн сервиса)
IV. Погружение в Специфику	Настроить MCP + RAG / Fine-Tuning
V. Коммуникация и Обучение	Научить пользователей использовать инструмент
VI. Пилотное тестирование	Провести пилот, собрать мнение сотрудников и проанализировать эффективность
VII. Решение и Масштабирование	Принять решение о целесообразности продолжения работ
VIII. Промышленный Релиз	Провести боевой релиз и распространить систему на всех сотрудников
IX. Пост-внедрение	Собрать мнение сотрудников, проанализировать эффективность и скорректировать процессы

В конечном счете, цель измерения — не получить красивые цифры для отчета, а создать более эффективный процесс разработки, в котором ИИ становится настоящим партнером и успех будет достигаться за счёт симбиоза, в котором ИИ закрывает базовые задачи, а человек сосредоточен на стратегических и интеграционных задачах.

Удачи в ваших проектах!

Комментарии (2)

Ivnika
22.11.2025 12:10
#29149066
ИМХО, статья великолепный пример бессмысленной работы ИИшки. (И это не в укор ИИ)
1. vmkazakoff
  22.11.2025 12:10
  #29150688
  Автор просто ни за что потратил ресурсы планеты, чтобы вскипятить литр воды и выложить вот такое унылое говно. А с учётом, что тут в кучу намешано все подряд, ощущение, что он даже запрос нормально написать не смог или писал его тоже с ИИ.