Заканчивается 2025 год, повсюду цели и лозунги о внедрении ИИ. Каждый месяц мы видим очередную новость о том, что AI технологии совершили прорыв и наша жизнь уже не станет прежней. Но действительно ли ИИ повышает производительность IT-специалистов? Без объективных метрик сложно понять - приносит ИИ пользу и сокращает трудоемкость, или создает новые проблемы - усложняет процесс, увеличивает технический долг и снижает качества кода.

Меня зовут Ларин Станислав, я руковожу разработкой и интеграцией IT-систем в финтехе. Команды активно внедряют ИИ в производственный процесс, поэтому в статье я поделюсь теорией и примерами оценки эффективности внедрения ИИ.
Что будет в статье?
Ключевые группы метрик
Исследование метрик IT-компаний
Рекомендации
Технологии повышения качества ИИ-результатов
Чек-лист внедрения AI
Процесс внедрения и комплексный подход к оценке
Что за ИИ или AI мы обсуждаем?
В этой статье ИИ и AI может означать следующие технологии, которые используют IT специалисты на работе:
Ассистенты и чат-боты (ChatGPT, Claude, Gemini, Microsoft Copilot, Grok, Deepseek)
Инструменты для IDE (Cursor, JetBrains AI, Qwen)
Платформы (Google AI studio, Yandex AI Studio)
Мы не обсуждаем всеми любимые генеративные сервисы для фото и видео, они не используются в разработке неигрового ПО. А также, игнорируем специализированные модели, фактически, отдельные системы, разработанные для решения конкретных узкопрофильных задач компаний.
Процесс внедрения
Как измерить реальное изменение эффективности IT сотрудников в компании? Зачем вообще измерять продуктивность? Все просто: цель любого проекта внедрения - это получение бизнес-результата, а не факта внедрения системы.
Как обычно выглядит процесс внедрения на практике:
Определить и измерить ключевые параметры до внедренияВнедрить систему
Измерить
ключевыеимеющиеся параметры после внедренияОценить, есть ли эффект от внедрения
Принять решение:
Продолжение финансирования проекта
Закрытие проекта
Изменение концепции или методов
Если бизнес-эффект устраивает стейкхолдеров, а пользовательский опыт нравится сотрудникам, остается только распределить человеческие ресурсы так, чтобы все были заняты делом с учетом изменившихся ролей и бизнес-процессов.
Ключевые группы метрик
Но как же измерить этот эффект? В 2025 г. каждая компания делает это по-своему. Анализ, проведенный DX (Developer Experience) показывает, как это делают гиганты индустрии - Google, Microsoft, GitHub и другие. Они комбинируют специфичные для ИИ метрики (например, уровень внедрения) с ключевыми инженерными метриками (например, скорость и качество поставки).
Если взять результат их работы и добавить метрики из нашего опыта, рекомендую сосредоточиться трёх ключевых группах метрик:
-
Использование - насколько активно внедряются и используются AI-инструменты:
Использование AI‑инструментов (DAUs/WAUs и другие производные)
Доля PR, выполненная с помощью ИИ
Доля кода, сгенерированного ИИ
Процент рабочих запросов (анализ запросов сотрудников и исключение тех, которые не относятся к рабочим задачам)
-
Влияние - измерение влияния на производительность: прямые (экономия времени разработчиков) и косвенные метрики.
-
Стоимость - эффект от инвестиций (отслеживание затрат и чистой прибыли)
Затраты на ИИ (как общие, так и на одного разработчика)
Чистый прирост времени на одного разработчика (экономия времени − затраты на ИИ). Это самая сложная метрика, т.к. необходимо для каждой роли (должность + уровень) определить, какие показатели эффективности для него подходят. Обычно такая информация является тайной компании.
Эти группы опираются на жизненный цикл внедрения ИИ: сначала команды уделяют приоритетное внимание внедрению и использованию, затем переходят к оценке влияния и в конечном счёте сосредотачиваются на управлении, стандартизации и экономической эффективности. Более качественный подход — сочетание прямых и косвенных показателей, а не использование одного из них.
Опыт зарубежных компаний
Измерение эффекта от внедрения ИИ — это сложная задача, требующая комплексного подхода. Необходимо выбрать те метрики и технологии, которые подойдут вашей команде или компании. Например, можно выбрать наиболее подходящие вам метрики из таблицы ниже.

Какие параметры преобладают в ИТ-компаниях при оценке эффективности ИИ?
DAU/WAU/MAU: число уникальных пользователей, которые взаимодействовали с инструментом ИИ в течение дня, недели или месяца. Это базовый показатель внедрения и вовлеченности внутри компании.
• CSAT - показатель удовлетворенности инструментом. Измеряются с помощью опросов.
• DXI - это комплексный показатель, который часто включает в себя CSAT, но является более широким понятием, охватывающим всю среду разработки. В нашем случае разработчика, аналитика и т.д.
Кажется, что все корректно, да? Можно смело бежать оценивать эти критерии и радостно докладывать руководству о выполненной задаче. На практике сотрудники будут "гуглить" в GPT всё, что им лень искать в интернете, а также решать задачи, которые никак не влияют на производственный процесс. Что же делать в таком случае? Ответ прост - помимо описанных метрик считайте такие группы показателей, как "влияние" и "стоимость".
• Pull Request Throughput: количество изменений, которые команда или сотрудник вливает в основную ветку за определенный период.
• Change Failure Rate: процент изменений, которые приводят к сбоям в продакшене и требуют исправлений. Важно отслеживать эту метрику вместе с метриками скорости, чтобы убедиться, что ускорение не происходит за счет качества.
• DORA Metrics (Deployment Frequency, Lead Time for Changes, Mean Time to Recover, Change Failure Rate): набор из четырех ключевых метрик для оценки производительности DevOps-команд. Включает в себя частоту развертывания, время выполнения изменений, время восстановления после сбоя и процент неудачных изменений.
• Cycle Time: время, которое проходит с момента начала работы над задачей до ее завершения (например, от создания ветки до слияния PR).
Пример
Наиболее эффективный пример внедрения - Dropbox. Компания достигла 78% уровня использования ИИ-инструментов среди инженеров. Dropbox отслеживает такие метрики, как ежедневные и еженедельные активные пользователи ИИ-инструментов, удовлетворенность клиентов (CSAT) ИИ-инструментами, сэкономленное время на инженера и затраты на ИИ. Сочетая эти данные с другими метриками (частота откатов изменений, пропускная способность PR), Dropbox обнаружил, что инженеры, регулярно использующие ИИ, объединяют на 20% больше PR (pull-request) в неделю, одновременно снижая частоту откатов изменений. Это подчеркивает важность комплексного подхода, который не фокусируется только на одном показателе, таком как внедрение.
Рекомендации
Если хотите профессионально подойти к вопросу оценки эффективности, используйте A/B тесты: измерьте ключевые показатели и только после этого смело приступайте к внедрению. Хотя некоторые компании предлагают более интересный подход - A/B тест после внедрения, когда команду делят на 2 группы, в одну из которых ИИ не внедряется вообще, либо у одной из команд ИИ отнимают.
Поймете ли вы, что нужно было выбрать другие показатели уже после внедрения? Конечно. Поэтому сначала попробуйте представить свою цель — как именно вы будете использовать каждый показатель? Сможете ли вы сделать однозначный вывод об эффективности, если показатель увеличится или сократится? Если сейчас понимания нет, измерьте до старта работ все, что сможете, а выберете потом.
Отслеживайте метрики, которые взаимно связаны. Почти все компании отслеживают частоту откатов изменений одновременно с показателями скорости, такими как пропускная способность PR (PR Throughput). Например, увеличение скорости при одновременном снижении качества сигнализирует о проблеме.
Некоторые сотрудники с радостью используют вайб-кодинг дома, но не используют рабочие AI-сервисы, просто потому что они неудобные. Обратите на это внимание, когда в следующий раз решите, что не стоит добавлять в бэклог задачи по улучшению пользовательского опыта.
Не переносите на себя 1 в 1 результаты других компаний. Если в Google разработчики получили прирост производительности в 40% - это совсем не значит, что ваши разработчики получат хоть какой-то прирост. Существует огромное кол-во неизвестных факторов от которых будет зависеть успешность использования ИИ именно в вашей компании.
Используйте для анализа трекер задач. Почти каждый трекер поддерживает возможность создания кастомного поля. Введите 2 новых поля: "Задачу можно решить с помощью ИИ" и "Задача решена с помощью ИИ". Первое заполняется при постановке задачи, второе поле заполняет исполнитель. В конце спринта оцените, сколько задач не удалось решить с помощью ИИ и почему? Сколько задач, которые не планировалось решать через ИИ, было реализовано с его помощью?
Расширьте определение понятия «разработчик». ИИ не только ускоряет работу штатных инженеров, но и меняет представление о том, кто может участвовать в создании программного обеспечения. Менеджеры по продукту, дизайнеры и бизнес-аналитики всё чаще используют инструменты ИИ для создания работающего программного обеспечения, стирая границы между техническими и нетехническими ролями.
Измерение активности разработчиков, особенно при раскатке ИИ, может быть деликатной темой и воспринято неправильно. Шумиха вокруг ИИ в сочетании с застоем на рынке труда может усилить напряженность в команде. И конечно же, сотрудники сами начнут занижать эффективность инструментов, из-за страха потерять работу после его внедрения.
Проактивная коммуникация крайне важна. Без нее пустота может заполниться домыслами и страхами. При внедрении показателей, связанных с использованием ИИ, необходимо обозначить, что эти показатели не будут использоваться при индивидуальной оценке эффективности работы. А цель измерений — понять, как использование ИИ влияет на возможности разработчиков и качество программного обеспечения, а не контролировать работу на микроуровне.
Данные можно сегментировать по атрибутам пользователей, таким как роль, стаж работы, регион и язык программирования. Это помогает выявлять важные закономерности, например, что младшие разработчики становятся эффективнее, а старшие инженеры замедляются, тратя больше времени на код-ревью. Такой детальный анализ может помочь выявить группы разработчиков, которым требуется дополнительное обучение, или, наоборот, определить области, где ИИ работает лучше всего.
Эффективное использование ИИ невозможно без эволюции процессов, создания чётких гайдлайнов и принципов разработки. ИИ точно следует описанным процессам, но не может их создать самостоятельно, так как не видит всей картины.
Улучшайте качество генерируемых ответов, ведя корпоративную библиотеку эффективных промтов для часто повторяющихся задач. Это позволит сохранить экспертизу внутри компании, снизить затраты на повторное изобретение колеса и улучшать качество результатов ИИ с течением времени.
Используйте управляющие промты, которые включают в себя требования к стилю, тону, принципам кодирования или корпоративным гайдлайнам. Такой подход гарантирует, что сгенерированные ответы будут соответствовать внутренним стандартам и принятым в компании процессам, предотвращая увеличение технического долга и обеспечивая поддерживаемость кода.
Технологии повышения качества ИИ-результатов
А что, если улучшать качество не только со стороны процессов, но и со стороны самой системы? Не стоит забывать про возможности погружения ИИ в вашу специфику, если она есть или если вас не устраивает качество результатов. Это можно сделать несколькими способами, но наиболее популярные сейчас - это RAG, MCP и Fine-Tuning.
Технология |
Как это работает? |
Плюсы |
Минусы |
Идеально для |
|---|---|---|---|---|
Поиск релевантных данных из базы и передача их в LLM для генерации ответа. |
+ Доступ к актуальным данным и знаниям + Повышение точности (меньше галлюцинаций) + Низкая стоимость |
- Результат зависит от качества поиска - Может терять общий контекст |
FAQ, техподдержка, юридические и финансовые консультанты на основе внутренней базы знаний |
|
Fine-Tuning |
Дообучение готовой модели на вашем наборе данных - изменение весов существующей модели на целевом наборе данных. |
+ Модель перестраивается под стиль и специфику данных. + Может выполнять сложные задачи в узкой области |
- Модель перестраивается под стиль (может утрачивает человечность) - Дорогое и долгое обучение, требуется экспертиза - Устаревание модели при изменении данных |
Задачи, в которых требуется глубокий контекст и особый стиль ответов |
Фреймворк для подключения LLM к внешним инструментам, API и данным в реальном времени |
+ Доступ к динамическим данным и действиям + Высокая актуальность информации+ Безопасное управление доступом + Универсальность (один протокол для многих сервисов) |
- Зависимость от внешних сервисов- Задержки из-за сетевых запросов - Требует настройки серверов и инструментов - Сложнее в отладке |
Работа с API, автоматизация workflows, доступ к реальным данным (погода, биржи, базы данных), выполнение действий |
|
Создание собственной модели с нуля |
Полное обучение нейросети на ваших данных |
+ Полная кастомизация под задачу+ Наиболее точные результаты |
- Чрезвычайно дорого - Требует огромных данных и вычислительных мощностей. |
Специализированные задачи, в которых общедоступныемодели не подходят |
На самом деле, MCP - не альтернатива RAG или Fine-Tuning, а дополнение к ним. В то время как RAG работает со базой знаний, а Fine-Tuning меняет саму модель, MCP предоставляет возможности для взаимодействия с внешним миром в реальном времени.
Идеальное сочетание - это MCP + RAG / Fine-Tuning. Такая связка создает мощнейшую систему, где модель имеет знания и возможность действовать, а также говорит с вами на одном профессиональном языке.
Заключение
Эффективность измеряется не только использованием ИИ и скоростью написания кода, но и качеством процессов и способностью решать сложные проблемы. А это требует пересмотра ролей в сторону аналитики, проектирования и управления ИИ. AI служит инструментом для автоматизации рутины, но не заменяет критическое мышление и архитектурные решения.
Чек-лист внедрения ИИ в процессы разработки
Этап |
Основное действие |
|---|---|
I. Оценка до внедрения |
Определить и изучить метрики до внедрения ИИ |
II. Процессы и UX |
Скорректировать процессы, создать понятные гайдлайны и принципы разработки |
III. Техническая готовность |
Развернуть систему и обеспечить её безопасность (система отключена от интернета и развернута на своих мощностях без обращения к внешним ресурсам или убедиться в отсутствии коммерческой тайны и перс. данных для использования онлайн сервиса) |
IV. Погружение в Специфику |
Настроить MCP + RAG / Fine-Tuning |
V. Коммуникация и Обучение |
Научить пользователей использовать инструмент |
VI. Пилотное тестирование |
Провести пилот, собрать мнение сотрудников и проанализировать эффективность |
VII. Решение и Масштабирование |
Принять решение о целесообразности продолжения работ |
VIII. Промышленный Релиз |
Провести боевой релиз и распространить систему на всех сотрудников |
IX. Пост-внедрение |
Собрать мнение сотрудников, проанализировать эффективность и скорректировать процессы |

В конечном счете, цель измерения — не получить красивые цифры для отчета, а создать более эффективный процесс разработки, в котором ИИ становится настоящим партнером и успех будет достигаться за счёт симбиоза, в котором ИИ закрывает базовые задачи, а человек сосредоточен на стратегических и интеграционных задачах.
Удачи в ваших проектах!
Ivnika
ИМХО, статья великолепный пример бессмысленной работы ИИшки. (И это не в укор ИИ)
vmkazakoff
Автор просто ни за что потратил ресурсы планеты, чтобы вскипятить литр воды и выложить вот такое унылое говно. А с учётом, что тут в кучу намешано все подряд, ощущение, что он даже запрос нормально написать не смог или писал его тоже с ИИ.