ИИ-агенты против людей: кто сегодня пишет лучший код? / forpes.ru

Главная
ИИ-агенты против людей: кто сегодня пишет лучший код?

ИИ-агенты против людей: кто сегодня пишет лучший код? -1

25.09.2025 12:59

andre_dataist 1 924 Источник

Последние месяцы разработчики массово пишут код с помощью агентов — автономных помощников на базе LLM, которые сами планируют шаги, вносят изменения, запускают тесты и сразу открывают pull request. В теории это экономит часы рутины. На практике до сих пор мало данных, как такие PR живут в реальных проектах: какие задачи агенты берут, как часто их принимают и сколько дорабатывают люди. Авторы работы изучили 567 PR от Claude Code в 157 открытых репозиториях и аккуратно сравнили их с 567 PR, сделанными людьми в тех же проектах и примерно в то же время.

Как устроен агент в деле

Claude Code умеет работать с файловой системой, запускать команды, линтеры и тесты, читать историю репозитория и оформлять PR с пометкой Generated with Claude Code. Это не чат с пошаговыми подсказками, а автономный цикл от планирования до PR. В реальных проектах качество пляшет: от аккуратных точечных правок до крупных заявок, требующих обсуждений и последующих коммитов.

Пример рефакторинга с помощью Claude Code и создания PR

Пример PR на GitHub, созданного Claude Code

Как авторы смотрели на данные

Исследователи собрали PR с пометкой инструмента через GitHub API за февраль–апрель 2025 года, затем нашли парные PR от людей в тех же репозиториях (и по возможности тех же авторов) — так сравнение честнее. Дополнительно часть PR размечали вручную по целям (исправление, фича, рефакторинг, документация, тесты и так далее) и считали размер изменений. Для статистики использовали непараметрические тесты.

Что именно делают агентные PR

И люди, и агенты чаще всего правят баги и добавляют небольшие фичи. Но у агентов заметный сдвиг: они существенно чаще берут рефакторинг, документацию и тесты. Мультизадачные заявки у них почти в четыре раза чаще: один PR одновременно меняет код, добавляет тесты и обновляет README. Медианный размер по файлам одинаковый (2 файла), но у агентных PR добавленных строк вдвое больше (48 против 24), а описания длиннее и структурированнее (медиана 355 слов против 56 у людей). Это помогает ревью, но иногда прячет лишнюю сложность.

Например, агенты нередко тянут за собой обновления сборки или линтинга — полезно, когда нужно привести проект в порядок, и рискованно, когда это ломает пайплайн. В одном из кейсов сборка удерживалась на плаву временным ослаблением линтера, пока готовилось правильное исправление.

Распределение метрик изменений в пересмотренных коммитах (без первого коммита)

Принимают ли такие PR?

В среднем — да. Агентные PR принимают в 83,8% случаев, человеческие — в 91,0%. Время до слияния достаточно близко друг к другу: около часа в обоих датасетах. Где отказывают агентам? Чаще из‑за контекстных причин: у мейнтейнеров уже есть альтернативное решение, PR получился слишком крупным, заявка была технической проверкой для CI. Чисто технические недостатки встречаются реже, а прямое недоверие к ИИ — эпизодически. Однако отсутствие обратной связи по отклоненным PR — частая история, так что теневой скепсис возможен.

Нужны ли доработки и насколько они велики

Около половины обеих групп сливаются без дополнительных коммитов после первого. Если доработки нужны, их масштаб у агентов и людей статистически не различается: медиана по числу ревизий — два коммита, схожие приращения по файлам и строкам. Иначе говоря, подготовить стартовый PR агентом можно без роста нагрузки на ревью-команду.

Сколько коммитов‑правок приходится на PR у агентов и у людей

Как меняются файлы и строки в ходе ревизий (без первого коммита)

Каких правок просят чаще всего

Среди принятых агентных PR почти в половине случаев ревьюеры просят доработать баги и обработку ошибок. На втором месте — документация: синхронизация комментариев, README и примеров с изменившимся кодом. Затем рефакторинг и стиль: устранение дублирования, единое наименование, линтеры. Тесты добавляют в каждом шестом таком PR — обычно это покрытие корнер кейсов, которые агент упустил. Редко, но важно: правки в CI/CD и точечные оптимизации производительности. Показательно, что 41% доработанных агентных PR были доработаны тоже при участии Claude Code — разработчики используют помощника не только на старте, но и в итерациях.

Живая иллюстрация из выборки: в одном проекте агент поднял покрытие тестами с 70% до 94%, в другом — ускорил запросы, а где‑то оформил аккуратный рефакторинг парсера. Были и противоположные случаи — слишком крупные заявки или мелкие несовместимости сборки, потребовавшие ручного вмешательства.

Что это значит на практике

Разделяйте крупные задачи. Агенты склонны объединять несколько целей в одном PR — это удобно, но усложняет ревью и повышает риск отклонения. Лучше серия небольших самостоятельных заявок.
Пропишите правила проекта для агента. Отдельный файл с соглашениями по стилю, архитектурой и ограничениями экономит десятки комментариев в ревью.
Давайте опоры для проверки. Вместе с кодом просите от агента список допущений, альтернатив и известных крайних случаев — так ревью проходит быстрее.
Автоматизируйте рутину вокруг PR. Ребейзы, мелкие конфликты и борьба со stale‑статусом — подходящая работа для агента.

Итог

Написание кода с помощью ИИ-агентов сегодня перестало быть экспериментом: четыре из пяти PR от агента успешно попадают в основной код. Они чаще приносят рефакторинг, документацию и тесты, дают длинные и информативные описания и не требуют большего объема доработок, чем человеческие заявки. При этом человеческий контроль критичен: именно люди защищают стандарты проекта, пайплайн и качество кода. Лучший вариант — агент как исполнитель и соавтор, человек как архитектор и ревьюер.

Примеры из выборки

? Полная статья

? Код

***

Если вам интересна тема ИИ, подписывайтесь на мой Telegram‑канал — там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.

Комментарии (1)

FSmile
26.09.2025 06:10
#28883656
Зависит на каком языке пишете