Для тех, кто следит за трендами Умной Автоматизации, чтобы понимать тему глубже и принимать верные решения.
По материалам McKinsey, Research IBM, PWC и Wired.
Фокус не на том, что автоматизировать, а какие решения следует доверить ИИ: Вместо погони за автоматизацией всего подряд, стоит задать вопрос, где агентный ИИ приносит наибольшую ценность при минимальных рисках. McKinsey предлагает классифицировать решения по уровням риска и сложности: низкорисковые, стандартные задания (проверка учетных данных, обработка простых заявок) уже можно передавать ИИ-агентам, тогда как решения с высоким риском и необходимостью глубокого суждения (например, расследование мошенничества или сложные исключения по страховым выплатам) требуют «человеческого контроля». Такой избирательный подход позволяет более эффективно распределять ресурсы и быстрее запускать «малый ИИ», а сама задача корпоративных ИИ-агентов постепенно расширяется по мере роста доверия к ним.
-
Про будущее оценки ИИ-агентов и MAS в работе IBM Research совместно с несколькими университетами, представленной для конференции EMNLP
Потребность в стандартизированных и более содержательных бенчмарках для ИИ-агентов: IBM совместно с коллегами из нескольких университетов проанализировали 120 методик оценки LLM-агентов и обнаружили, что нынешние бенчмарки сильно различаются по качеству и зачастую ограничены узким фокусом на точности ответа. Авторы называют эту работу «никогда прежде не проводившимся обзором» и подчёркивают, что без общепринятых стандартов сложно понять, насколько далеко продвинулись агенты и где скрываются их слабые места.
Ниже несколько хайлайтов из этой работы.
-
Ключевые компетенции ИИ-агентов и существующие инструменты оценки: Современные тесты измеряют четыре базовых навыка:
Планирование и рассуждение: Benchmarks вроде PlanBench, MINT и IBM ACPBench проверяют способность разбивать сложные задачи на шаги и формировать планы.
Вызов внешних инструментов (tool calling): Gorilla V3 и NESTFUL оценивают, насколько агенты умеют делать «вложенные» или «параллельные» API-запросы, соединяя результаты разных сервисов в единую цепочку.
«Рефлексия» и адаптация: LLF-Bench измеряет, как агент воспринимает обратную связь и исправляет ошибки по ходу выполнения задачи.
Долгосрочная память: LoCoMo проверяет умение референцировать и учитывать более ранний контекст в длинных диалогах, выходя за рамки «встроенных» знаний в ядре модели.
-
Сдвиг бенчмарков в сторону реальных корпоративных сценариев: Вместо синтетических заданий, агенты начинают проверять в имитации того, как они справятся с профессиональными задачами:
WebArena (CMU) моделирует онлайн-шопинг: агент совершает покупки в симулированном веб-окружении.
CUGA (IBM) тестирует «универсального агента» в пользовательских рабочих сценариях (например, навигация «по сайтам») и занимает лидирующую позицию с 62 % успеха.
SWE-bench и SWE-Lancer проверяют ИИ-агентов на реальных GitHub-issues и попытках «зарабатывать как фрилансер», ставя перед ними задачу написания кода с учётом новых требований.
τ-bench и PaperBench оценивают навыки «научных» и «потребительских» агентов в задачах поддержки клиентов и исследованиях.
OSWorld, AppWorld и CRMWorld требуют, чтобы агентам одновременно работали с таблицами, запускали код и анализировали данные продаж, моделируя сложные бизнес-кейсы.
Несмотря на все эти усилия, даже лучшим агентам удаётся успешно выполнить лишь около 5 % кейсов, что свидетельствует о том, насколько «зрелость» технологий ещё далека от идеала.
-
Рекомендации по улучшению оценок агентов для ускорения развития технологий:
Гранулярность оценки: Вместо сверки только «ответ/не ответ», важно инспектировать промежуточные шаги рассуждений агента (аналогично частичному оцениванию в школьных тестах), чтобы выявлять «узкие места» в логике.
Измерение эффективности с учётом затрат: Многие современные бенчмарки акцентируют внимание на точности и игнорируют стоимость — вычислительные ресурсы, использование токенов, задержки. Необходимы «паритетные метрики», которые позволят сравнивать агентов не только по результату, но и по реальной экономической целесообразности их развертывания.
Автоматизация оценочного процесса: «Агент оценивает агента» (agent-as-a-judge) и инструменты вроде IBM EvalAssist помогут уменьшить трудозатраты людей-оценщиков и ускорить сбор данных о производительности. Кроме того, использование ИИ-сгенерированных данных сделает сценарии более разнообразными и реалистичными.
Фокус на безопасности и доверии: Появляются специальные тесты вроде AgentHarm (выпытать, сможет ли агент отказаться от этических ограничений) и ST-WebAgentBench, имитирующий высокорискованные бизнес-приложения, где от надёжности и соблюдения норм зависит успех всего процесса.
-
Рост доходности на одного сотрудника благодаря ИИ-агентам: Согласно отчету PwC, с 2022 года в отраслях, активно использующих ИИ (например, технологии и телеком), выручка на одного работника выросла на 27 %, что более чем в три раза превышает рост в секторах, менее готовых к ИИ (8,5 %). Это означает, что внедрение агентных систем не просто оптимизирует отдельные процессы, а кардинально меняет производительность труда, повышая ценность каждого сотрудника.
Быстрая отдача от ИИ-агентов и переформатирование операционных моделей: PwC отмечает, что 79 % компаний уже используют ИИ-агентов, и у двух третей из них (66 %) эти системы демонстрируют измеримый эффект через рост продуктивности. 88 % руководителей планируют увеличить бюджеты на ИИ в ближайшие 12 месяцев именно из-за потенциала “агентного” ИИ, способного действовать автономно и масштабироваться через модульный код. Это указывает на смещение не просто к автоматизации отдельных задач, а к построению новых операционных моделей, где люди и ИИ-агенты работают в одной «команде» через платформы (например, «Agent OS»), а не просто внедряют ИИ для «усовершенствования» старых процессов.
Интеграция агентов в пользовательские устройства как следующий фронтир конкуренции: В интервью WIRED генеральный директор Perplexity Аравинд Шринивас утверждает, что ИИ-агенты станут «убийственным» приложением для всего — от поиска до e-commerce, и что ключ к популярности агентов лежит через их глубокую интеграцию в смартфоны и другие устройства. Партнерство с Motorola, благодаря которому Perplexity будет поставляться на Razr Ultra, иллюстрирует стремление сделать «доступный ИИ» повсеместным. Это заметно меняет представление о взаимодействии с ИИ — от пассивного «вопрос-ответ» к активному “агентному” сценарию, где ИИ может сам бронировать билеты, заказывать еду и решать рутинные задачи по предпочтениям пользователя.
Важность открытых API и взаимодействия с экосистемой приложений: Шринивас подчеркивает, что ключевым ограничением современных ИИ-агентов является отсутствие глубокой интеграции с приложениями (например, невозможность напрямую работать с Uber или DoorDash без дополнительных SDK) wired.com. Только открытые и стандартизированные интерфейсы позволят агентам «тянуть» данные и совершать транзакции полностью на фоне, делая опыт пользователя по-настоящему бесшовным. Без этого большая часть обещанного агентного сценария — «сделай за меня» — остается теоретической, потому что агент не может полноценно взаимодействовать с экосистемой сторонних сервисов.
Необходимость надежности и доверия для ИИ-агента: Perplexity фокусируется на точности и проверяемости ответов, поскольку ошибочные или вводящие в заблуждение агенты несут угрозу не только пользовательскому опыту, но и безопасности данных. Даже если ошибки случаются редко, «отрицательный компаундный эффект» неверных рекомендаций может подорвать доверие и стать опасным. Поэтому главным конкурентным преимуществом агентов станет не просто их функциональность, а то, насколько они прозрачны и способны корректно «объяснить» свои действия.
ИИ-агенты как «корпоративные граждане»: McKinsey предлагает рассматривать ИИ-агентов на уровне структурного элемента организации — подобно тому, как компании управляли бы персоналом, стоит управлять ИИ-агентами. Это означает выделение четкой «заработной платы» в виде полной стоимости владения (IT-системы, обучение моделей, оркестрация), формулирование «должностных обязанностей» (описание задач агента и метрики эффективности), регулярную «оценку производительности» (анализ точности, скорости и удовлетворенности), а также внедрение механизмов доверия и аудита (этические рамки, прослеживаемость решений, защитные «выключатели»). Такой подход переводит ИИ-агентов из «экспериментальных инструментов» в полноценные «сотрудники», чья работа оценивается наравне с людьми.
-
Структурирование «умных операций» (smart ops) с учетом разных типов агентов: McKinsey выделяет четыре категории ИИ-агентов, каждая из которых заточена под определенный вид задач:
Task-level Agents: выполняют строго определенные повторяющиеся задачи от начала до конца (например, обработка возвратов или перенос встреч).
Autonomous Problem-Solver Agents: решают несколько этапов работы, требующих элементарного суждения, но в рамках четко заданных границ (например, проверка прав на подписку и отправка уведомлений).
Model Orchestrator Agents: работают как «менеджеры цифровых процессов», координируя взаимодействие между другими агентами и системами, собирая и обобщая данные в реальном времени.
Domain-Specific Agents: специализированы для ключевых функций бизнеса (например, ИИ-агент для службы поддержки или анализа финансов) и оптимизированы под конкретные цели.
Параллельно McKinsey выделяет новые роли людей в «умных операциях» — Custodians (туда входят те, кто следит за качеством данных и моделей), Judgment Holders (те, кто берут на себя прецедентные решения, требующие «человеческого нюанса»), а также Approvers и Auditors (обрабатывают исключительные случаи и обеспечивают соответствие нормативам). Таким образом, компании выстраивают «гибридную» операционную модель, где люди и ИИ-агенты дополняют друг друга.
ИИ-агенты как источник стратегических инсайтов через «демократизацию» данных: В McKinsey отмечают, что «умные операции» превращают каждый контакт с клиентом и каждую транзакцию в ценную информацию, которую агенты способны анализировать в реальном времени, выявляя системные проблемы или новые тренды раньше, чем об этом «услышит» руководство. Например, в банковской сфере агенты могут обнаруживать неочевидные отклонения в платежных потоках по регионам и предлагать меры до того, как это станет заметно людям. Таким образом роль ИИ-агентов выходит за рамки чистой автоматизации — они становятся «датчиками» для стратегического управления.
Развитие инфраструктуры и культуры: требования к успешному внедрению: Чтобы агентные системы приносили пользу, компании должны модернизировать свою ИТ-архитектуру, внедрить сквозные потоки данных и обеспечить «живую» интеграцию между подразделениями. Помимо технических изменений, McKinsey ставит в приоритет задачи культурного характера: прозрачность коммуникаций, готовность руководства моделировать нужное поведение и обучение сотрудников («AI literacy», системное мышление), чтобы снизить сопротивление и закрепить доверие к «цифровым работникам». Без этого агентная революция рискует остаться «нестабильным экспериментом» вместо нового операционного стандарта.
И в заключении фрагмент интервью с Сэмом Альтманом, в котором он говорит о том, что кривая роста когнитивности моделей останется в том виде в котором мы ее наблюдали последние годы, по крайней мере в течение следующих 5 лет!
А это значит, что все оптимистичные прогнозы имеют еще больше вероятности, чем еще вчера.
Рекомендую вам самим посмотреть этот фрагмент интервью с Сэмом Альтманом на Snowflake Summit 2025
***
Альфред Лао. Новые Инсайты. Айвентор Клуб.