Агенты на базе MCP сегодня умеют многое: искать в вебе, работать с файлами, строить графики, считать и вызывать внешние API. Но одно дело — демонстрация на единичной задаче, другое — устойчивая работа в реалистичной, меняющейся среде, где ответы сервисов отличаются от прогона к прогону, а на выбор доступно сразу несколько десятков инструментов. Большинство имеющихся бенчмарков этого не отражают: они короткие, синтетические, часто без помех и почти всегда с фиксированным правильным ответом, который устаревает. Авторы LiveMCP-101 попытались закрыть этот пробел.

Что такое LiveMCP-101

LiveMCP-101 — это набор из 101 реального запроса, который заставляет агента координировать несколько MCP-инструментов. Домены — веб-поиск, работа с файлами, математика и анализ данных. Есть три уровня сложности: 30 простых, 30 средних и 41 сложный. В среднем задача требует около пяти-шести осмысленных шагов, иногда — десятка и больше.

Схема построения и оценки LiveMCP-101
Схема построения и оценки LiveMCP-101

Чтобы сделать оценку устойчивой к «живым» ответам внешних сервисов, авторы отказались от идеи фиксировать сырой API-выход. Вместо этого для каждой задачи подготовлен эталонный план выполнения. Он уточнялся по траектории эталонного агента, пока не начинал стабильно приводить к правильному результату. Такой план — не скрипт ради скрипта, а последовательность осмысленных действий и параметров, которую можно сопоставить с тем, что делает тестируемая модель.

Распределение длин цепочек инструментов в планах выполнения LiveMCP-101.
Распределение длин цепочек инструментов в планах выполнения LiveMCP-101.

Как это оценивают «вживую»

Каждая задача запускается в двух потоках. Первый — референс: агент строго следует плану и получает эталонный выход. Второй — тест: модели дают только формулировку запроса и большой пул MCP-инструментов (15 серверов и 76–125 инструментов). Оценка идет по нескольким метрикам: доля полностью решённых задач (TSR), средний балл результата (ARS), качество траектории (ATS), а также средние токены и число вызовов инструментов. Судья — LLM, чьи оценки проверяли н а согласованность с людьми: совпадение высокое, особенно по итоговым ответам.

Согласие человека и LLM по коэффициенту каппы Коэна (κ, %) при оценке результата и траектории для шести моделей. Синие столбцы обозначают оценки за результат, розовые — за траекторию.
Согласие человека и LLM по коэффициенту каппы Коэна (κ, %) при оценке результата и траектории для шести моделей. Синие столбцы обозначают оценки за результат, розовые — за траекторию.

Что показали эксперименты

Главное наблюдение простое и важное: даже сильнейшие сегодняшние LLM справляются меньше чем в 60% случаев. Лидер — GPT-5 с TSR 58.42% в среднем по бенчмарку и 39.02% на сложном уровне. Далее — o3 и GPT-5-mini, затем флагманские модели Anthropic. Средний эшелон заметно отстает, а открытые модели — еще сильнее: у лучших из них показатели в районе 20–23% TSR, а у некоторых — единицы процентов.

Качество траектории почти всегда согласуется с качеством ответа: чем осмысленнее и чище путь к решению, тем выше итог. При этом «словоблудие» не спасает: рост потраченных токенов после определенного порога дает у топ-моделей небольшую отдачу. Открытые модели часто тратят больше токенов и больше раз дергают инструменты, но это не конвертируется в надежные ответы. Усиленные рассуждающие цепочки заметно помогают — за счет лучшего планирования и восстановления после ошибок.

Где агенты спотыкаются

Анализ отказов выделяет семь типичных сбоев, которые складываются в три класса:

  • Планирование и оркестрация: игнор требований или раннее завершение; попытка «решить в голове» без нужных инструментов; длинное непродуктивное рассуждение; неверный выбор инструмента.

  • Параметры: синтаксические ошибки (не тот формат или тип), и семантические ошибки (форма правильная, смысл — нет: неверный идентификатор, забытые ограничения).

  • Постобработка: инструмент вернул корректный ответ, но агент его неправильно распарсил.

Доминируют семантические ошибки параметров — у сильных моделей это 16–25% всех неудач, у малых — более 40%. Часто встречается и самоуверенное решение, когда агент игнорирует инструменты и описывает ответ словами.

Тепловая карта классификации ошибок по моделям. Самый левый столбец (Correct) соответствует TSR, а остальные столбцы разбивают ошибки на 7 детализированных подтипов.
Тепловая карта классификации ошибок по моделям. Самый левый столбец (Correct) соответствует TSR, а остальные столбцы разбивают ошибки на 7 детализированных подтипов.

Что меняют настройки

Авторы изучили два рычага. Во-первых, лимит итераций: увеличение примерно до 25 раундов стабильно улучшает успех, дальше — затухание эффекта. Во-вторых, ширина пула инструментов: чем больше серверов, тем чаще слабые и средние модели теряют точность. Топ-модели устойчивее, потому что лучше фильтруют шум и планируют экономнее.

Результаты абляционного исследования: (a) TSR (%) vs. макс. число итераций — рост от ~15 до ~25 раундов, затем плато; (b) относительное изменение TSR относительно 15 раундов — убывающая отдача после ~25; (c) TSR (%) vs. число MCP-серверов — топ-модели в основном стабильны, слабые/средние ухудшаются по мере роста отвлекающих факторов; (d) относительное изменение относительно 6 серверов — большие пулы сильнее влияют на слабые модели, что согласуется с чувствительностью к длинному контексту и шумом выбора инструментов.
Результаты абляционного исследования: (a) TSR (%) vs. макс. число итераций — рост от ~15 до ~25 раундов, затем плато; (b) относительное изменение TSR относительно 15 раундов — убывающая отдача после ~25; (c) TSR (%) vs. число MCP-серверов — топ-модели в основном стабильны, слабые/средние ухудшаются по мере роста отвлекающих факторов; (d) относительное изменение относительно 6 серверов — большие пулы сильнее влияют на слабые модели, что согласуется с чувствительностью к длинному контексту и шумом выбора инструментов.

Почему это важно

LiveMCP-101 приближает оценку агентов к реальности: не «идеальный» офлайн-ответ, а работа с меняющимся миром, в большом пространстве инструментов, под контролем эталонного плана. Такой формат помогает фиксировать не только «правильность», но и качество пути, что критично для практических кейсов. Результаты показывают, что главный резерв — в планировании, надежной селекции инструментов, умении подбирать корректные параметры и аккуратно собирать итог. Отдельная тема — эффективность по токенам: нужен разумный баланс между мышлением, проверками и ранним завершением. Для открытого стека напрашиваются дообучение на схемах MCP и задачах с шумом, а также методы более строгой верификации промежуточных шагов.

? Полная статья

***

Если вам интересна тема ИИ, подписывайтесь на мой Telegram-канал - там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.

Комментарии (0)