Почему ИИ-агенты теряются в море MCP-серверов / forpes.ru

Главная
Почему ИИ-агенты теряются в море MCP-серверов

Почему ИИ-агенты теряются в море MCP-серверов +1

25.10.2025 18:55

andre_dataist 3 1600 Источник

Исследователи из Microsoft предложили новый бенчмарк для агентов, которые решают задачи не через браузер, а напрямую вызывают инструменты по протоколу MCP. Они собрали более 18 тысяч инструментов из Azure, GitLab, RocketChat, Plane и ownCloud, сопроводили каждую задачу правильным набором нужных инструментов и проверили шесть моделей. Вывод получился неоднозначным: если агенту заранее подсказать правильные инструменты, то он будет работать заметно лучше и дешевле браузерных агентов. Если же искать инструменты на лету, то современные модели справляются на базовом уровне, но терпят фиаско в сложных корпоративных сценариях, где нужно комбинировать тысячи функций и продумывать долгие планы.

Почему это важно

С помощью MCP-серверов ИИ-агенты могут создавать задачи в Jira, мержить ветки в GitLab или работать с Azure без использования браузера. Это быстрее, дешевле и прозрачнее, но и опаснее: агентам приходится ориентироваться в тысячах похожих описаний инструментов, где один неверный выбор способен уронить всю инфраструктуру.

Как устроена среда

Авторы взяли симуляцию компании по разработке ПО TheAgentCompany и подключили к ней настоящие MCP-серверы для пяти платформ. Главное, что они сделали: полностью перевели REST API в формат MCP. В итоге только у Azure получилось 16 800 инструментов, у GitLab - 1085, у RocketChat - 520. К каждой задаче прилагаются проверочные скрипты и короткий список «правильных» инструментов, без которых задачу не закрыть. Так измеряют, насколько высоко способен забраться агент.

Azure выделили отдельно. Для него придумали 10 лёгких операций - например, повесить тег на ресурс - и 7 сложных сценариев вроде «восстановить упавшее приложение». В таких сценариях нужно одновременно править код, настройки сервисов, секреты и политику доступа. Именно здесь модели чаще всего проваливаются: много связанных между собой сервисов, нужно действовать строго по порядку и разбираться в зависимостях.

MCP-серверы предоставляют полный функционал каждого сервиса через инструменты.

Агент, который сам ищет инструменты

Нельзя выдать модели сразу 18 тысяч описаний инструментов. Поэтому авторы собрали MCPAgent: внутри него поиск инструментов через эмбеддинги - по запросу он выдаёт top-k подходящих, и делает отдельный вызов нужного инструмента. Остались и привычные действия: писать код на питоне и править файлы. Поиск сразу встроен в цикл размышления: агент ставит задачу, находит инструмент, запускает, смотрит, что вышло, и при необходимости меняет запрос.

Что получилось на практике

Если напрямую передать агенту все инструменты, которые ему нужны, то он лучше браузерных коллег на 13,79 % по качеству и экономит 2,29 доллара на каждой задаче.
Если выбор инструментов осуществляется на лету, то прибавка не такая уж и большая: +5,39 % и менее 2,06 доллара экономии. У GPT-5 разница между случайным и правильным набором всего 2,13%. Меньшие модели теряют часть потенциала, а GPT-5-mini в ряде сценариев показывает себя хуже браузерных агентов.
В Azure на простых задачах GPT-5, Sonnet-4, Opus-4.1 справляются с 9 из 10 заданий. Но на сложных задачах их судьба плачевна: лидеры проходят 1 из 7, а некоторые вообще не могут справиться ни с одной задачей. Агенты чаще всего зацикливаются на IAM, не проверяют выполнились ли изменения, а также не проверяют другие сценарии.

Немного цифр про поведение эксперимента

В корпоративных задачах ИИ часто выбирает 15–26 инструментов и делает 7–12 вызовов, до трети вызовов из которых могут провалиться. На сложных задачах в Azure, например, у GPT‑5, запросы к поиску длиннее и содержат больше информации, но доля неудачных вызовов достигает 25%. Это говорит о двух проблемах: не хватает устойчивого ретривала по неоднозначным описаниям и системного планирования с проверкой промежуточных состояний.

Правильный сценарий решения для одной из сложных задач в Azure. Агент должен использовать функцию поиска инструментов, чтобы обнаружить каждый из инструментов, применяемых в этом сценарии.

Зачем это нам

Исследование подчеркивает, что прямой доступ к инструментам опасен. В одном эксперименте агент даже удалил виртуальную машину. Нужны дополнительные человеческие проверки. Ключевым узким горлышком является масштабная навигация по тысячам инструментам, где описания несовершенны, а решения имеют несколько правильных сценариев использования.

MCP — удобный интерфейс для работы с инструментами. Но для реальных корпоративных задач агентам не хватает двух вещей: более точного поиска инструментов в огромном пространстве вариантов и надежного плана действий с проверками. Следующий шаг — умные ретриверы, учёт зависимостей между инструментами, память о частичных состояниях и сценарии проверки по типу «работает ли система, а не только вернулись ли пустые ответы». Вот тогда ИИ-агенты приблизятся к надёжной эксплуатации в реальных компаниях.

? Полная статья

? Код

***

Если вам интересна тема ИИ, подписывайтесь на мой Telegram-канал — там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.

Комментарии (3)

ElzaAI
25.10.2025 20:08
#29015096
Интересно, что MCP постепенно превращается в некий «системный API» для нейросетей - слой, где агенту уже не нужно эмулировать действия через браузер, а можно напрямую работать с инфраструктурой.
Это и плюс, и минус одновременно: скорость и прозрачность растут, но требования к планированию и пониманию зависимостей становятся намного выше

Ну то-есть, по сути LLM-агенты уже умеют выполнять отдельные операции, но всё ещё слабо понимают контекст системы и причинно-следственные связи между шагами. По сути, им не хватает чего-то вроде «операционного интеллекта» — способности строить и проверять сложные планы, а не просто следовать цепочке вызовов.

Если в будущем появятся надёжные ретриверы по описаниям инструментов и слой валидации промежуточных состояний, то MCP-агенты смогут реально автоматизировать DevOps-рутинy. Пока же — это отличный стресс-тест на зрелость корпоративных ИИ-систем.

akod67
25.10.2025 20:08
#29015254
А как бы с этой задачей справился бы нетренированный generic человек с улицы?

foxb
25.10.2025 20:08
#29015370
Может быть, потому что LLM это не полноценный ИИ, и если в наборе данных не было такой операции, он о ней не знает.