Мы научили ИИ-агента думать как программист, и теперь мы не знаем, что у него на уме / forpes.ru

Главная
Мы научили ИИ-агента думать как программист, и теперь мы не знаем, что у него на уме

Мы научили ИИ-агента думать как программист, и теперь мы не знаем, что у него на уме +3

19.11.2025 05:30

cognitronn 0 889 Источник

Помните ту сцену в «Матрице», где в мозг Нео мгновенно загружают навыки джиу-джитсу?

Как только загрузка завершается, он начинает драться так, будто тренировался десять лет. Именно так я и представляла себе работу ИИ-агентов с инструментами. Дайте им доступ ко всему, и они просто будут знать, как всем этим пользоваться.

Но теперь, немного разобравшись в том, как всё это устроено, я поняла, что мои наивные представления были в корне неверны. Конечно, тогда я была ребёнком :)

Я одержима ИИ-агентами всего около года. Я не разработчик, а просто человек, которого искренне завораживают эти технологии, и я обожаю копаться в темах, о которых мало что знаю.

Чем больше я читала, тем сильнее хотела понять, как эти штуки работают «под капотом». И одно могу сказать наверняка: реальность оказалась куда причудливее и интереснее той научно-фантастической версии, что жила у меня в голове.

Это как смотреть на взлёт самолёта. Из иллюминатора всё кажется плавным и лёгким, но за этой грацией скрывается целый тандем процессов - физика, гидравлика, датчики и пилоты, вносящие постоянные микрокорректировки. То, что на поверхности выглядит простым, часто скрывает под собой слои сложности.

Использование Comet от Perplexity, например, может показаться элементарным. Вы просите его сделать что-то простое, вроде «выбери важные комментарии с этой страницы», и результат просто появляется. Но под капотом этот единственный запрос может активировать целую экосистему ИИ-агентов, работающих последовательно.

Один агент читает страницу.
Другой находит разделы с комментариями.
Третий отфильтровывает шум.
Четвёртый группирует схожие точки зрения.
Пятый анализирует тональность.
Шестой собирает итоговую сводку.

Каждый агент передаёт свою работу следующему, создавая многоуровневый процесс, совершенно невидимый для пользователя. На поверхности - безупречный опыт, но за ним стоит распределённая цепь вычислений и координации.

Для браузера это ещё управляемо, но перенесите этих агентов в корпоративную среду, где каждый шаг требует вызова инструмента через протокол MCP, и скрытая сложность начинает расти в геометрической прогрессии.

Причина такого быстрого усложнения кроется в стоимости каждого отдельного вызова MCP. Каждый из них:

потребляет вычислительные ресурсы

запускает внутренние процессы

создаёт данные, которые модель должна интерпретировать

может зависеть от множества других систем

По отдельности это мелочи, но в многоагентных системах (где вывод одного агента становится вводом для другого) эти вызовы быстро накапливаются, приводя к той самой «скрытой сложности».

Эта статья, «Выполнение кода с MCP: Создание более эффективных агентов», помогла мне связать воедино сложность агентов, накладные расходы на вызов инструментов и то, как MCP может оптимизировать весь этот процесс.

Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

От экспериментов с Gmail до голосовых агентов

Год назад я едва понимала, что такое ИИ-агент. Конечно, я знала о ChatGPT и подобных вещах, но не об агентах.

Поэтому, когда я узнала об этих новых системах, я начала исследовать возможные сценарии их использования.

Я начала экспериментировать с Gmail: просила агента проверить мой календарь и прислать сводку или обобщить длинную переписку.

И это работало хорошо, почти всегда.

В процессе я наткнулась на голосовых ИИ-агентов и сразу поняла, что, в отличие от текстовых, эти системы живут или умирают из-за задержки (latency). Беглый взгляд на данные о производительности всё прояснил:

Платформы вроде Retell AI отвечают за 620 мс, в то время как другие, такие как Google Dialogflow CX и Twilio, часто превышают 900–1000 мс, что полностью меняет ощущение «человечности» взаимодействия.

И внезапно вся эта скрытая сложность стала очевидной. В отличие от текстовых агентов, голосовые системы работают в жёстких рамках задержки до 800 мс, и сравнительные данные ясно показали, какие платформы могут удержаться в этом пороге, а какие задыхаются под тяжестью собственных внутренних вызовов.

Забавно то, что я сталкивалась с этим задолго до того, как поняла суть. Та крошечная пауза, во время которой казалось, что агент слишком усердно думает, и была задержкой. У меня просто ещё не было для этого нужных слов. Я предполагала, что ИИ просто нужно время подумать.

Лишь когда я начала глубже копать, я осознала, что задержка была не мыслью, а накладными расходами. И всё наконец встало на свои места, когда я наткнулась на Model Context Protocol (MCP).

MCP решил проблему подключения

Концепция Model Context Protocol появилась только в прошлом году. До ноября 2024 года, чтобы заставить ИИ-агента что-то сделать, требовалось с нуля создавать кастомную интеграцию - уникальный код, написанный специально для одной-единственной задачи.

Это превратилось в колоссальную утечку инженерных часов. Разработчики тратили время на создание этих одноразовых связей вместо того, чтобы делать агентов умнее.

Затем, наконец, был запущен Model Context Protocol. Это как универсальный адаптер, который берёт все эти разрозненные инструменты и источники данных и делает их доступными через единый, последовательный интерфейс.

Сразу после запуска появились тысячи таких MCP- серверов. Разработчики начали создавать агентов, которые могли получать доступ к сотням, а иногда и тысячам различных инструментов.

По сути, это решило проблему подключения!

За исключением того, что - и вот тут мой научно-фантастический мозг пришёл в восторг - мы создали новую проблему, прямиком из антиутопического романа.

Парадокс Вавилонской библиотеки: почему больше возможностей делает ИИ менее эффективным

У Хорхе Луиса Борхеса есть рассказ «Вавилонская библиотека» о бесконечной библиотеке, состоящей из огромного числа смежных шестиугольных залов, содержащих все книги, которые когда-либо могли существовать.

Но ирония в том, что библиотекари сходят с ума, потому что не могут найти ничего полезного. Они проводят всю свою жизнь, блуждая по шестиугольным галереям, утопая в бесконечной информации.

Именно это мы и сделали с ИИ-агентами.

Позвольте мне объяснить, как я пришла к этому выводу. У ИИ-моделей есть «контекстное окно» - это как рабочая память, объём информации, о которой вы можете активно думать в один момент. Вы не можете одновременно думать обо всём, что когда-либо учили, - вы бы сошли с ума. С ИИ-моделями то же самое.

Поэтому, когда мы подключаем агентов к тысячам инструментов через MCP, мы, по сути, заставляем их загружать в своё контекстное окно инструкции ко ВСЕМ этим инструментам, прежде чем они вообще смогут начать работать над запросом.

Проще говоря, когда у ИИ-ассистента есть доступ ко многим инструментам, таким как Диск, Почта, Slack, CRM и т. д., агент часто:

загружает схемы всех инструментов

рассматривает все их возможности

затем решает, какой из них соответствует запросу пользователя

Например, когда агенты автоматизации, такие как Zapier AI, Make AI, Notion AI Agents, выполняют что-то вроде «Отправь этот файл в Dropbox»:

они загружают все возможные действия для Dropbox

все действия для всех остальных подключённых сервисов

затем выбирают одно

Когда я начала наблюдать за этим процессом, многое встало на свои места. Та странная задержка, которую я замечала, происходила потому, что агент буквально читал тысячи страниц документации, прежде чем мог даже начать думать над моим вопросом.

Скрытая цена токенов

Позвольте рассказать о моменте, который действительно заставил меня понять, насколько абсурдной становилась ситуация.

Я читала о тестовом случае, где агента попросили:

«Скачай стенограмму моей встречи с Google Диска и прикрепи её к лиду в Salesforce».

Для двухчасовой встречи по продажам это может означать обработку дополнительных 50 000 токенов. А документы большего размера могут и вовсе превысить лимиты контекстного окна, сломав весь процесс.

«Токен» - это, по сути, единица измерения текста для ИИ-моделей, примерно 3/4 слова.

Чтобы выполнить эту задачу, агент сжёг 150 000 токенов. Если 50 000 токенов - это сама стенограмма, то куда делись остальные 100 000?

Что ж, десятки тысяч ушли на загрузку всех тех определений инструментов, о которых я упоминала. Кроме того, даже сама стенограмма должна была пройти через контекстное окно агента дважды. Один раз при скачивании с Google Диска и снова при загрузке в Salesforce.

Агенту пришлось прочитать всю стенограмму, удержать её в своей памяти, а затем прочитать снова, чтобы скопировать.

Это не просто звучит неэффективно, это ещё и повышает вероятность ошибок. Иногда документы были настолько большими, что полностью превышали контекстное окно, и процесс просто падал. Агенты делали ошибки при копировании данных, потому что жонглировали слишком большим объёмом информации. Цифры переписывались неверно, абзацы терялись.

Агенты буквально тонули в информации.

Как «режим кода» меняет правила игры

В том же посте на Anthropic говорится о выполнении кода с помощью MCP.

Мы потратили столько времени, пытаясь заставить агентов напрямую использовать инструменты, что упустили их настоящую силу. Эти модели на самом деле отлично умеют писать код: Python, JavaScript, всё, что нам нужно.

Команда дала этому подходу название «Режим кода». И Cloudflare экспериментирует с похожими идеями у себя.

Можно сказать, что «режим кода» поднял ИИ над его первоначальными ограничениями, позволив ему демонстрировать подлинное решение проблем, а не простое выполнение команд.

Подход элегантен, и даже как нетехнический специалист я могу оценить его гениальность. По словам команды Anthropic, они представляют инструменты как файловую систему, вроде папок и файлов на вашем компьютере:

Агент может просматривать эти папки так же, как вы просматриваете свои собственные файлы.

Он может вывести список содержимого в директории servers.
Открыть папку google-drive.
Прочитать только те файлы инструментов, которые ему нужны (эти .ts файлы).
Понять их интерфейсы, не загружая всё в память.

Это то, что они называют «прогрессивным раскрытием». Вы загружаете только то, что нужно, и только тогда, когда это нужно. Это как иметь карточный каталог в той бесконечной библиотеке, вместо того чтобы пытаться запомнить каждую книгу.

Команда Anthropic даже упомянула, что они исследуют другой подход: утилиту search_tools, которая позволяет агентам искать определения нужных инструментов по запросу, с разным уровнем детализации (только название, описание или полное определение), чтобы сэкономить ещё больше места в контексте.

Когда «режим кода» сократил 150 000 токенов до 2 000

Та катастрофа со стенограммой встречи, которая сожгла 150 000 токенов, - это пример, который инженерная команда Anthropic использовала в своём блоге, и именно он заставил меня по-настоящему осознать масштаб этого сдвига.

Когда они перевели задачу «Google Диск в Salesforce» на выполнение кода, позволив агенту написать код для выполнения задачи вместо прямого вызова инструментов, использование токенов упало со 150 000 до 2 000.

Со 150 000 до 2 000.

Это сокращение токенов на 98,7%, что напрямую означает сокращение времени и затрат на 98,7%.

Это как обнаружить, что ваш компьютер год работал в режиме энергосбережения, и его отключение заставляет всё работать в десять раз быстрее.

Ещё один интересный момент: когда агенты пишут код, они могут выполнять всю обработку данных в фоновом режиме, в так называемой «среде выполнения», и всему этому не нужно проходить через их ограниченное контекстное окно.

Команда Anthropic объясняет это так:

Вместо того чтобы агенту приходилось обрабатывать всю эту стенограмму в 50 000 токенов дважды (один раз для чтения, один раз для записи), код просто напрямую обрабатывает передачу данных. Модель пишет скрипт, среда выполнения его запускает, и данные перетекают из Google Диска в Salesforce, никогда не попадая в контекст модели.

Проще говоря, теперь вместо того, чтобы агенту приходилось считывать все 10 000 строк в свой контекст, он может написать короткий скрипт для фильтрации. Фильтрация происходит в среде выполнения, и только пять релевантных строк попадают в рабочую память модели. Остальные 9 995 её никогда не касаются.

Это разница между просьбой запомнить целую базу данных и просто дать возможность писать поисковые запросы. Первое невозможно, второе - элегантно.

ИИ-агенты создают свои собственные наборы инструментов

Чем больше я читала инженерный пост Anthropic, тем больше понимала, что этот подход открыл возможности, о которых никто даже не помышлял. Это как печатный станок, который изобрели для печати Библий, но случайно создали основу для современной демократии и науки. Маленькое изменение, огромные последствия.

Команда особо отмечает, что это сокращает задержку «до первого токена» - ту раздражающую паузу, пока ИИ думает. Поскольку среда выполнения кода обрабатывает всю условную логику, агенту не нужно ждать, пока модель обработает каждое решение.

И при этом в процессе уделено достаточно внимания конфиденциальности. Поскольку агент пишет код, который выполняется в безопасной среде, промежуточные данные вообще не должны проходить через мозг агента.

По умолчанию промежуточные результаты остаются в среде выполнения. Агент видит только то, что явно выводится в лог или возвращается. Таким образом, информация может перетекать из Google Таблиц в Salesforce, а ИИ-модель никогда не увидит сами данные. Они объясняют это так:

«Токенизированные данные затем растокенизируются через поиск при передаче в другой вызов инструмента MCP, что позволяет реальным данным перетекать из одной системы (например, Google Таблиц) в другую (например, Salesforce), никогда не проходя через модель».

С доступом к файловой системе агенты могут сохранять свою работу - не просто логи или воспоминания, а реальный код. Они могут записывать промежуточные результаты в файлы (например, сохранять результаты запроса в CSV).

Anthropic называет это «Навыками» (Skills) - папки с многоразовыми инструкциями, скриптами и ресурсами. Агент может добавить файл SKILL.md, который создаёт структурированный навык, на который модель сможет ссылаться позже. Если он разобрался, как синхронизировать события календаря с системой управления проектами, он может сохранить это решение и использовать его снова. Команда пишет:

«позволяя агенту со временем создавать набор более высокоуровневых возможностей».

Мы наблюдаем, как ИИ-агенты создают свои собственные наборы инструментов. Они не просто выполняют задачи, они развивают экспертизу, которая сохраняется между сессиями. Это уже совершенно другой уровень!

Неопределённость, которая приходит с автономными ИИ-агентами

Как я уже сказала, я не разработчик, но даже я вижу здесь потенциальные проблемы. И, к их чести, команда Anthropic не приукрашивает ситуацию в своём посте.

Они прямо заявляют:

«Хотя выполнение кода предлагает значительные преимущества, оно вносит и сложность».

Вы позволяете ИИ писать и запускать код в ваших системах. Это требует того, что они называют «безопасной средой выполнения» с надлежащей песочницей, ограничениями ресурсов и мониторингом. Выигрыш в эффективности реален (те самые 98,7%!), но так же реальны и то, что они описывают как «операционные накладные расходы и соображения безопасности».

Команда признаёт, что это «требования к инфраструктуре», которые «необходимо взвешивать с преимуществами снижения затрат на токены, меньшей задержки и улучшенной композиции инструментов».

Я всё время думаю о Трёх законах робототехники Азимова. Они звучат идеально, пока не начинаешь продумывать крайние случаи и не понимаешь, что они полны парадоксов. С песочницами безопасности примерно то же самое. Они должны быть достаточно жёсткими, чтобы предотвратить проблемы, но достаточно гибкими, чтобы быть полезными.

И есть ещё один вопрос, на который пост Anthropic не даёт полного ответа (вероятно, потому что пока никто не может):

Что произойдёт, когда агенты смогут писать код, сохранять решения и со временем развивать свою работу?

Куда ведёт эта траектория?

Создаём ли мы цифровых мастеров, которые действительно становятся лучше в своей работе?

Или мы строим всё более сложные чёрные ящики, которые становится труднее понимать и контролировать?

В посте упоминается, что этот подход «применяет устоявшиеся шаблоны программной инженерии, такие как управление контекстом, композиция инструментов и сохранение состояния, к контексту ИИ-агентов». Это звучит обнадёживающе, пока не вспомнишь, что даже обычное программное обеспечение трудно аудировать и отлаживать, а теперь мы заставляем ИИ писать это ПО.

У меня нет ответов. У команды Anthropic, похоже, тоже нет всех ответов. Но, по крайней мере, они честно говорят о компромиссах.

Мы прошли путь от Вавилонской библиотеки к чему-то больше похожему на мастерскую. Все инструменты всё ещё на месте, но теперь агенты знают, как найти то, что им нужно, и правильно это использовать.

Это звучит гораздо интереснее, чем когда-либо была бесконечная библиотека. В то же время это сложнее и, вероятно, опаснее способами, которые мы ещё не осознали.

Но это и более реально. Более способно. Больше похоже на наблюдение за тем, как что-то действительно учится и адаптируется, а не просто выполняет запрограммированные ответы.

Год назад я думала, что ИИ-агенты - это, по сути, навороченные чат-боты, которые умеют нажимать на кнопки. Теперь я наблюдаю, как они создают навыки и решают проблемы способами, которые заставляют меня переосмыслить, что вообще означает искусственный интеллект.

Мы видим, как эти системы становятся умнее и адаптивнее, но главная задача впереди - убедиться, что их рост остаётся согласованным с людьми, которые их используют.

А теперь ваша очередь

Что вы думаете об этом сдвиге?

Верите ли вы, что обучение ИИ-агентов программированию - это революция, которая сделает их по-настоящему умными? Или это путь к созданию неконтролируемых чёрных ящиков, которые принесут больше проблем, чем пользы?

Поделитесь своими мыслями в комментариях!