
Когда мы просим большую языковую модель (LLM) решить сложную задачу, один красивый промт уже не спасает. В реальности это последовательность действий: надо искать, читать, писать код, проверять, исправлять. Агент должен планировать шаги, пользоваться инструментами и помнить предыдущий опыт. Но сегодня многие агенты либо зашиты жёсткими сценариями, которые плохо подстраиваются под новые условия, либо требуют дорогого дообучения с переобучением весов. Можно ли улучшать агента постоянно и дёшево — не трогая веса базовой модели?
AgentFly отвечает «да» и делает ставку на память. Идея проста: агент хранит свои прошлые попытки — удачные и неудачные — как кейсы, а затем при встрече с новой задачей извлекает похожие и ориентируется на них. Это похоже на кейс-ориентированное рассуждение: мы решаем новое, вспоминая старое и знакомое. Формально авторы описывают всё как марковский процесс принятия решений с памятью (M-MDP), где «политика извлечения кейсов» обучается онлайн. Базовую LLM никто не дообучает: растёт только память и лёгкая надстройка, которая выбирает нужные случаи.

Как это устроено внутри
Архитектура — «планировщик–исполнитель». Планировщик (LLM) смотрит на задачу, подбирает K релевантных случаев из общего пула ранее решенных задач и пишет конкретный план: какие подзадачи делать и какими инструментами. Исполнитель (другая LLM) действует: ищет в вебе, обходит страницы, пишет и запускает код, читает документы и картинки через протокол MCP, который объединяет разные внешние сервисы. По завершении успешные (и полезные) шаги пополняют банк случаев — так растёт память и шансы на следующую победу.

Почему это работает
Главная тонкость — не просто «вспомнить похожее», а выбрать предыдущий опыт правильно. Для этого используется мягкое Q‑обучение: агент учится присваивать кейсам оценку полезности в текущем состоянии. Вариантов два. Непараметрический — берем ближайшие по смыслу кейсы (например, по косинусному сходству эмбеддингов). Параметрический — обучаем лёгкую функцию Q(s, c), которая предсказывает, поможет ли кейс c в состоянии s. В обоих режимах веса базовой LLM остаются замороженными, а адаптация происходит через чтение и перезапись памяти.
Что показали испытания
На наборах, где важны многошаговые планы и инструменты, AgentFly показывает сильные результаты. На GAIA валидации — 87.88% Pass@3 (топ-1), на тесте — 79.40%. В DeepResearcher средний F1 — 66.6%, Partial Match — 80.4%, что превосходит даже обучаемые системы. На SimpleQA точность 95.0% — новый ориентир для веб-агентов. В Humanity’s Last Exam (HLE) AgentFly набирает 24.4% PM и выходит на второе место, почти догоняя закрытые модели следующего поколения.


Что меняется с ростом памяти
Интересно, что пользу даёт небольшая, но качественная память: рост K (число извлекаемых кейс) улучшает качество до примерно K=4, дальше эффект насыщается. На задачах вне распределения (OOD) память кейсов добавляет 4.7–9.6 процентных пункта — значит, аналогии действительно помогают переносить стратегии на новые домены. При этом в самых сложных задачах узким местом становится не длина ответа, а объём входного контекста: планы, протоколы инструментов, промежуточные рассуждения.


Практические наблюдения
Быстрый планировщик чаще выигрывает. В экспериментах скоростной GPT‑4.1 как планировщик стабильно обгоняет более размышляющие модели: короткий, структурированный план лучше, чем длинная нить рассуждений без чёткой декомпозиции.
Инструменты не панацея. Там, где у модели мало фоновой информации, инструменты и планирование вместе дают наибольший эффект; но в открытом вебе слишком много внешней информации без памяти способно сбивать с толку. АгентFly решает это за счёт памяти и отбора кейсов.
Кураторство важно. Авторы фильтруют и записывают в банк кейсов прежде всего финальные шаги, а не весь шумный трейс. Это экономит токены и повышает пользу извлечений.
Куда это ведёт
AgentFly показывает, что адаптивные агенты можно строить без тяжёлого дообучения. Память делает обучение непрерывным: агент бережно накапливает опыт и мгновенно использует его в новых задачах. Это путь к более устойчивым и доступным системам — от корпоративного поиска до научных помощников, где переподготовка модели невозможна по цене, задержке или политике безопасности.
Остаются вопросы для следующего шага: как автоматизировать «гигиену памяти» (сжатие, дедупликация, приватность), как обмениваться кейсами между агентами в мультиагентной системе, как учесть причинность при выборе кейсов, а не только семантическую близость. Но главное уже понятно: связав планирование, инструменты и живую память, можно получить агента, который учится как человек — не переписывая мозг, а умно пополняя записную книжку.
***
Если вам интересна тема ИИ, подписывайтесь на мой Telegram-канал - там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.