Когда мы просим большую языковую модель (LLM) решить сложную задачу, один красивый промт уже не спасает. В реальности это последовательность действий: надо искать, читать, писать код, проверять, исправлять. Агент должен планировать шаги, пользоваться инструментами и помнить предыдущий опыт. Но сегодня многие агенты либо зашиты жёсткими сценариями, которые плохо подстраиваются под новые условия, либо требуют дорогого дообучения с переобучением весов. Можно ли улучшать агента постоянно и дёшево — не трогая веса базовой модели?

AgentFly отвечает «да» и делает ставку на память. Идея проста: агент хранит свои прошлые попытки — удачные и неудачные — как кейсы, а затем при встрече с новой задачей извлекает похожие и ориентируется на них. Это похоже на кейс-ориентированное рассуждение: мы решаем новое, вспоминая старое и знакомое. Формально авторы описывают всё как марковский процесс принятия решений с памятью (M-MDP), где «политика извлечения кейсов» обучается онлайн. Базовую LLM никто не дообучает: растёт только память и лёгкая надстройка, которая выбирает нужные случаи.

Графическая модель марковского процесса принятия решений, основанного на памяти.
Графическая модель марковского процесса принятия решений, основанного на памяти.

Как это устроено внутри

Архитектура — «планировщик–исполнитель». Планировщик (LLM) смотрит на задачу, подбирает K релевантных случаев из общего пула ранее решенных задач и пишет конкретный план: какие подзадачи делать и какими инструментами. Исполнитель (другая LLM) действует: ищет в вебе, обходит страницы, пишет и запускает код, читает документы и картинки через протокол MCP, который объединяет разные внешние сервисы. По завершении успешные (и полезные) шаги пополняют банк случаев — так растёт память и шансы на следующую победу.

Архитектура AgentFly с параметрической памятью: фреймворк «планировщик–исполнитель», чередующий планирование на основе случаев (этап 1) и выполнение с инструментами (этап 2).
Архитектура AgentFly с параметрической памятью: фреймворк «планировщик–исполнитель», чередующий планирование на основе случаев (этап 1) и выполнение с инструментами (этап 2).

Почему это работает

Главная тонкость — не просто «вспомнить похожее», а выбрать предыдущий опыт правильно. Для этого используется мягкое Q‑обучение: агент учится присваивать кейсам оценку полезности в текущем состоянии. Вариантов два. Непараметрический — берем ближайшие по смыслу кейсы (например, по косинусному сходству эмбеддингов). Параметрический — обучаем лёгкую функцию Q(s, c), которая предсказывает, поможет ли кейс c в состоянии s. В обоих режимах веса базовой LLM остаются замороженными, а адаптация происходит через чтение и перезапись памяти.

Что показали испытания

На наборах, где важны многошаговые планы и инструменты, AgentFly показывает сильные результаты. На GAIA валидации — 87.88% Pass@3 (топ-1), на тесте — 79.40%. В DeepResearcher средний F1 — 66.6%, Partial Match — 80.4%, что превосходит даже обучаемые системы. На SimpleQA точность 95.0% — новый ориентир для веб-агентов. В Humanity’s Last Exam (HLE) AgentFly набирает 24.4% PM и выходит на второе место, почти догоняя закрытые модели следующего поколения.

Сравнение AgentFly с базовыми методами на валидационном и тестовом наборах GAIA.
Сравнение AgentFly с базовыми методами на валидационном и тестовом наборах GAIA.
Производительность на SimpleQA и HLE. Результаты SimpleQA взяты из WebSailor, HLE — с официального сайта.
Производительность на SimpleQA и HLE. Результаты SimpleQA взяты из WebSailor, HLE — с официального сайта.

Что меняется с ростом памяти

Интересно, что пользу даёт небольшая, но качественная память: рост K (число извлекаемых кейс) улучшает качество до примерно K=4, дальше эффект насыщается. На задачах вне распределения (OOD) память кейсов добавляет 4.7–9.6 процентных пункта — значит, аналогии действительно помогают переносить стратегии на новые домены. При этом в самых сложных задачах узким местом становится не длина ответа, а объём входного контекста: планы, протоколы инструментов, промежуточные рассуждения.

Улучшение точности AgentFly на наборах данных вне распределения (OOD).
Улучшение точности AgentFly на наборах данных вне распределения (OOD).
Затраты токенов на наборе GAIA.
Затраты токенов на наборе GAIA.

Практические наблюдения

  • Быстрый планировщик чаще выигрывает. В экспериментах скоростной GPT‑4.1 как планировщик стабильно обгоняет более размышляющие модели: короткий, структурированный план лучше, чем длинная нить рассуждений без чёткой декомпозиции.

  • Инструменты не панацея. Там, где у модели мало фоновой информации, инструменты и планирование вместе дают наибольший эффект; но в открытом вебе слишком много внешней информации без памяти способно сбивать с толку. АгентFly решает это за счёт памяти и отбора кейсов.

  • Кураторство важно. Авторы фильтруют и записывают в банк кейсов прежде всего финальные шаги, а не весь шумный трейс. Это экономит токены и повышает пользу извлечений.

Куда это ведёт

AgentFly показывает, что адаптивные агенты можно строить без тяжёлого дообучения. Память делает обучение непрерывным: агент бережно накапливает опыт и мгновенно использует его в новых задачах. Это путь к более устойчивым и доступным системам — от корпоративного поиска до научных помощников, где переподготовка модели невозможна по цене, задержке или политике безопасности.

Остаются вопросы для следующего шага: как автоматизировать «гигиену памяти» (сжатие, дедупликация, приватность), как обмениваться кейсами между агентами в мультиагентной системе, как учесть причинность при выборе кейсов, а не только семантическую близость. Но главное уже понятно: связав планирование, инструменты и живую память, можно получить агента, который учится как человек — не переписывая мозг, а умно пополняя записную книжку.

? Оригинальная статья

? Код

***

Если вам интересна тема ИИ, подписывайтесь на мой Telegram-канал - там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.

Комментарии (0)