Как дообучать LLM на лету с помощью памяти вместо файнтюнинга / forpes.ru

Главная
Как дообучать LLM на лету с помощью памяти вместо файнтюнинга

Как дообучать LLM на лету с помощью памяти вместо файнтюнинга +9

26.08.2025 10:03

andre_dataist 2 5200 Источник

Когда мы просим большую языковую модель (LLM) решить сложную задачу, один красивый промт уже не спасает. В реальности это последовательность действий: надо искать, читать, писать код, проверять, исправлять. Агент должен планировать шаги, пользоваться инструментами и помнить предыдущий опыт. Но сегодня многие агенты либо зашиты жёсткими сценариями, которые плохо подстраиваются под новые условия, либо требуют дорогого дообучения с переобучением весов. Можно ли улучшать агента постоянно и дёшево — не трогая веса базовой модели?

AgentFly отвечает «да» и делает ставку на память. Идея проста: агент хранит свои прошлые попытки — удачные и неудачные — как кейсы, а затем при встрече с новой задачей извлекает похожие и ориентируется на них. Это похоже на кейс-ориентированное рассуждение: мы решаем новое, вспоминая старое и знакомое. Формально авторы описывают всё как марковский процесс принятия решений с памятью (M-MDP), где «политика извлечения кейсов» обучается онлайн. Базовую LLM никто не дообучает: растёт только память и лёгкая надстройка, которая выбирает нужные случаи.

Графическая модель марковского процесса принятия решений, основанного на памяти.

Как это устроено внутри

Архитектура — «планировщик–исполнитель». Планировщик (LLM) смотрит на задачу, подбирает K релевантных случаев из общего пула ранее решенных задач и пишет конкретный план: какие подзадачи делать и какими инструментами. Исполнитель (другая LLM) действует: ищет в вебе, обходит страницы, пишет и запускает код, читает документы и картинки через протокол MCP, который объединяет разные внешние сервисы. По завершении успешные (и полезные) шаги пополняют банк случаев — так растёт память и шансы на следующую победу.

Архитектура AgentFly с параметрической памятью: фреймворк «планировщик–исполнитель», чередующий планирование на основе случаев (этап 1) и выполнение с инструментами (этап 2).

Почему это работает

Главная тонкость — не просто «вспомнить похожее», а выбрать предыдущий опыт правильно. Для этого используется мягкое Q‑обучение: агент учится присваивать кейсам оценку полезности в текущем состоянии. Вариантов два. Непараметрический — берем ближайшие по смыслу кейсы (например, по косинусному сходству эмбеддингов). Параметрический — обучаем лёгкую функцию Q(s, c), которая предсказывает, поможет ли кейс c в состоянии s. В обоих режимах веса базовой LLM остаются замороженными, а адаптация происходит через чтение и перезапись памяти.

Что показали испытания

На наборах, где важны многошаговые планы и инструменты, AgentFly показывает сильные результаты. На GAIA валидации — 87.88% Pass@3 (топ-1), на тесте — 79.40%. В DeepResearcher средний F1 — 66.6%, Partial Match — 80.4%, что превосходит даже обучаемые системы. На SimpleQA точность 95.0% — новый ориентир для веб-агентов. В Humanity’s Last Exam (HLE) AgentFly набирает 24.4% PM и выходит на второе место, почти догоняя закрытые модели следующего поколения.

Сравнение AgentFly с базовыми методами на валидационном и тестовом наборах GAIA.

Производительность на SimpleQA и HLE. Результаты SimpleQA взяты из WebSailor, HLE — с официального сайта.

Что меняется с ростом памяти

Интересно, что пользу даёт небольшая, но качественная память: рост K (число извлекаемых кейс) улучшает качество до примерно K=4, дальше эффект насыщается. На задачах вне распределения (OOD) память кейсов добавляет 4.7–9.6 процентных пункта — значит, аналогии действительно помогают переносить стратегии на новые домены. При этом в самых сложных задачах узким местом становится не длина ответа, а объём входного контекста: планы, протоколы инструментов, промежуточные рассуждения.

Улучшение точности AgentFly на наборах данных вне распределения (OOD).

Практические наблюдения

Быстрый планировщик чаще выигрывает. В экспериментах скоростной GPT‑4.1 как планировщик стабильно обгоняет более размышляющие модели: короткий, структурированный план лучше, чем длинная нить рассуждений без чёткой декомпозиции.
Инструменты не панацея. Там, где у модели мало фоновой информации, инструменты и планирование вместе дают наибольший эффект; но в открытом вебе слишком много внешней информации без памяти способно сбивать с толку. АгентFly решает это за счёт памяти и отбора кейсов.
Кураторство важно. Авторы фильтруют и записывают в банк кейсов прежде всего финальные шаги, а не весь шумный трейс. Это экономит токены и повышает пользу извлечений.

Куда это ведёт

AgentFly показывает, что адаптивные агенты можно строить без тяжёлого дообучения. Память делает обучение непрерывным: агент бережно накапливает опыт и мгновенно использует его в новых задачах. Это путь к более устойчивым и доступным системам — от корпоративного поиска до научных помощников, где переподготовка модели невозможна по цене, задержке или политике безопасности.

Остаются вопросы для следующего шага: как автоматизировать «гигиену памяти» (сжатие, дедупликация, приватность), как обмениваться кейсами между агентами в мультиагентной системе, как учесть причинность при выборе кейсов, а не только семантическую близость. Но главное уже понятно: связав планирование, инструменты и живую память, можно получить агента, который учится как человек — не переписывая мозг, а умно пополняя записную книжку.

? Оригинальная статья

? Код

***

Если вам интересна тема ИИ, подписывайтесь на мой Telegram-канал - там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.

Комментарии (2)

PetkaKH
27.08.2025 14:47
#28762440
Чем это отличается от RAGa? Как по мне тот же процесс, но с запоминанием и оценкой. Что можно сделать и с обычными данными.
1. DrrRos
  27.08.2025 14:47
  #28763704
  Скорее уж на lora