Учёные из Юниверсити Колледж Лондон (UCL) и лаборатории Huawei Noah’s Ark Lab разработали новый подход к обучению, который позволяет агентам на базе больших языковых моделей (LLM) динамически адаптироваться к среде без дообучения самой модели. Метод основан на системе структурированной памяти, которая автоматически обновляется по мере накопления агентом опыта, что даёт возможность непрерывно повышать качество его работы.

Дисклеймер: это вольная адаптция статьи издания VentureBeat. Перевод подготовила редакция «Технократии». Чтобы не пропустить анонс новых материалов подпишитесь на «Голос Технократии» — мы регулярно рассказываем о новостях про AI, а также делимся полезными мастридами и актуальными событиями.

Если у вас стоит задача интеграции ИИ в бизнес-процессы, то напишите нам.

Реализация этого подхода, получившая название Memento, продемонстрировала уверенные результаты в ключевых тестах на глубокий анализ и решение сложных многошаговых задач. Для компаний это открывает масштабируемый и эффективный путь к созданию универсальных LLM-агентов, способных к непрерывному обучению в реальном времени — без высоких затрат и простоев, связанных с традиционными методами дообучения.

Ограничения существующих LLM-агентов

Сегодняшние агенты на базе LLM обычно строятся по одной из двух парадигм, каждая из которых имеет серьёзные недостатки для корпоративных приложений.

Первая — создание специализированных фреймворков с жёстко заданными рабочими процессами. Такие агенты неплохо справляются с узкими задачами, но остаются негибкими: они не могут адаптироваться к новым условиям или использовать свежую информацию после внедрения.

Вторая парадигма — обновление самой LLM через контролируемое дообучение или обучение с подкреплением. Это обеспечивает больше гибкости, но требует огромных вычислительных ресурсов и больших объёмов данных. По словам авторов статьи, «такие подходы неэффективны для непрерывной адаптации и онлайн-обучения, а потому непрактичны в сценариях с открытым набором задач».

Профессор информатики UCL и соавтор исследования Цзюнь Ван отмечает, что проблема дообучения не ограничивается лишь стоимостью. По его словам, изменение параметров модели может «подорвать знания, полученные на этапе предварительного обучения». Риск утраты базовых возможностей модели и стал одним из ключевых мотивов их работы.

Идеальный агент на базе LLM должен уметь обновлять своё поведение в процессе взаимодействия с окружающей средой — но без необходимости заново обучать саму модель.

Новая парадигма: обучение на основе памяти

Вдохновившись тем, как устроена человеческая память, исследователи предложили новый подход к обучению, позволяющий агентам адаптироваться без изменения параметров LLM. Вместо дообучения базовой модели агенты используют внешнюю память, в которой сохраняется их прошлый опыт. Столкнувшись с новой задачей, агент обращается к схожим случаям из прошлого, чтобы направлять процесс принятия решений.

Графическая модель марковского процесса принятия решений на основе памяти.
Графическая модель марковского процесса принятия решений на основе памяти.

В основе метода лежит процесс марковского принятия решений (Markov Decision Process, MDP) — классическая концепция в ИИ, с помощью которой агент обучается выбирать оптимальные действия. В стандартной схеме MDP агент наблюдает текущее состояние среды, выбирает действие и получает награду или штраф. Его цель — выработать стратегию, максимизирующую итоговый результат.

Новый подход учёные формализовали как Memory-augmented MDP (M-MDP). Он расширяет классическую схему, позволяя агенту учитывать не только текущее состояние и возможные действия, но и накопленную память о прошлых событиях.

Агент использует метод case-based reasoning (CBR) — рассуждение на основе прецедентов, при котором решения извлекаются и адаптируются из опыта решения предыдущих задач. Например, если исследовательский агент однажды успешно выполнил задачу в веб-среде, он сможет применить этот опыт к новой, структурно похожей задаче, с которой никогда ранее не сталкивался. «Наш метод открывает новый путь к непрерывному обучению для исследовательских агентов: он эффективен, универсален и вдохновлён тем, как учатся люди», — пишут авторы.

Как работает Memento

Исследователи реализовали этот подход в агенте Memento, разработанном для задач глубоких исследований, где требуется взаимодействие с внешней средой, использование инструментов, извлечение информации и динамическая обработка разнообразных данных.

«Мы призываем к новому подходу, который позволит агентам адаптироваться без изменения параметров LLM, — сказал Ван в интервью VentureBeat. — Memento должен стать началом этой революции».

Система состоит из трёх основных компонентов:

  • планировщика,

  • исполнителя с поддержкой инструментов,

  • и расширяющегося «банка случаев», где хранится накопленный опыт.

На этапе планирования планировщик (работающий на базе LLM с CBR) получает задачу и обращается к банку случаев в поисках релевантного опыта. Найденные прецеденты комбинируются с текущими инструкциями, формируя подсказку для базовой LLM. Та, в свою очередь, разбивает задачу на подзадачи и строит пошаговый план. План передаётся исполнителю, которым управляет универсальная LLM.

Когда исполнитель выполняет подзадачи, модуль «памяти подзадач» фиксирует прогресс и результаты. После каждого шага планировщик анализирует историю выполнения: если задача не завершена, он обновляет план с учётом нового контекста. По завершении работы полученный опыт сохраняется в банк случаев.

Исполнитель работает через Model Context Protocol (MCP) — стандартный интерфейс, обеспечивающий гибкое подключение к множеству внешних инструментов: от поисковых систем и веб-сканеров до модулей обработки мультимедийной информации (видео, изображения, разные форматы файлов).

Сам банк случаев динамический и представлен в двух вариантах:

  • непараметрический — извлекает данные на основе семантического сходства. Ван сравнивает этот подход с «коллаборативной фильтрацией или обучением по аналогии, когда успешные случаи из прошлого подсказывают решения для текущих задач»;

  • параметрический — использует обучение с подкреплением и лёгкую нейросеть, чтобы справляться с ситуациями, когда обратная связь встречается редко. В таких случаях метод помогает «распространять» сигналы успеха или неудачи по различным этапам задачи, обеспечивая надёжное обучение со временем. Ван описывает это как «непараметрический подход в более широком смысле», так как он создаёт «дополнительное пространство для обучения агентов LLM без изменения внутренних параметров самой модели».

Memento в действии

В экспериментах исследователи использовали GPT-4.1 как основу для планировщика, а модели o3 и o4-mini — для работы исполнителя. Результаты показали, что Memento уверенно справляется с рядом сложных тестов.

  • На датасете DeepResearcher, проверяющем навыки веб-поиска в реальном времени и многошаговое рассуждение, Memento почти вдвое превзошёл связку chain-of-thought (CoT) с retrieval-augmented generation (RAG), достигнув 66,6% по метрике F1.

  • На бенчмарке GAIA, оценивающем долгосрочное планирование и использование инструментов, система заняла 1-е место на валидационном наборе и 4-е на тестовом, обойдя большинство существующих open-source фреймворков агентов.

  • В тесте Humanity’s Last Exam (HLE), направленном на проверку сложного рассуждения в специализированных областях, Memento занял 2-е место, показав результат близкий к GPT-5 и превзойдя Gemini 2.5 Pro.

  • В задаче SimpleQA, где проверяется точность фактов и устойчивость к галлюцинациям, Memento показал лучший результат среди всех базовых моделей.

Новая основа для обучения агентов

Хотя Memento использует элементы извлечения данных, Ван подчёркивает, что его ядро — M-MDP — это шаг значительно дальше привычного RAG.

«Подходы на основе извлечения или RAG ограничивают возможности обучения и обобщения. Включение обучения с подкреплением позволяет параметризовать память и строить обобщения непосредственно на её основе», — объясняет он.

Это делает возможности Memento в обучении «ортогональными исследованиям в области самих LLM». Иными словами, новая система не конкурирует с развитием базовых моделей, а дополняет их, используя их силу. Чем мощнее становятся LLM, тем более эффективными будут агенты, построенные на основе M-MDP. Такой подход переосмысливает способы разработки и внедрения агентов, создавая, по словам Вана, «новую парадигму для prompt-engineering и обучения в контексте», которая сближает «машинное обучение и классическую разработку ПО».

Значение для бизнеса

Для компаний преимущества Memento очевидны. Она снимает необходимость дорогостоящего и долгого дообучения LLM, позволяя агентам учиться «на лету». Парадигма совместима как с проприетарными, так и с self-hosted open-source моделями и легко интегрируется с корпоративными инструментами и внутренними источниками данных. Это открывает путь к созданию систем ИИ, которые постоянно совершенствуются, оставаясь при этом экономичными и адаптивными к конкретным потребностям бизнеса.

Взгляд в будущее

По словам Вана, главным узким местом на пути к действительно автономным ИИ-системам остаётся «сбор данных». Агентам необходимо взаимодействовать с внешней средой, чтобы получать обратную связь и корректировать своё поведение. Следующим шагом, считает исследователь, станет «активное исследование» — способность агента самостоятельно изучать среду, руководствуясь потребностью или даже любопытством. С фундаментальными фреймворками вроде Memento этот путь к автономным системам становится куда более реальным.

Комментарии (6)


  1. nordray
    08.09.2025 16:12

    Эх, RAG или fine-tuning, время покажет ;)


  1. inf
    08.09.2025 16:12

    Дык это RAG или не RAG?


    1. titulusdesiderio
      08.09.2025 16:12

      Rag, но информация приходит в него не из внешней среды, а сам агент занимается его наполнением.

      Интересно как там построена реализация...


    1. vmkazakoff
      08.09.2025 16:12

      Rag почти в чистом виде. Причем эта история есть уже давно и в чате гопоты, и во всяких курсорах. Курсор так вообще выводит всплывашку типа "пользователь предпочитает чтобы я сразу выполнял запрос к бд не переспрашивая и не сверяясь с ним, впредь буду делать так" (надеюсь что вы смотрите на право вашего курсора и не дождетесь, когда он случайно дропнет базу))) - по сути это то самое формирование памяти.


  1. titulusdesiderio
    08.09.2025 16:12

    Если сравнивать с моделями в бенчмарках, нужно написать на базе какой модели работал этот агент. А то не честно. Можно они засунули туда и так топ1 модель для каждого конкретного бенча. Тогда разница в процент или доли процента не стоит этого геморроя с инфраструктурой


    1. thethee
      08.09.2025 16:12

      Так написано же:

      В экспериментах исследователи использовали GPT-4.1 как основу для планировщика, а модели o3 и o4-mini — для работы исполнителя.