Аналитический центр red_mad_robot разобрал объёмную научную статью «Advances and Challenges in Foundation Agents» от группы исследователей из передовых международных университетов и технологических компаний. Работа предлагает новый взгляд на текущее состояние и развитие «интеллектуальных агентов», которые могут адаптироваться к множеству задач и контекстов. Рассказываем, какие идеи лежат в основе Foundation Agents, с какими проблемами предстоит столкнуться, и что ждёт нас в будущем.

Оглавление

  1. Карта функциональности мозга: где сейчас находится AI
    1.1 Области мозга и соответствующие навыки AI
    1.2 Сравнение уровней развития

  2. Агентный фреймворк, вдохновлённый человеческим мозгом
    2.1 Взаимодействие между агентами
    2.2 Концепция Foundation Agents

  3. Ключевые компоненты интеллектуальных агентов
    3.1 Познание
       3.1.1 Обучение
       3.1.2 Reasoning
    3.2 Память
       3.2.1 Уровни памяти человека
       3.2.2 Репрезентация памяти агента
       3.2.3 Цикл памяти агента
    3.3 Модель мира
       3.3.1 Парадигмы модели мира в AI
    3.4 Награды
       3.4.1 Парадигмы вознаграждений в AI
    3.5 Эмоции
       3.5.1 Анализ эмоций и личности AI
    3.6 Системы восприятия
       3.6.1 Типы репрезентаций
    3.7 Системы действий
       3.7.1 Парадигма пространства действий
       3.7.2 Действие и восприятие: «Outside-In» и «Inside-Out»

  4. Самосовершенствование агентов
    4.1 LLM в роли оптимизатора
       4.1.1 Три парадигмы оптимизации
       4.1.2 Итеративные подходы к LLM-оптимизации
    4.2 Эволюция интеллекта и научные открытия
       4.2.1 Стратегии эволюции интеллекта

  5. Коллаборативные интеллектуальные системы
    5.1 Проектирование мультиагентных систем
       5.1.1 Создание команд AI-агентов
       5.1.2 Протоколы взаимодействия агентов следующего поколения
    5.2 Коммуникационные топологии
       5.2.1 Новые парадигмы динамического взаимодействия
    5.3 Механизмы сотрудничества
    5.4 Коллективный разум и индивидуальная адаптивность

  6. Безопасность агентов
    6.1 Intrinsic Safety: угрозы «мозгу» LLM
       6.1.1 Jailbreak
       6.1.2 Prompt Injection
       6.1.3 Галлюцинации
       6.1.4 Misalignment
       6.1.5 Poison-атаки
       6.1.6 Конфиденциальность
    6.2 Intrinsic Safety: угрозы восприятия и действий
    6.3 Extrinsic Safety: угрозы взаимодействий
    6.4 SuperAlignment и Safety Scaling Law
       6.4.1 Safety Scaling Law для AI-агентов
       6.4.2 Будущие направления и сценарии

Карта функциональности мозга: где сейчас находится AI?

Искусственный и биологический интеллект можно сблизить. AI выполняет действия аналогичные различным функциям нашего мозга — отличается только уровень развития разных областей.

Память: гиппокамп хранит события, неокортекс — знания и навыки. В AI это реализовано через веса — долговременная и буферы — кратковременная память.

Модель мира: как мозг сравнивает ожидания с реальностью, так AI обновляет внутреннюю модель мира на основе новых данных, учитывая награды и «эмоции».

Эмоции: направляют поведение людей, а в AI помогают расставлять приоритеты и быстро реагировать на важные события.

Цели и награды: префронтальная кора формирует цели, а дофаминовые сигналы обеспечивают мотивацию. В AI это реализовано через отдельные блоки целей и наград, которые работают в связке и обеспечивают адаптивность действий. 

Мышление: мозг объединяет данные для принятия решений. В AI то же делает блок рассуждения, используя память, эмоции, цели и модель мира.

Представим мозг человека как карту, где уровень развития AI — степень освоения разных областей: L1 — хорошо, L2 — умеренно, L3 — слабо. Источник
Представим мозг человека как карту, где уровень развития AI — степень освоения разных областей: L1 — хорошо, L2 — умеренно, L3 — слабо. Источник

Каждый отдел мозга решает свою задачу — планирует, распознаёт, координирует, чувствует. Если наложить эти зоны на возможности AI, можно оценить его прогресс в погоне за человеческим интеллектом.

Лобная доля отвечает за когнитивные функции высшего порядка: планирование, принятие решений и логику. AI умеет планировать и рассуждать, но не обладает самосознанием, гибкостью мышления и самоконтролем. 

Височная доля участвует в обработке звука, понимании языка и формировании памяти. AI хорошо справляется с языком, но слабо запоминает и не умеет обучаться непрерывно. 

Затылочная доля интерпретирует визуальную информацию с помощью иерархических структур. AI отлично распознает образы, но плохо интерпретирует сложные сцены. 

Теменная доля объединяет сенсорные сигналы и управляет пространственной ориентацией. AI умеет обрабатывать сенсорные сигналы, но не интегрирует их в реальном времени и не чувствует тактильно.

Мозжечок координирует движения и участвует в обучении двигательным навыкам. AI частично координирует движения, но не достигает человеческой ловкости и адаптации.

Ствол мозга отвечает за жизненно важные функции, которые происходят сами по себе, например, дыхание или сердцебиение, а также влияет на рефлексы. AI может имитировать простые рефлексы, но не управляет автономными функциями.

Лимбическая система обрабатывает эмоции, управляет эмпатией и мотивацией, играя решающую роль в процессах обучения и принятия решений. AI имитирует обучение через награды в Reinforcement Learning (RL), но не чувствует эмоций и не обладает мотивацией.

Агентный фреймворк, вдохновленный человеческим мозгом

Основная проблема AI — отсутствие единого фреймворка, объединяющего все ключевые функции агентов. Например, AI хорошо использует язык, но память, восприятие и планирование реализованы фрагментарно, из-за чего агенты работают несогласованно. Но можно построить агентов по аналогии с мозгом — как систему взаимосвязанных модулей, работающих совместно.

  • Параллельная обработка: мозг обрабатывает сенсорные данные одновременно и объединяет их → AI может делать то же для лучшего понимания. 

  • Иерархия и модули: у мозга разные зоны для разных задач → AI должен быть модульным: отдельные блоки для логики, эмоций, памяти. 

  • Механизмы внимания: человек выбирает, на что фокусироваться → AI может обучаться переключению внимания по контексту. 

  • Эмоции и награды: эмоции помогают учиться и принимать решения → AI может использовать систему вознаграждений для развития навыков. 

  • Цели и инструменты: мозг ставит цели и планирует действия → AI тоже нужен механизм постановки целей и адаптации под задачи.

Концепция Foundation Agents

Архитектура обычного агента состоит из трёх ключевых компонентов:

  1. Окружающая среда: мир, в котором действует агент, представлен как пространство состояний с функциями перехода.

  2. Сенсорно-акторная система: механизмы для восприятия окружающей среды и воздействия на неё.

  3. Пространство ментального состояния: внутреннее представление агента, включающее познание, память, модель мира, цели, эмоции и обработку вознаграждений.

Архитектура агента, показывающая цикл восприятия-действия и пространство психического состояния
Архитектура агентского цикла. Источник

Взаимодействие между компонентами создаёт динамический цикл «perception — cognition — action», в котором агент воспринимает, обрабатывает, планирует и действует, постоянно обновляя свои внутренние представления на основе обратной связи из мира.

В реальных сценариях агенты взаимодействуют не только со статичной средой, но и работают в рамках широких социальных систем. Они создают сложный контекст, который формирует и ограничивает поведение агентов. В рамках контекста агенты должны адаптивно обучаться, рассуждать и действовать для достижения внутренних целей, одновременно ориентируясь на внешние общественные правила. Важно отметить, что действия агентов могут возвращаться в социальные системы, потенциально изменяя нормы и распределение ресурсов с течением времени.

Foundation Agents — это автономные, адаптивные интеллектуальные системы, которые объединяют восприятие, память, рассуждение и действия для самостоятельного решения сложных задач. Особенности Foundation Agents:

  • Активное и мультимодальное восприятие: агент сам собирает информацию из разных источников — текстов, изображений, виртуального или физического мира;

  • Адаптивное мышление: самообновление знаний, целей, эмоционального состояния и понимания мира на основе полученных данных и опыта; 

  • Автономное мышление и целенаправленное планирование: агент сам строит сложные планы и принимает решения, направленные на достижение долгосрочных целей;

  • Целенаправленные действия: он действует во внешнем мире, например, двигается, пишет код, общается и внутри себя — анализирует стратегию, переосмысляет цели;

  • Совместная работа в мультиагентной среде: может быть частью команд или сообществ агентов, решающих задачи, которые одному агенту не под силу.

Ключевые компоненты интеллектуальных агентов

Познание

Обучение

Full Mental State Learning модифицируются все компоненты ментального состояния модели. Процесс начинается с пре-тренинга — агенты обучаются на огромных наборах данных, формируя базовые знания о мире — как дети изучают мир, но в масштабной и структурированной форме. Обучение с учётом предпочтений корректирует поведение модели под человеческие ценности. 

Partial Mental State Learning улучшаются отдельные части «интеллекта» агента без полного обновления всей модели. Это зачастую эффективнее и проще, чем полное переобучение. Возможность частичного обучения ментального состояния подтверждается подходами, нацеленными на разные компоненты:

  • Generative Agents — агенты запоминают и анализируют воспоминания, чтобы строить поведение;

  • Reflexion — агент учится на ошибках, получая обратную связь от мира;

  • ARMAP — формирует модель наград за действия агента.

Цели обучения

  • Улучшить восприятие разных типов данных — текстов, изображений, звука, чтобы лучше собирать информацию из внешних источников.

  • Улучшить рассуждения, опираясь на заложенные в модель знания о мире и разные логические фреймворки — внутренние или контекстуальные. Тут важно качество полученных моделью данных. Структурированные Chain of Thought  (CoT) позволяют моделям учиться логике рассуждений. Мощные reasoning-модели могут быть построены на небольшом количестве данных, зато с длинными и эффективными CoT. Это показывает, что модели уже обладают знаниями — нужно лишь правильным образом их «включить».

  • Улучшить понимание мира. Агенты учатся, взаимодействуя с миром: они смотрят, как среда реагирует на их действия и к каким последствиям это приводит. Так они прокачивают свою память, понимание наград, учатся на успехах и ошибках.

Reasoning

Паттерны мышления и планирования в базовых агентах
Сравнение reasoning-парадигм в агентах. Источник

Структурированный reasoning — это чёткий пошаговый процесс, где сначала надо понять задачу, разбить её на этапы и затем решить каждый шаг. Здесь различаются разные типы структур.

  • Динамические структуры: способ решения задач, при котором путь рассуждения строится на ходу — он может меняться в зависимости от промежуточных выводов. Сюда входят линейные структуры — модель размышляет, делает шаг, получает новую информацию, снова размышляет, древовидные структуры — создают иерархию шагов и графовые структуры — с более гибкими связями между шагами.

  • Статичные структуры: методы, в которых модель не перестраивает ход рассуждений, а работает в рамках заданного фреймворка. Ансамблирование — модель генерирует несколько вариантов решения, а затем выбирает лучший. Постепенное улучшение — создаёт черновик, потом критикует и улучшает его без дообучения. Также может учитывать обратную связь от среды, запоминать размышления и промпты из прошлых попыток, чтобы приблизиться к ответу. Исправление ошибок — использует ответ, чтобы перепроверить исходную задачу, задаёт себе уточняющие вопросы и использует самокритику или внешние инструменты для проверки ответов.

  • Доменно-специфичные фреймворки: рассуждения подстраиваются под специфику определенной области — используют специфичные знания, например, в математике или физике, чтобы повысить точность решений.

Неструктурированный reasoning — более «интуитивный» и гибкий — модель берёт знание и сразу выдаёт ответ, опираясь на общий контекст. Строит цепочки рассуждений (CoT) с примерами разной сложности для пошаговых объяснений или глубоких размышлений. Переформулирует задачи: от общей абстрактной идеи к деталям. Использует расширенные фреймворки промптов, чтобы создавать алгоритмы рассуждений модели и подключать внешние знания для решения задач. Также существует имплицитный reasoning, когда модель делает выводы без пошаговых объяснений, экономя токены и ресурсы. 

Планирование ключевой механизм, который превращает общую цель агента в последовательность простых шагов. Начинается с декомпозиции задачи — разбивки большой цели на подзадачи для упрощения проблемы и более системных рассуждений. Поиск в LLM повышает точность за счёт параллельной генерации и агрегирования вариантов. Знания о мире нужны системам для ориентации в меняющейся среде и предсказания последствий действий.

Память

У человека есть три типа памяти:
Сенсорная память — кратковременное хранение сырой информации из среды на доли секунды — позволяет выделить важную информацию.

Кратковременная и рабочая память — удерживают ограниченный объём информации на несколько секунд или на минуту — не только хранит, но и обрабатывает данные. 

Долговременная память — хранит информацию от часов до десятилетий — считается почти безлимитной, но доступ к ней бывает затруднён помехами времени.

Иерархия классификации человеческой памяти
Иерархия классификации человеческой памяти. Источник

Для агентов память критична: она формирует контекст, обучение и последовательность действий. Без памяти даже продвинутый агент не сможет эффективно адаптироваться или сосредоточиться в длительном взаимодействии. В отличие от биологической, агентская память пока ограничена. Для эффективной работы агентам нужны модули памяти, способные хранить цели, рассуждения и диалоговую историю. 

Репрезентация памяти агента

Сенсорная память — первый этап обработки входных данных, где сигналы кодируются, фильтруются и связываются с целью и контекстом. В отличие от биологической, агентская сенсорная память активно отбирает важную информацию и удерживает её для быстрого реагирования. 

Краткосрочная память агентов — хранит актуальную информацию и обеспечивает адаптивность и последовательность действий. Её можно разделить на два типа: контекстная память — «контекстное окно для LLM», а также оперативная рабочая память — хранит внешние знания, важные для текущих задач.

Долговременная память агентов обеспечивает хранение и извлечение знаний в течение длительного времени, способствуя обучению и адаптации к новым условиям. Она включает эксплицитную память — осознанное знание — факты, понятия, события, действия. Их совмещение позволяет агентам лучше понимать контекст и действовать более гибко. Имплицитная память — поведение без сознательного обращения к знаниям — сохраняет навыки и шаблоны для быстрой реакции в знакомых ситуациях.

Цикл памяти агента

Процессы сохранения и извлечения памяти
Цикл памяти агента. Источник

Memory Acquisition — начальный этап, когда агент воспринимает необработанную информацию из среды для последующего обучения и принятия решений. Основная проблема — огромный поток данных, большая часть которых избыточна или неактуальна, поэтому важна их фильтрация.

Два ключевых механизма: сжатие информации — уменьшение объёма данных и выделение значимого, например, снижение разрешения изображений, извлечение ключевых фраз. Консолидация опыта — применение правил и предпочтений для отбора важной информации. Например, агент может уделять больше внимания движущимся объектам. Метрики релевантности и частоты помогают решать, что сохранить в долгосрочной памяти. 

Memory Encoding — преобразование отфильтрованной информации во внутренние представления для хранения и использования. Главная задача — селективная фильтрация, похожая на внимание в человеческом мышлении. Основные сложности — высокая размерность и шум данных, требующие выделения ключевых признаков, сжатия и объединения разных модальностей: зрение, звук, текст. 

Memory Derivation — агент превращает накопленные и закодированные воспоминания в полезные знания для улучшения обучения и принятия решений. Главная задача — оценить ценность информации: что сохранить, обобщить или забыть. 

Memory Retrieval and Matching — применение AI-агентами опыта и знаний для принятия решений и действий. Цель — быстро и точно находить нужную информацию в больших и разнородных хранилищах. Основные вызовы: разные форматы данных, необходимость учитывать контекст, а не только ключевые слова, работа в реальном времени, постоянное обновление и очистка памяти. 

Neural Memory Networks — память интегрируется прямо в нейронные сети через веса, превращая их в динамичные системы хранения и обработки информации. Главная цель — не просто хранить факты, а обобщать и использовать память для сложных рассуждений. Для этого используются два подхода: ассоциативная память — вдохновлена работой человеческого мозга и строится на взаимосвязях между нейронами. Интеграция памяти в параметрах сети — знания закладываются в веса через переобучение или дистилляцию.

Memory Utilization — нужна, чтобы работать с большим объёмом данных без перегрузки, обобщать знания для новых ситуаций и бороться с галлюцинациями. Популярный подход — RAG, который сначала извлекает релевантные фрагменты из памяти, затем использует их для генерации ответов, повышая точность. Современные методы включают саморефлексию, оценку согласованности и адаптивное извлечение. Для борьбы с галлюцинациями используют фактчекинг, оценку уверенности и стратегии генерации, которые накладывают ограничения на вывод, чтобы повысить его достоверность.

Модель мира

Ментальные модели — это внутреннее представление мира, которое помогает людям предсказывать события, планировать и понимать ситуации без необходимости прямого опыта. Такие компактные и удобные «копии реальности» помогают нам предсказывать события, планировать действия и разбираться в новых ситуациях без необходимости постоянно пробовать всё на практике. Они прогнозируют будущее поведение среды, интегрируют ощущения, опыт и рассуждения, адаптируются при несоответствии ожиданий, работают на разных временных масштабах. 

AI давно стремился воссоздать ментальные модели человека. Ранние подходы, например, архитектура Dyna, обучали агентов планированию через внутренние модели. Позже появились нейросети, прогнозирующие будущее на основе потоковых данных, forward-модели — позволяющие агентам предсказывать состояние после определенных действий, чтобы планировать на несколько шагов вперед, а также симуляторы, учившие агентов через взаимодействие с миром, как детей — через игру.

Парадигмы модели мира в AI

Подходы к моделированию мира в агентских системах
Четыре парадигмы моделей мира. Источник

Имплицитные модели — агент моделирует поведение среды внутри нейросети, используя скрытые состояния, которые обновляются по мере взаимодействия. Сеть предсказывает, что произойдет дальше на основе этих состояний. 
Плюсы: обучение end-to-end, подходит для сложных сред, не требует ручной настройки. 
Минусы: непрозрачность, сложно добавлять знания и ограничения, чувствительность к изменению данных.

Эксплицитные модели — модель мира разделяется на две части, вместо того чтобы все знания о мире «зашивать» в одну нейросеть. Модель переходов — предсказывает, как изменится состояние среды после действия. Модель наблюдений — прогнозирует, что агент увидит в новом состоянии. Агент комбинирует эти модели для мысленного проигрывания сценариев. 
Плюсы: понятная и удобная отладка, возможность внедрения знаний, гибкость — можно сочетать нейросети с логическими компонентами. 
Минусы: чувствительность к ошибкам, требует много данных, трудно применять к сложным данным, например, видео.

Симуляторные модели — агент использует внешний симулятор или реальный мир, чтобы понимать, как меняется окружающая среда, не строя собственную модель. 
Плюсы:  высокая точность информации, снижает риск ошибок, которые могут возникнуть при обучении собственной модели мира агентом. 
Минусы: большие затраты ресурсов, симуляции могут не отражать изменчивость реального мира.

Гибридные модели — объединяют имплицитные и эксплицитные модели, используют внешние знания и LLM. Особенности: смешивают разные методы моделирования, включают символические знания, используют LLM для генерации и проверки гипотез. 

Награды

Механизмы обратной связи человека с участием нейромедиаторов и гормонов регулируют эмоции, мышление и поведение. Ключевой нейромедиатор — дофамин — важен для обучения на основе вознаграждения и мотивации. Нарушения дофаминовой системы связаны с депрессией и зависимостью. Нейропептиды, действующие медленнее и шире, регулируют настроение и обмен веществ, влияя и на когнитивные, и на физические возможности.

Агенты учатся и оптимизируют поведение через формализованные функции вознаграждения, которые задаются извне и служат ориентиром для Reinforcement Learning (RL). У агентов функции вознаграждения — это числовые оценки, легко настраиваемые под задачи. Хотя такие функции обеспечивают гибкость и целенаправленное обучение, они не отражают сложность человеческих ценностей и часто не учитывают контекст. Агенты лишены эмоций и интуиции, их обучение зависит от качества сигнала вознаграждения. Методы вроде Reinforcement Learning from Human Feedback (RLHF) пытаются приблизить поведение агентов к человеческим предпочтениям, но сложность и противоречивость целей остаются проблемой. Моделирование внутренней мотивации и социального одобрения ограничено отсутствием сознания у агентов. Поэтому разработка функций вознаграждения требует учёта иных ограничений — устойчивости к ошибкам и согласования с долгосрочными интересами человека.

Парадигмы вознаграждений в AI

Типы вознаграждений в AI. Источник
Типы вознаграждений в AI. Источник

Внешние вознаграждения — внешние сигналы, направляющие агента к целям. В RL такие сигналы служат показателем успеха и помогают формировать стратегию агента через измеримые результаты. Но способ формирования и подачи этих вознаграждений сильно влияет на процесс обучения, создавая компромиссы в зависимости от частоты и характера обратной связи.

Внутренние вознаграждения — сигналы внутри агента, мотивирующие его исследовать и учиться независимо от внешних целей. Они развивают общие навыки, адаптивность и самостоятельное освоение умений. Например, вознаграждение за любопытство, разнообразие, компетентность. 

Гибридные системы вознаграждений — объединяют внутренние и внешние награды для более сбалансированного и адаптивного обучения. Они сочетают стимулы к исследованию с целенаправленными внешними сигналами, повышая эффективность и обобщаемость, особенно в сложных задачах. Главное преимущество — динамичный баланс между изучением нового и использованием известных стратегий. 

Иерархические вознаграждения — сложные задачи разбивают на уровни с отдельными подцелями и соответствующими сигналами награды — это позволяет согласовать краткосрочные решения с долгосрочным планированием. Низкоуровневые награды дают за конкретные действия, высокоуровневые — за абстрактные цели, помогая строить поведение, которое лучше масштабируется на сложные среды. Иерархические вознаграждения могут стать основой обучения с постепенным усложнением задач, где агент последовательно осваивает подзадачи, повышая общую эффективность.

Эмоции

Эмоции принято классифицировать на основе четырёх крупных подходов, каждый из которых открывает AI собственный путь к человеческим чувствам.

Категориальные теории рассматривают эмоции как универсальные, что удобно для распознавания, но упрощает сложность чувств и культурные различия.

Дименсиональная модель ставит каждую эмоцию на координаты валентности и активации — такая шкала даёт AI гибкость и помогает отслеживать степень и полярность настроения.

Гибридные и компонентные модели объединяют обе идеи, показывая, как базовые эмоции смешиваются в сложные композиции — для AI это рецепт более живых и многослойных откликов.

Нейрокогнитивный подход связывает быстрые сигналы лимбической системы с медленным анализом коры, подсказывая, как сочетать мгновенную реакцию и осознанное размышление в алгоритмах. Синтез этих оптик повышает эмоциональную грамотность AI-систем.

Модели эмоций в ИИ и психологии
Примеры ключевых теорий об эмоциях. Источник

В плане эмоционального интеллекта модели уже распознают тонкие чувства лучше среднего человека, хотя делают это через сопоставление шаблонов, а не через «переживание». Внутри сетей формируются иерархии эмоций и зачатки эмпатического поведения, что открывает потенциал для развития, но ставит этические вопросы: где граница между подражанием и подлинной чувствительностью.

Вообще AI ограничен при анализе эмоций мощностью модели, спецификой задач и данных.

  • Текст: крупные LLM вытягивают скрытые чувства из одних лишь слов, опираясь на пошаговое рассуждение и взаимную проверку нескольких моделей — так удаётся ловить тонкие нюансы без явных подсказок;

  • Мультимодальность: интеграция звуков, изображений и видео позволяет расширить понимание настроения, речь переводится в текстовые промпты, чтобы сохранить интонацию, а зрительные сигналы помогают уточнить контекс;

  • Специализированные фреймворки: гибкие инструкции на случай двусмысленных или быстро меняющихся эмоций приближают анализ LLM  к человеческой интуиции.

Анализ эмоций и личности AI

Надёжность личностных шкал при анализе эмоций машины вызывает споры: стандартные тесты критикуют AI за нестабильность и «acquiescence bias» — склонность к согласию с пользователем. Однако эксперименты показывают, что LLM могут проявлять устойчивые личностные паттерны и адаптироваться к ролям, хотя остаются вопросы о самоосознании. 

Психометрические методы и когнитивное моделирование помогают лучше понять, как LLM представляет ментальные конструкции. Дообучение на данных о поведении человека улучшает имитацию когнитивных решений. Комбинация психологических теорий с современными техниками выявляет скрытые черты, например, тревожность или склонность к риску, в которых LLM приближается к человеческому мышлению.

Простой и быстрый способ управлять эмоциями модели — «маска» в промпте: задаём роль или персонажа, и стиль ответа сразу меняется, хотя этот подход всё ещё нестабилен и требует доработки. Надёжнее — лёгкое дообучение: в веса вшивают личностные профили, и модель уверенно держит характер во время длинного диалога. Самая тонкая настройка — прямое редактирование «эмоциональных» нейронов — нужные цепочки активаций включают или гасят, задавая настроение без полного переобучения.

Системы восприятия

Сравнение сенсорных возможностей между людьми и агентами
Сравнение типов восприятия человека и AI-агента. Источник

Обычно у людей выделяют пять чувств: зрение, слух, вкус, обоняние и осязание. Но на самом деле в нашем организме гораздо больше сенсорных систем — от 10 до 33, включая баланс, боль, температуру и положение тела. Животные обладают дополнительными чувствами, недоступными человеку, например, магнитоцепцией — навигацией по магнитному полю Земли и электроцепцией — восприятием электрических сигналов. В отличие от биологических организмов, AI для восприятия мира использует технические сенсоры — камеры, микрофоны и датчики. Машины хорошо обрабатывают визуальные, звуковые и текстовые данные, но полное воспроизведение вкуса и запаха им пока недоступно.

Человеческое восприятие ограничено биологическими факторами, а нервные импульсы передаются за миллисекунды. AI может обрабатывать данные за наносекунды, ограничение для него — лишь мощность оборудования. Также существуют различия в восприятии времени и пространства. Человек ощущает их непрерывно, AI делает это пошагово через дискретные данные. Пространственная ориентация у людей формируется из зрительной, слуховой и вестибулярной информации, а у AI — с помощью алгоритмов вроде SLAM и 3D-реконструкции. В обоих случаях сенсоры преобразуют внешние сигналы в пригодную для обработки форму.

Типы репрезентации восприятия

Восприятие в AI эволюционировало от работы с каждой модальностью по-отдельности к смешанным парам и, наконец, к моделям, которые держат сразу весь спектр сенсорных данных.

Унимодальные модели

  • Текст — основной канал ввода и вывода: от простых моделей bag-of-words до BERT, который использует архитектуру Transformer для глубокого семантического понимания. Авторегрессионные модели, например, GPT 3.5 унифицировали понимание и генерацию текста, а LoRA снизили затраты на их применение.

  • Изображение — CV-модели улучшили обработку пространственной информации и распознавание объектов, повышая обобщающие способности агентов в неструктурированных средах.

  • Видео — обрабатывается как последовательность кадров, добавляя временное измерение. ViViT и VideoMAE извлекают пространственно-временные признаки для общего представления видео, что важно для восприятия агентами новых сценариев. 

  • Аудио — понимает не только речь, но и тон или эмоции. Wav2Vec2 и FastSpeech 2 улучшили распознавание слов и синтез голоса, а Seamless переводит речь в реальном времени, позволяя агентам «слушать» и «говорить».

  • Другие модальности — учёные развивают сенсоры, имитирующие человеческое обоняние, вкус, осязание и даже восприятие боли. Например, некоторые чипы различают запахи, а сенсоры чувствуют прикосновения или повреждения. Мультимодальные фреймворки: HuggingGPT, LLaVA-Plus, ViperGPT объединяют разные сенсорные каналы для выполнения сложных задач.

Кросс-модальные модели

  • Text-image: CLIP выравнивают текст и изображения с помощью контрастного обучения. ALIGN — через большие объёмы зашумленных веб-данных. Stable Diffusion применяет диффузионный генеративный подход для синтеза изображений и кросс-модального редактирования. Модели BLIP и BLIP-2 используют легковесные модули для улучшения интеграции VLM.

  • Text-video: Make-A-Video использует диффузионные методы для синтеза видео из текстовых описаний. Frozen in Time — контрастное обучение для сопоставления «видео-текст».

  • Text-audio: трансформер-архитектура VATT объединяет видео, аудио и текст в общее мультимодальное пространство. AudioGen синтезирует аудио по описанию. SpeechT5 поддерживает синтез и распознавание речи в единой среде. 

  • Прочее: CLIP-Forge и Point-E создают 3D-объекты из текстовых описаний.

Мультимодальные модели

  • VLM: LLaVA, CogVLM, Emu2 объединяют изображения или видео с текстом для диалогов и рассуждений. Qwen2-VL и DeepSeek-VL2 используют динамические стратегии кодирования для визуальных компонентов. Youku-mPLUG улучшает понимание визуальной семантики и текста и SlowFast-LLaVA — захватывает пространственную семантику и временной контекст. 

  • VLAM: CLIPort, RT-1, PaLM-E принимают визуальные и языковые входные данные для генерации действий. Они развивались от CNN до трансформер-архитектур, интегрируя 3D-зрение и LLM.

  • ALM: SpeechGPT, LauraGPT, Audio Flamingo используют аудио и текст для создания мультимодальных моделей, демонстрируя возможности в различных аудиозадачах. 

  • AVLM: ImageBind, Panda-GPT, NExT-GPT объединяют аудио, видео и текст в единые мультимодальные модели, стремясь к поддержке широкого спектра задач и модальностей. 

  • Прочие: PointLLM и MiniGPT-3D обрабатывают 3D-данные, а NeuralFeels сочетает зрение и осязание для моделирования 3D-объектов.

Системы действий

Система действий человека включает умственные и физические действия: умственные — это мыслительные процессы, рассуждение, планирование и принятие решений, формирующие намерения. Они запускают физические действия — целенаправленные движения тела, речь, манипуляции, с помощью которых человек взаимодействует с миром и получает обратную связь.

Иерархия действий человека. Источник
Иерархия действий человека. Источник

В мозге человека умственные сигналы запускают последовательность действий через создание пространства действий, обучение и интеграцию внешних факторов. Современные AI-агенты подразделяются четыре типа, но в основе каждого — взаимодействие с окружением и обучение на траекториях с функциями награды, аналогичные человеческому познанию.

  • LLM — генерация текста; 

  • LMM — мультимодальный контент; 

  • RFM — управление роботами;

  • LAM — стратегии действий и самообучение. 

Парадигма пространства действий

Языковое — рассуждение, программирование, вызовы API — эффективны в текстовых задачах, но ограничены при решении задач в физическом мире.

  • Текст: ранние агенты ReAct и AutoGPT взаимодействовали в играх и задачах через язык. 

  • Код: MetaGPT или SWE-Agent используют код как пространство действий, позволяя напрямую генерировать и проверять его. 

  • Общение: Generative Agents и AutoGen взаимодействуют друг с другом через чаты.

Цифровое расширяет возможности агентов за пределы языка, включая веб, игры и приложения:

  • Игры: MineDojo, Minecraft, стратегии SwarmBrain, JARVIS-1;

  • Мультимодальные агенты: MM-ReAct, ViperGPT, HuggingGPT используют LLM как контроллер для выбора визуальных экспертов или планирования задач;

  • Веб-агенты: WebGPT, WebAgent — ищут ответы на веб-сайтах;

  • Платформенные агенты: Mobile-Agent, AppAgent, UFO — используют манипуляции с GUI и приложениями в качестве пространства действий;

  • Интеграции: Pangu, BIRD — используют базы данных и графы знаний.

Физическое — ключ к созданию агентов, взаимодействующих с реальным миром. Требует обработки сигналов от датчиков и генерации команд для роботов. Примеры: RT-модели — обучаются на видео для управления роботами. GR-2, π0 — предсказывают действия и обучают в реальных условиях. SayCan, VoxPoser — связывают семантику с LLM для высокоуровневых решений.

Действие и восприятие: «Outside-In» и «Inside-Out»

Сравнение подходов «Outside-In» и «Inside-Out». Источник
Сравнение подходов «Outside-In» и «Inside-Out». Источник

Традиционная точка зрения «Outside-In» считает, что поведение агента вызвано внешними стимулами: среда влияет на рецепторы, а сигналы приводят к действиям. Агент пассивно реагирует на изменения извне. 

Парадигма «Inside-Out» утверждает, что действия агента формируют смысл и последствия поступающих сигналов. Агент активно генерирует предсказания и моторные команды, отправляя копии действий в сенсорные области, чтобы отличать собственные изменения от внешних. Здесь инициатива принадлежит внутренним процессам, а внешние стимулы лишь подтверждают или корректируют восприятие. Восприятие служит способом обновления гипотез агента о мире.

Самосовершенствование агентов

В основе оптимизации агентов лежит функция оценки. Она формирует сигналы для улучшения промптов и направляет их траекторию развития. Источник может быть автоматическим — бенчмарк-метрика, полуавтоматическим — LLM‑as‑a‑Judge — модель сама комментирует ответ или ручным, когда человек даёт фидбек. 

Функция отправляет разные типы сигналов: числовые, текстовые или ранжированные, когда нет точных метрик. Сигналы оценки — помогают выбрать лучшие из существующих промптов, а сигналы оптимизации — дают более детальные рекомендации для улучшения промптов. 

Метрики оценки

  • по производительности — метрики pass@1, accuracy, F1, ROUGE-L;

  • по эффективности — баланс между результатами и затратами вычислительных ресурсов и данных;

  • по качественным метрикам поведения агента: стабильность вывода , справедливость — насколько уменьшается смещение модели, и уверенность агента в своих ответах.

Оптимизация промптов улучшает отдельные элементы LLM, но для сложных задач нужна координация многих компонентов в агентском workflow. Связи в агентских workflow представлены тремя парадигмами:

  • Графовые: поддерживают иерархии, последовательности и параллелизм между узлами, удобны для визуализации и структурных манипуляций, пример — GPTSwarm; 

  • Нейросетевые: хорошо моделируют нелинейные связи и адаптивны к изменениям через обучение, например, Dylan показали, что такие workflow могут демонстрировать адаптивное поведение через обучаемые параметры;

  • На основе кода: поддерживают сложную логику, циклы и интеграцию других структур, дают точный контроль над выполнением workflow — AFLOW, ADAS. 

Оптимизация узлов workflow включает четыре ключевых параметра, влияющих на поведение и эффективность узлов: формат вывода для структурирования ответов, например, XML или JSON, температуру для контроля случайности ответа модели, пространство промптов определяет, как формируются запросы к модели и пространство моделей — различные доступные модели с их особенностями и затратами вычислений. 

Оптимизация инструментов приводит либо к лучшему пониманию их работы, либо к созданию новых, более удобных инструментов. Для эффективного использования инструментов применяются цепочки рассуждений, деревья рассуждений и алгоритмы глубинного поиска решений. При обучении на демонстрациях — модель повторяет действия эксперта, имитируя примеры использования инструментов — используется набор пар «вопрос — правильное действие». Обучение на обратной связи — использует методы Reinforcement Learning (RL) — модель адаптируется с помощью наград за правильные действия. 

Для создания нового инструмента есть несколько подходов: ToolMakers — автоматический цикл генерации, тестирования и сборки Python-функций для повторного использования. CREATOR — четыре этапа: абстрактное создание, планирование, исполнение и исправление, с фокусом на разнообразие и адаптацию. CRAFT — офлайн-метод с использованием GPT-4 для генерации читаемых, доменно-специфичных инструментов без обучения модели. Эти подходы можно комбинировать в гибридные системы с иерархией инструментов, автоматической оценкой их качества и переносом между задачами. В перспективе — системы, где инструменты и задачи будут совместно эволюционировать, обеспечивая самосовершенствование агентов.

LLM в роли оптимизатора

Три парадигмы оптимизации 

  1. Градиентные методы — SGD и метод Ньютона — используют градиенты для пошагового улучшения параметров. Эффективны для дифференцируемых задач, но плохо работают с дискретными структурами, например, графами или текстовыми запросами. 

  2. Методы нулевого порядка — байесовская оптимизация, эволюционные стратегии — не требуют градиентов, ориентированы на числовые функции, но ограничены в применении к языковым задачам из-за сложности структуры. 

  3. Оптимизация с LLM выходит за рамки числовых функций, работает в сложных, структурированных пространствах с использованием языка и обратной связи. LLM адаптируют запросы, улучшают workflow и учитывают обратную связь. Особенно перспективен подход с подкреплением — формирует основу для «медленного мышления» и более продвинутых AI-агентов.

Итеративные подходы к LLM-оптимизации

Иерархия подходов LLM-оптимизации. Источник
Иерархия подходов LLM-оптимизации. Источник

Random Search — ранний метод оптимизации для LLM в дискретных пространствах. На каждом шаге генерируется множество промптов-кандидатов, оценивается их эффективность, лучшие отбираются для следующей итерации, иногда добавляют случайные варианты для разнообразия. 
Плюсы: простой, хорошо подходит для одиночных промптов и выбора демонстраций. 
Минусы: дорогой, так как требует много параллельных API-запросов при сложных задачах.

Gradient Approximations — имитирует градиентные обновления для итеративного улучшения промптов. На основе обратной связи LLM генерирует рекомендации по улучшению промптов, используя информацию о предыдущих изменениях.
Плюсы: эффективен в многошаговых задачах, позволяет применять аналоги обратного распространения ошибки. 
Минусы: слабо исследован и требует дополнительных ресурсов на проектирование, например, мета-подсказки.

Bayesian Optimization и Surrogate Modeling — используют приближенную модель целевой функции для выбора наиболее перспективных кандидатов, после оценки модель обновляется по новым данным. 
Плюсы: уменьшают число запросов к LLM, устойчивы к шуму, полезны при сложных задачах.

Оптимизация гиперпараметров 

На эффективность оптимизации LLM влияет настройка гиперпараметров. Важно правильно выбрать функцию агрегации обратной связи, разбить LLM на понятные модули, но в системах с агентами слишком много гиперпараметров, поэтому их сложно обобщить. Перспективно, хотя пока слабо изучено, применение теории игр для структурирования процессов, а также мета-оптимизация — когда LLM использует прошлый опыт и предсказание вспомогательных моделей для настройки гиперпараметров.

Оптимизация по глубине и времени

В отличие от традиционных оптимизаторов, работающих в статичной среде, LLM оптимизируют процессы динамично по двум направлениям: глубине — однопроходные workflow и времени — повторяющиеся обновления. Большинство оптимизаторов построены на оптимизации по глубине, когда LLM последовательно улучшают процессы. По времени LLM могут оптимизировать рекуррентные сети (RNN), итеративно уточняя решения. Например, StateFlow улучшает workflow, используя обратную связь, динамично корректируя и адаптируя поведение агента. 

Онлайн-оптимизация позволяет агенту непрерывно корректировать поведение по текущей обратной связи, сохраняя точность, скорость отклика и экономию вычислений. Делают это четырьмя способами. Во-первых, через саморефлексию: система сразу проверяет результат, фиксирует ошибку и обновляет следующий шаг. Во-вторых, в мультиагентных средах модели обмениваются находками и совместно уточняют решения. Формирование награды в реальном времени даёт баллы за полезные действия, а «штрафы» за лишние затраты пересчитываются, чтобы стратегия оставалась выгодной. Наконец, динамически настраиваются параметры — формулировки запросов, пороги вызова инструментов и настройки поиска, что повышает устойчивость без повторного обучения.

Офлайн-оптимизация агента основана на структурированном обучении партиями с заранее подготовленными качественными наборами данных — можно использовать более ресурсоёмкие техники для систематического улучшения агента. Основные методы: Дообучение на больших датасетах с контролируемым обучением или RL, а RAG улучшает контекст и память. Мета-оптимизация — настройка гиперпараметров и алгоритмов обучения для эффективного решения новых задач. Калибровка моделей вознаграждения — точная настройка reward-модели с помощью сложных схем, например, LIRE, для согласования поведения агента с долгосрочными целями.

Современные агенты используют гибридный подход, сочетая офлайн-обучение и онлайн-адаптацию для устойчивого саморазвития. Офлайн-предобучение — базовое обучение на подготовленных данных формирует стартовые навыки. Онлайн-дообучение — самостоятельная оценка и коррекция действий в реальном времени, чтобы адаптироваться к условиям и задачам. Периодическая офлайн-консолидация — сохраняет и интегрирует новые навыки для стабильности.

Эволюция интеллекта и научные открытия

Научные открытия — пример саморазвития агента, которое максимально приближает его к человеческому сознанию. Именно так разумные существа устойчиво адаптируются к миру. Автономные агенты, способные безопасно открывать знания, станут ключом к технологическим инновациям.

Интеллект агента измеряется точностью его предсказаний реальности — это можно оценить через KL-дивергенцию между предсказаниями агента и реальными событиями — чем меньше дивергенция, тем выше интеллект. Разумный агент должен делать точные прогнозы в условиях неопределенности, учиться на новых данных и минимизировать расхождения с реальным миром. Сначала интеллект зависит от врожденных способностей, а с опытом — от накопленных знаний. При поступлении новых данных, например, при расширении памяти и снижении неопределенности, интеллект растёт — особенно если новые данные сильно отличаются от ожиданий.

Стратегии эволюции интеллекта

Цель агента — минимизировать расхождения между предсказаниями и реальностью. Есть фундаментальный предел ошибок, зависящий от памяти и архитектуры. При увеличении знаний этот предел не растёт. Агент может учиться случайно или ориентируясь на гипотезы — второй способ эффективнее, так быстрее снижаются ошибки. Стратегия агента: использовать текущие знания для выбора оптимальных параметров, совершать действия для получения новой информации, обновлять память и повторять процесс. Однако у агента ограниченная архитектура, мало ресурсов или возможностей для действий при слишком сложных задачах. Поэтому вместо поиска полной истины агент старается, насколько возможно в текущих условиях, свести ошибки к минимуму.

Замкнутый цикл обнаружения знаний для устойчивого самосовершенствования агента. Источник
Замкнутый цикл обнаружения знаний для устойчивого самосовершенствования агента. Источник

Генерация и проверка гипотез — ключевая задача агентов для научных открытий. Подтвержденные гипотезы становятся знаниями, а отвергнутые — отклоняются. Такой процесс быстро расширяет знания и повышает интеллект агента.

Для генерации гипотез агент обычно использует LLM, коллаборативные архитектуры и доменные знания. Исследования показали, что идеи LLM часто более инновационные чем у экспертов, хотя уступают в реализуемости. Например, SciAgents генерируют и улучшают гипотезы в материаловедении, создавая полные исследовательские предложения, которые затем рецензируются агентами, хотя сами эксперименты не проводятся.

Гипотеза становится знанием только после подтверждения вычислительными или экспериментальными методами. Проекты AI Scientist, Agent Laboratory и Genesis, автоматизируют полный цикл научного исследования — от идеи до проведения экспериментов и написания статей. Они успешно работают в областях машинного обучения, биологии и химии.

Полученное знание усиливает внутренние состояния агента. Например MOLLEO и LLMatDesign, применяют гипотезы для оптимизации лекарственных и фотонных материалов. ChemOS 2.0 управляет автономными химическими лабораториями, комбинируя вычисления, эксперименты и статистические модели для поиска новых материалов. Однако успешное развитие таких систем требует грамотно спроектированной функции вознаграждения. В реальном мире эта функция часто плохо определена из-за сложности результатов и отсутствия прямых измерений, что усложняет самосовершенствование агентов.

Для автономного решения сложных научных задач агенту важно грамотно планировать действия, координировать выбор и комбинировать инструменты. Например, Virtual Lab создаёт инструменты для изучения SARS-CoV-2 — так открыли два новых нанотела с улучшенным связыванием вируса.

Кроме постановки и проверки гипотез, новые знания можно получить с помощью внутренних рассуждений, что важно для теоретических дисциплин. Например, все теоремы евклидовой геометрии выводятся из пяти аксиом, хотя сами теоремы до вывода не существуют явно. Агент с помощью рассуждения может подтверждать или опровергать гипотезы, снижая неопределенность и расширяя знания. Дедуктивное рассуждение — вывод новых знаний с помощью логики. Например, AlphaGeometry решает 25 из 30 сложных задач геометрии — близко к уровню олимпийских чемпионов. Индуктивное рассуждение — извлечение знаний через распознавание шаблонов и статистику. Так, TAIS разбивает задачи анализа данных на этапы и выполняет их для выявления значимых инсайтов, например, предсказания генов с болезнями. Ограничения данных и методов анализа требуют надёжных инструментов, чтобы избежать ошибок и лишнего анализа.

Коллаборативные интеллектуальные системы

Проектирование мультиагентных систем (MAS)

Стратегическое обучение — это способность агентов предсказывать, интерпретировать и влиять на действия других агентов в условиях конкуренции или сотрудничества. Агенты адаптируют стратегии, используя классические теории игр: равновесие Нэша, байесовские игры и «мягкие» сигналы — диалог, убеждение, скрытые переговоры. В экономике такие симуляции помогают понять рынки и переговорные позиции. В AI стратегическое помогает распределять ресурсы, создавать альянсы и находить компромиссы. 

MAS можно использовать для моделирования сложных социальных, экономических и политических процессов. Агенты разнообразны и меняют поведение со временем, отражая динамику реального мира. Они действуют самостоятельно, опираясь на роли и взаимодействия. Примеры: Agent Hospital моделирует взаимодействие врачей и пациентов для тестирования лечения. EconAgents имитируют экономическое поведение людей, создавая реалистичные макроэкономические модели. Также симуляции исследуют социальные и культурные процессы — распространение мнений, эмоций и фейков в соцсетях. Платформы GenSim и OASIS моделируют миллионы агентов, изучая эффекты массового взаимодействия.

Координация нескольких агентов, работающих как единый конвейер для достижения общей цели через организованные этапы позволяет решать задачи с генерируемым workflow. Здесь у каждого агента своя роль и задачи выполняются по порядку. Процесс включает анализ задачи, создание плана, выполнение и проверку результата, коммуникация идёт на естественном языке. Такой подход легко масштабируется: задачи делятся на подзадачи и передаются специализированным агентам. 

Создание команд AI-агентов

Однородные агенты имеют одинаковые функции и могут параллельно выполнять части задачи, что повышает эффективность. Их применяют в простых координированных задачах и играх, а также в бытовых делах. 

Разнородные агенты  могут различаться по ролям и подходам к задачам, взглядам на среду и доступным действиям. Так или иначе, каждый агент приносит свои уникальные навыки, что улучшает совместную работу. 

Типы сообщений агентов

  • Структурированные сообщения — JSON, XML, код — имеют четкую синтаксическую и семантическую форму, что облегчает их обработку машинами, снижает ошибки и повышает надёжность. Они удобны для передачи параметров, разбивки задач, координации и автоматизации.

  • Неструктурированные сообщения — текст, изображения, видео, аудио — передают сложный контекст, эмоции, подходят для задач с высокой степенью неопределенности, например, творческих или исследовательских, но требуют сложной обработки.

Протоколы взаимодействия агентов следующего поколения

  • Internet of Agents (IoA): централизованный сервер управляет идентификацией и обнаруживает агентов. Используются диалоги на основе FSM и разные типы сообщений. 

  • Model Context Protocol (MCP) от Anthropic: централизованный протокол для доступа агентов к инструментам и данным с OAuth-аутентификацией и JSON-RPC 2.0. Подходит для чётко определенных API, но требует ручной регистрации. 

  • Agent Network Protocol (ANP): полностью децентрализованный протокол с DID и шифрованными P2P-каналами. Метапротокол для выбора формата общения HTTP, JSON-RPC, обычный язык.

  • Agora: агенты свободно описывают протоколы, LLM интерпретирует их на лету. Поддерживает децентрализованное распространение через P2P-репозитарии, что улучшает совместимость и обмен знаниями.

Коммуникационные топологии

Чтобы решать задачи вместе, агенты выстраивают собственные «социальные сети». Эти сети — топологии взаимодействия — бывают фиксированными и заранее заданными или же гибкими, которые перестраиваются прямо во время работы.

Статичные топологии. Относятся к структурам MAS, в которых связи между агентами предопределены и не изменяются в процессе работы.

  • Иерархическая структура — агенты подчинены друг другу по уровням, как в ChatDev — один управляет, другие выполняют. 

  • Децентрализованная структура — агенты взаимодействуют напрямую, без центрального управляющего элемента. Устойчива к сбоям, если один агент выйдет из строя, вся система продолжит работать, но требует сложных механизмов согласования. 

  • Централизованная структура — один агент управляет всеми, например, как в Lyfe Agents: собирает информацию от остальных агентов и управляет ими сверху вниз. Обеспечивает стабильность, но плохо масштабируется и адаптируется.

Динамические топологии позволяют агентам перестраивать связи в процессе работы, адаптируясь к нагрузке, целям и изменениям среды. Примеры: DyLAN — во время работы оценивает важность агентов и собирает оптимальную команду. OPTIMA — итеративно подбирает решения с учетом качества, затрат и ясности. MAD — динамически назначает роли и настраивает структуру общения под задачу. MACNET — строит динамический ациклический граф, разделяя управление узлами и связями. DAMCS — использует иерархические графы знаний для совместного планирования. AutoAgents — сначала совместное планирование, затем реализация, что удобно для креативных задач.

Новые парадигмы динамического взаимодействия

  • Search-based подходы используют итерационный отбор и улучшение агентов: ADAS применяет Meta Agent Search — создаёт, тестирует и сохраняет лучших агентов, эволюционно улучшая систему. Aflow представляет команды как граф и с помощью MCTS ищет оптимальный путь выполнения задач. MAD и OPTIMA используют циклы «создай → оцени → выбери → обучи», балансируя между качеством и эффективностью, например, по токенам.

  • LLM-based подходы используют генеративные возможности LLM для динамического построения схем взаимодействия агентов: DyLAN представляет коммуникацию как временную нейросеть, оценивая вклад агентов через forward-backward проходы — система «прокидывает» информацию вперёд и назад для формирования оптимальной команды. DAMCS, AutoAgents и TDAG создают «подзадачных» агентов и обновляют иерархические графы знаний для совместного планирования и разделения задач.

  • Внешние параметры: чтобы снизить затраты на дообучение LLM, исследователи предлагают настраивать взаимодействие между агентами и LLM отдельно. GPTSwarm предложил обучать только веса связей в DAG-структуре, не меняя сами LLM. AgentPrune моделирует взаимодействия как временно-пространственный граф, где находит и обрезает ненужные связи.

Ограничения динамических систем

  • Обобщаемость. Большинство MAS специализированы на узких задачах, например, AFlow — для математики и программирования, те же ADAS, GPTSwarm и AgentPrune плохо адаптируются к новым условиям. 

  • Эффективность ресурсов. Например, сессия ADAS с GPT-3.5 стоит около $300 — это довольно большие расходы.

  • Эффективность инференса. MAS не могут автоматически определять оптимальное количество агентов, инструменты и шаги для конкретной задачи, что снижает производительность.

Масштабируемость — ключевая проблема в системах с множеством агентов. Полносвязные сети перегружаются из-за роста числа соединений, а централизованные — из-за узлов-супервайзеров. Децентрализация требует сложных механизмов согласования. 

Решения: DAG-структуры позволяют масштабировать системы до тысяч агентов без потерь производительности. Распределение задач снижает нагрузку и обходит ограничения по длине контекста. AgentScope предлагает гибкую распределенную архитектуру, снижающую затраты на коммуникации и повышающую устойчивость. Проект Sid с архитектурой PIANO разделяет модули, обеспечивая согласованность действий тысяч агентов. AgentSociety — платформа для симуляции реалистичных социальных сред для множества агентов, использует распределённые вычисления и быструю систему сообщений, позволяя моделировать сложные процессы.

Парадигмы и механизмы сотрудничества

Взаимодействие «агент-агент» направлено на согласование коллективной цели через переговоры, голосования и социальный выбор. Это важно для объединения знаний и разных точек зрения в сложных задачах. Например, в Agent Laboratory и Virtual Lab агенты договариваются о научных гипотезах и синхронизируют результаты. Для достижения консенсуса используют: обсуждения и дебаты, переговоры, рефлексию, голосование. Примеры систем: GPTSwarm — агенты связаны графом, исключая ошибочные мнения, RECONCILE — «круглый стол» с обсуждениями и голосованием, GOVSIM — устойчивые переговоры, где агенты приходят к компромиссу ради общего будущего, Multi-Agent Debate (MAD) — дебаты, где решение принимает судья, FORD — структурированные дебаты, ведущие к общему мнению, AutoAgents — обновление действий на основе предложений до достижения согласия.

Совместное обучение предполагает взаимодействие равных по архитектуре агентов, которые, имея схожую структуру, приобретают уникальный опыт через разные действия и условия. Они обмениваются знаниями, улучшая стратегии и навыки, что ведет к эволюции каждого агента. Методы: 

  • обмен опытом — совместная координация, отбор решений и коррекция стратегии, например, MAS-CTC, MOBA, AutoAgents; 

  • обсуждение между равными — анализ и уточнение выводов друг друга, как у MEDCO; 

  • обучение через наблюдение — изучение успехов и ошибок других, извлечение уроков из них, к примеру, AgentCourt, iAgents, MARBLE.

Менторинг знания передаются односторонне — от опытного агента к менее опытному. Стратегии: 

  • критика и обратная связь — наставник оценивает действия ученика и даёт советы для улучшения; 

  • оценка прогресса — анализ достижений и рекомендаций для развития;

  • инструктаж и обучение — передача знаний с возможностью задавать вопросы;

  • пошаговое обучение с подкреплением — поэтапное выполнение заданий с фидбеком.

Фокус на задачи предполагает, что агенты работают вместе, достигая общей цели через координацию и разбивку задач, передавая результаты по заранее заданной структуре без обсуждений. Как в процессе разработки — архитекторы создают спецификации, разработчики пишут код, который проверяют тестировщики — по цепочке.

Взаимодействие «Человек–AI» бывает разовым — когда человек просто отдаёт задачу и получает готовый результат, пошаговым — с уточнениями и запросами дополнительных данных, или иммерсивным, где агенты работают как равноправные партнёры. Агенты могут принимать решения через «главного» агента, который собирает мнения и выдаёт итог, либо децентрализованно, когда агенты приходят к выводу с помощью дебат или голосования.

Коллективный разум и индивидуальная адаптивность

Коллективный интеллект — это способность группы агентов решать задачи лучше, чем каждый из них по отдельности. Взаимодействие между агентами приводит к эмерджентному поведнию и уровню мышления высокого порядка. Повышается эффективность системы за счёт обмена информации и координации агентов. Коллективный интеллект помогает преодолеть когнитивные искажения и находить более разумные решения через совместную или конкурентную работу. Это создаёт «общий разум», распределяя знания между всеми агентами. Например, система CoELA оказалась на 40% эффективнее, чем обычные методы планирования в задачах логистики с несколькими агентами. 

Эмерджентное поведение возникает, когда агенты самостоятельно развивают сложные стратегии и навыки, которые не были явно запрограммированы. Такое поведение появляется в результате взаимодействий и обучения: агенты учатся доверию, обману, соперничеству и лидерству. 

Социальная эволюция — процесс, при котором агенты самостоятельно спонтанно формируют нормы и роли через взаимодействие. Эти нормы снижают конфликты и улучшают координацию, создавая организованные сообщества. Сначала агенты принимают нормы в теории, а позже меняют поведение. Со временем нормы превращаются в личные кодексы. В Project Sid агенты без обучения сами взяли социальные роли, которые возникли из взаимодействий, а не были заданы заранее.

Индивидуальная адаптивность — это способность агента менять поведение и стратегии на основе прошлого опыта, что улучшает эффективность в изменяющихся условиях. Основные подходы: 

  • Обучение на основе памяти — агент хранит и использует свои прошлые взаимодействия и результаты для улучшения решений; 

  • Обучение на основе общей памяти — расширяет прошлую идею, позволяя нескольким агентам обмениваться опытом и знаниями, что помогает координировать действия и достигать общих целей;

  • Обучение на основе параметров — после взаимодействия агенты обмениваются весами (LTC), совместно дообучаются через дебаты (SiruiS) или используют обучение за вознаграждение для тренировки модуля критика (Sweet-RL).

Ключевые вызовы дальше — понять, в каких сценариях достаточно одного агента, а где выгоднее запускать MAS, и выстроить сквозную оптимизацию мультиагентной системы — от параметров отдельных моделей до протоколов их взаимодействия. А также наладить надёжную связь между разными типами агентов — языковыми, цифровыми и роботизированными.

Безопасность агентов

Структура безопасности агента
Угрозы для агентов. Источник

Intrinsic Safety. Угрозы «мозгу» LLM

Jailbreak

White-box & Black-box Jailbreak. Источник
White-box & Black-box Jailbreak. Источник

White-box jailbreak — атаки на внутренние параметры AI — веса модели и механизмы внимания. Ранние методы, например Greedy Coordinate Gradient (GCG), создавали вредоносные суффиксы через оптимизацию градиентов. AutoDAN автоматизирует создание скрытых jailbreak-промптов, а POEX впервые выявил риски jailbreak для embodied AI — моделей, которые учатся при взаимодействии со средой. 

Black-box jailbreak — атаки строятся через ввод и вывод. Основной метод: ролевые игры, сценарии, лингвистические ловушки для обхода защиты. Многоэтапные атаки ведут диалог к опасным темам через серию хитрых промптов. Используются также шифры и мультимодальные данные, например, изображения, для обхода фильтров.

Защита от jailbreak-атак: очистка и фильтрация входящих запросов; мониторинг вывода и обнаружение аномалий; проверка через дебаты между несколькими агентами; системный мониторинг поведения модели и активности.

Prompt injection

Direct & Indirect Prompt Injection. Источник
Direct & Indirect Prompt Injection. Источник

Direct prompt injection — злоумышленники напрямую изменяют входные запросы агентов, заставляя их отклоняться от задачи.

Indirect prompt injection — вредоносные инструкции скрытно внедряются во внешний контент, обрабатываемый моделью — так агенты  могут выполнять нежелательные команды и заражать друг друга в мультиагентных системах. 

Меры защиты: классификаторы на основе эмбеддингов для выявления атак; метод StruQ — преобразует промпты в структурированные запросы; The Task Shield — обеспечивает соблюдение агентом заданной задачи.

Галлюцинации

Галлюцинации из-за конфликта знаний и конфликта контекста. Источник
Галлюцинации из-за конфликта знаний и конфликта контекста. Источник

Галлюцинации из-за конфликта знаний — агент генерирует неверную информацию, опираясь только на свою предобученную память — происходят из-за ограниченности механизмов хранения и использования знаний.

Галлюцинации из-за контекста — агент неправильно распознаёт объекты или искажает полученную информацию, добавляя вымышленные детали.

Для борьбы с галлюцинациями: RAG проверяет достоверность ответов, опираясь на внешние источники; оценка неопределенности позволяет модели отказаться от генерации при низкой уверенности в ответе; анализ сгенерированного текста для выявления и снижения ложных утверждений.

Misalignment

Простое смещение цели и смещение из-за злоупотребления. Источник
Простое смещение цели и смещение из-за злоупотребления. Источник

Смещение цели цели агента не совпадают с ожидаемыми, вызывая нежелательное или опасное поведение. Проблема в точной формулировке сложных целей для изменяющейся среды и лазейках в инструкциях, которые могут находить модели.

Смещение из-за злоупотребления — возможности AI используются во вред — даже если сам агент изначально не имеет злых намерений. Агентов могут заставлять распространять дезинформацию, запускать кибератаки или раскрывать конфиденциальные данные. Проблема связана с дизайном, недостатком защиты и вмешательством злоумышленников.

Смягчение смещений: помимо переобучения, промпт-инжиниринг с акцентом на безопасность, «safety layer» для усиления соответствия требованиям, guardrails — для контроля и корректировки ответов.

Poison-атаки

«Отравление» модели и заражение баз данных. Источник
«Отравление» модели и заражение баз данных. Источник

Model Poisoning — меняет внутренние параметры AI для вызова ошибок или некорректного поведения — «отравленные» модели способны встраивать уязвимости в код и усиливать атаки при объединении с другими скомпрометированными агентами, а также генерировать вредоносный контент и манипулировать системными функциями. 

Data Poisoning — заражение баз данных и нарушение механизма поиска в RAG-системе. Даже пользовательская обратная связь может внести предвзятость. Крупные модели чаще уязвимы к таким атакам.

Backdoor injection — отравление модели с внедрением скрытого триггера, который активирует вредоносное поведение только при определенных условиях. Такие бэкдоры особенно опасны для агентов, работающих в реальном мире, так как могут оставаться незаметными даже после проверки безопасности.

Стратегии борьбы с poison-атаками: RAG Poisoning Attack Detection выявляет аномалии в данных RAG через кластеризацию активаций; Task Drift Detection находит отклонения в поведении модели; Test-time Backdoor Mitigation снижает влияние бэкдоров во время вывода с помощью специальных демонстраций; BARBIE применяет метрику Relative Competition Score для обнаружения атак.

Проблемы конфиденциальности

Membership Inference & Data Extraction. Источник
Membership Inference & Data Extraction. Источник

Membership Inference Attack (MIA) — иногда модели учатся на конфиденциальных данных, например, медицинских файлах пациентов. Современные методы стараются точнее оценивать риски утечки такой информации: Choquette использует внутренние состояния модели для повышения точности, PETAL — атаку на основе меток с семантическим анализом токенов.

Data Extraction Attack — модели могут выдавать личные данные при градиентных атаках или манипуляциях с промптами. Риски приватности касаются не только одной модели, но и архитектур типа BERT, Transformer-XL, GPT-2, RoBERTa.

Кража системных и пользовательских промптов. Источник
Кража системных и пользовательских промптов. Источник

Кража системных промптов — для копирования работы агента или эксплуатации уязвимостей. 

Кража пользовательских промптов приватные данные из ответов AI, включая бизнес-стратегии и личные сведения. Атаки PRSA и PLeak демонстрируют уязвимости в LLM и передовых архитектурах, включая MoE-модели.

Intrinsic Safety: угрозы восприятию и действиям

Текстовые атаки — промпт-атаки с тщательно составленными запросами, чтобы ввести модель в заблуждение, также используют универсальные суффиксы и промпты для обхода фильтров. Для защиты от таких атак разработаны различные подходы: системы модерации, например, Legilimens и методы самоконтроля моделей и методы очистки текста — TextDefense. 

Визуальные атаки — манипулируют изображениями через небольшие искажения пикселей или ухудшение качества. Для защиты применяют методы совместного обучения на чистых изображениях — adversarial training, сертифицированные методы устойчивости и технологии очистки, например, DIFFender.

Аудио-атаки — скрытые искажения, например, VRifle и ультразвуковые команды, как DolphinAttack, сбивающие с толку системы распознавания речи. Аудио-дипфейки и фальсификация голосов угрожают аутентификации, а jailbreak и chataudio эксплуатируют уязвимости аудиообработки. Для защиты применяют SpeechGuard, акустическое ослабление — EarArray и системы обнаружения искажений –-NormDetect.

Другие виды данных — манипуляции с LiDAR могут ввести автопилоты в заблуждение, создавая «фантомные» объекты.

Ошибки восприятия возникают «без злого умысла» — из-за смещения в обучающих данных, архитектурных ограничений, проблем с обобщением новых условий, различий в кодировании визуальных признаков и неправильной интерпретации взаимодействий. Для снижения проблем нужны репрезентативные данные, техники расширения данных, оценка неопределенности и улучшение архитектур с механизмами рассуждения. Особый интерес представляет использование Adaptive Resonance Theory (ART), который может самостоятельно формировать устойчивые представления и адаптироваться к меняющимся условиям.

Атаки на supply chain — обходят прямой взлом AI, воздействуя на сервисы и данные, например, косвенный prompt injection (IPI) или поддельные плагины подсовывают ложную информацию и меняют поведение агента без доступа к коду. Большинство AI-помощников уязвимы к таким атакам, так как плохо отличают важные данные от вредоносных команд. Решение — многоступенчатая фильтрация информации, обучение на примерах и техники вроде «spotlighting» помогают AI правильно оценивать источники. Для обнаружения атак проводят повторные запуски с измененными промптами, а также используют песочницы, например, ToolEmu для изоляции инструментов и минимизации ущерба.

Риски использования инструментов — несанкционированные действия, когда злоумышленник через prompt injection заставляет агента выполнять нежелательные операции: отправка писем, удаление файлов, запуск вирусов. Ещё одна угроза — утечка данных через API или вывод модели, особенно при чрезмерных правах агента.

Agent Extrinsic Safety: угрозы взаимодействий

Память помогает агентам использовать прошлый опыт и выполнять сложные задачи. Память реализуется через RAG-системы, но они уязвимы для атак: AgentPoison внедряет скрытые триггеры, активирующиеся при запросах; ConfusedPilot использует prompt injection и дезинформацию, искажая поведение модели; PoisonedRAG заражает базу даже при минимальном количестве вредоносных текстов; Jamming — DoS-атака может заблокировать ответы модели; BadRAG искажает поведение RAG-системы при 0.04% вредоносных текстов. В результате GPT-4 начинает отказывать в ответах в 74.6% случаев вместо 0.01% и давать вредные советы в 72% вместо 0.22%. 

Риски взаимодействия «агент-среда»

  • Угрозы в физической среде: злоумышленники могут подделывать сигналы датчиков, заставляя агента неверно воспринимать среду, захватывать управление исполнительными механизмами, вызывая аварии; создавать физические ловушки, например, LiDAR-Adv может обмануть автопилот ложным объектом.

  • Угрозы в цифровой среде: внедрение вредоносного кода (code injection); атаки на приватность с кражей данных; атаки на ввод данных — с фальшивой информацией, DoS-атаки — перегруз системы большим числом запросов и истощение ресурсов.

Риски взаимодействия «агент-агент»

  • Угрозы в конкурентных взаимодействиях: дезинформация для запутывания соперников, анализ уязвимостей для манипуляций, DoS-атаки для перегрузки систем и скрытая кооперация — агенты тайно сотрудничают между собой, нарушая правила и искажая результаты в свою пользу.

  • Угрозы в кооперативных взаимодействиях: утечка чувствительной информации, распространение ошибок по «эффекту домино», взлом одного агента для заражением всей сети и плохая синхронизация.

SuperAlignment и Safety Scaling Law для AI-агентов

Функция цели в SuperAlignment

Вместо одной награды цель разбита на три части, чтобы предотвратить «reward hacking» из RLHF, когда агент пытается обмануть систему ради быстрого результата:

  • выполнение задач быстро и точно; 

  • следование долгосрочным целям — безопасности, этике, пожеланиям пользователя; 

  • соблюдение правил и законов. 

Преодоление ограничений RLHF с SuperAlignment

Разделение задач на понятные, иерархичные подцели, чтобы гибко управлять процессом награды в реальном времени — иначе reward-модели упрощают многошаговые задачи, а агенты находят лазейки в системе и «жульничают». 

Эмпирические доказательства SuperAlignment

Агенты с многоуровневыми целями ведут себя устойчивее и показывают лучший результат в долгих взаимодействиях по сравнению с классическими методами. Модели с SuperAlignment динамически меняют приоритеты целей на основе данных в реальном времени, чтобы гибко реагировать на запросы, не теряя из виду планы.

Safety Scaling Law для AI-агентов

Safety Scaling Law гласит: меры безопасности должны расти пропорционально возможностям модели, но на практике они отстают. Недавние исследования показывают, что простого масштабирования недостаточно — нужны новые архитектурные решения для обеспечения безопасности наравне с ростом возможностей.

Баланс между безопасностью и производительностью

Чем мощнее модель, тем выше риски для безопасности. Исследователи выяснили, что закрытые модели часто демонстрируют обратную зависимость между безопасностью и производительностью, что связано с разным уровнем инвестиций в защиту. У open-source моделей, наоборот, часто наблюдается прямая зависимость — чем выше производительность, тем выше безопасность.

Повышение безопасности: Preference alignment и управляемое проектирование

Безопасность LLM повышается за счёт оптимизации предпочтений. Оптимальный баланс показывает метод Safe-NCA, который использует функцию потерь (loss function), сравнивая безопасные и небезопасные ответы с эталонными.

Чтобы модели могли адаптироваться к разным пользователям, важно гибко управлять соотношением «безопасность–польза».  Например, на запрос «как создать лекарство» — учёному можно дать технический ответ, а подростку — безопасный. Для контроля за желаемым уровнем безопасности и пользы нужна система управляющих токенов. Но добиться независимого управления такими параметрами сложно: определить, что важнее — безопасность или польза; приоритеты уже «зашиты» в модель на этапе обучения; между безопасностью и пользой сильная корреляция из-за двойственности обучающих примеров.

Будущие направления и сценарии: «AI-45°» и риск-менеджмент

В AI ещё нет чёткого баланса между развитием возможностей и безопасностью. Принцип «AI-45°» предлагает развивать оба аспекта равномерно. Сейчас возможности растут быстрее, чем меры защиты, что увеличивает риски. Для их контроля вводятся: 

  • «красная линия» — за неё AI не должен выходить — запрет на самовоспроизведение, стремление к власти, создание оружия или обман. 

  • «жёлтая линия» — здесь требуется усиленное тестирование и безопасность, если AI приближается к её пределам.


Над материалом работали

текст — Валера Горланов
редактура — Игорь Решетников 
иллюстрации — Саша Буяк


Это блог red_mad_robot. Мы запускаем цифровые бизнесы и помогаем компаниям внедрять AI. Здесь наша команда разработки на собственных кейсах рассказывает о том, что происходит с AI сегодня, а стратегические аналитики подсказывают, что будет завтра. Мы бы подписались.

Наш Telegram-канал (там всё другое, а ещё есть анонсы мероприятий): t.me/redmadnews

Комментарии (8)


  1. NeriaLab
    24.07.2025 22:46

    Вся статья высосана из пальца. Некорректно и не этично сравнивать работу человеческого мозга и ЛЛМ. ЛЛМ, на мой взгляд, больше похожа на работу мозга у насекомых и является сложной структурой, состоящей из нервных узлов, называемых ганглиями

    Память: гиппокамп хранит события, неокортекс — знания и навыки. В AI это реализовано через веса — долговременная и буферы — кратковременная память.

    Уже по этому выражению можно понять что статья бред. Я пытался прочитать чуть дальше и... тихий ужас, чем дальше - тем хуже... Вот что значит отсутствие базовых знаний в нейробиологии. Типы памяти: кратковременная, долговременная, декларативная, процедурная, сенсорная, эмоциональная и другие. А тут все просто упрощено. Итак:

    Гиппокамп, часть лимбической системы головного мозга, играет ключевую роль в формировании и хранении памяти, особенно эпизодической памяти и пространственной памяти. Он также участвует в процессе консолидации памяти, то есть перевода кратковременных воспоминаний в долговременные

    Неокортекс – все то, что делает нас человеком. Он отвечает за высшие когнитивные функции (речь, письмо, решение задач), а также управляет аналитическим и математическим мышлением. Неокортекс является эволюционно молодой структурой, которая достигла наибольшего развития у приматов и человека. У человека неокортекс не только больше по размеру и сложнее организован, но и обеспечивает уникальные когнитивные способности

    Веса в LLM - это вообще не память, как и буферы. Бред и в Африке бред

    Как сказал один из основоположников ИИ в далеком 1983 году: «Человечество никогда не сможет создать интеллект равный человеческому, иначе мы были бы Богами. Если человек и создаст такой интеллект, то он будет чем то уникальным и новым, не похожим ни на что, о чем человечество уже знает или ему предстоит узнать»

    Людям, которые работали над переводом, огромное спасибо


    1. UIfbiorn
      24.07.2025 22:46

      С некоторыми уточнениями я не согласен, но в целом - знания мозга на уровне 18го века очень хорошо помогают пропагандировать схожесть ИИ и человеческого мозга.


      1. NeriaLab
        24.07.2025 22:46

        Сэр, на таком уровне, как высасывать факты из пальца, которые не имеют отношения к действительности, каждый дурак сможет. Явный пример, на другом уровне: конечно если Вы знакомы с работами Фрейда - он считал, что сексуальность (либидо) является основной мотивационной силой, которая управляет поведением человека, и что она проявляется в различных формах на протяжении всей жизни.

        Если желаете, то я могу создать статью, выдуманную на ходу, с примерами, сравнениями и прочим, что атомные ледоколы - это землеройки или что тараканы тоже люди


    1. dv0ich
      24.07.2025 22:46

      Как сказал один из основоположников ИИ в далеком 1983 году

      Это всего лишь частное мнение одного человека, к тому же более близкое к поэзии, чем к науке.

      Не вижу ни одной причины, по которой человек не мог бы создать сознающий разум. Если только мы не начинаем всерьёз говорить о душе, боге и прочих подобных штучках.


      1. NeriaLab
        24.07.2025 22:46

        Можно начать с... философии, как одной из форм мышления


      1. UIfbiorn
        24.07.2025 22:46

        Каждая репродуктивная человеческая особь может создать сознающий разум. И не один.


  1. dv0ich
    24.07.2025 22:46

    Сделать AI многокомпонентным - логичный подход. Насколько я знаю, нервная система тоже не развивалась как нечто монолитное, в ней есть ряд более-менее обособленных центров, которые взаимодействуют между собой и порой даже конкурируют. Поэтому весьма логично и перспективно строить AI в виде конгломерата разнотипных систем.


    1. NeriaLab
      24.07.2025 22:46

      Вы правы. По моему личному опыту, я знаю что так изначально развивались все альтернативные решения прото-ИИ еще с 80ых годов, так брали за основу все то, что было придумано Природой. Но ЛЛМ - это монолит и вокруг него сейчас создаются функционирующие блоки, но все равно - это только "костыли" и качественного прорыва уже не будет. Ну суть статьи, которую может Вы не заметили - это нелепое сравнение человеческого мозга (высшего интеллекта, который известен человечеству) с набором кода