Мультиагентные системы на базе LLM почти всегда строятся вокруг текстовой коммуникации. Агенты объясняют друг другу планы, уточняют шаги, формируют выводы — всё это через генерацию токенов. Такой подход кажется естественным, но он порождает фундаментальные проблемы: текст генерируется медленно, ошибки формулировок на ранних этапах распространяются вниз по цепочке, а количество токенов растёт лавинообразно.
Исследователи из Принстона, Стенфорда и Иллинойса предлагают другой путь: отказаться от текстовых сообщений между агентами и вместо этого обмениваться скрытыми представлениями модели. Их система, LatentMAS, показывает, что модели могут сотрудничать напрямую в латентном пространстве — там, где их мысли существуют изначально.
Идея: агенты делятся не текстом, а скрытыми состояниями

LatentMAS меняет саму природу коммуникации. Агент больше не формирует токены. Вместо этого он порождает последовательность скрытых состояний последнего слоя, которые:
сохраняются в KV-кэше трансформера;
передаются следующему агенту;
используются как контекст для дальнейшего рассуждения.
Таким образом, цепочка ризонинга строится полностью внутри латентного пространства, а текст появляется только один раз — на выходе последнего агента.
Это возможно именно потому, что скрытые представления являются истинным носителем смысла в LLM. Текст — лишь удобный для человека интерфейс, но вовсе не оптимальный формат для машинного сотрудничества.
Почему новый подход работает лучше

Латентные представления гораздо информативнее текста
Каждое скрытое состояние несёт значительно больше семантики, чем один токен. Последовательность скрытых векторов накапливает информацию быстрее и плотнее, чем текстовая цепочка рассуждений. Чтобы выразить текстом тот же объём смыслов, который содержится в короткой латентной последовательности, требуется на порядки больше токенов.
Именно поэтому LatentMAS может выполнять сложные задачи, используя несколько десятков латентных шагов вместо тысяч и десятков тысяч токенов.
Передача KV-кэша полностью сохраняет информацию
KV-кэш хранит промежуточные ключи и значения, которые модель использует в механизме внимания. Если один агент передаёт другому свой KV-кэш, второй агент получает тот же контекст, который он получил бы, если бы предыдущий агент выразил свои мысли текстом, а затем этот текст был бы снова пропущен через модель. Но без двух дополнительных стадий: текстовой генерации и повторного кодирования.
В результате передача KV-кэша обеспечивает:
отсутствие искажений, связанных с текстовой формой;
отсутствие издержек на генерацию токенов;
более устойчивое и непрерывное рассуждение.
Снижение вычислительной сложности
Переход к латентным шагам резко сокращает объём операций. Латентные шаги не требуют работы с выходным словарём, а последовательность скрытых векторов короче текстовой. Это позволяет достичь кратного ускорения по сравнению с TextMAS, даже если TextMAS оптимизирован через vLLM.
Архитектура LatentMAS: последовательные и иерархические схемы
LatentMAS не меняет логику мультиагентной оркестрации — только способ передачи информации.

Агенты выполняют функции планировщика, критика, рефайнера и решателя. Раньше они передавали друг другу текст, теперь — латентные представления.
Hierarchical MAS
Несколько доменных агентов (например, математический, научный и кодовый) формируют свои рассуждения независимо, а summarizer объединяет их, опираясь на полученные KV-кэши.
Обе архитектуры демонстрируют одинаковый прирост производительности при переходе от текстового обмена к латентному.
Результаты: точнее, быстрее, экономичнее

Эксперименты проводились на девяти бенчмарках: GSM8K, AIME24/25, GPQA, MedQA, ARC-Easy/Challenge, MBPP-Plus, HumanEval-Plus.
Рост точности
LatentMAS повышает точность относительно одиночной модели двузначными значениями, а относительно текстового мультиагентного режима — несколькими процентами на самых сложных задачах. Это особенно заметно в задачах, где TextMAS склонен к накоплению ошибок.
Ускорение
Система стабильно показывает ускорение инференса в четыре и более раз, даже если baseline использует vLLM. На отдельных задачах достигается семикратное ускорение.
Снижение числа токенов
Выигрыш достигает 70–80 процентов по сравнению с текстовыми мультиагентными системами. Даже относительно одиночной модели LatentMAS сокращает генерацию токенов, поскольку почти вся работа выполняется в латентном пространстве.
Латентные мысли: как модели понимают собственные представления

Авторы визуализируют распределение латентных скрытых состояний и эмбеддингов токенов. Интересное наблюдение: латентные мысли занимают тот же смысловой регион, что и токены, которые модель обычно генерирует. Но при этом покрывают более широкую область эмбеддинг-пространства.
Это показывает, что латентные векторы не просто замещают токены — они несут более гибкую и богатую структуру смыслов, чем их текстовая форма.
Пример: когда TextMAS ошибается, а LatentMAS успешно решает задачу
В статье разбирается задача из GSM8K. В TextMAS ошибка, появившаяся в рассуждении планировщика, постепенно распространяется дальше. Рефайнер уточняет уже искажённую логику, и решатель приходит к неверному ответу.
LatentMAS работает иначе. Следующий агент получает не текстовые формулировки предыдущего, а его полное семантическое состояние. Это снижает влияние ошибок, возникающих на уровне словесного выражения мысли, и позволяет итоговому агенту реконструировать правильное рассуждение. Именно поэтому LatentMAS даёт корректный ответ там, где TextMAS ошибается.
Ограничения и перспективы
LatentMAS предполагает совместимость архитектур агентов, поскольку их скрытые пространства должны совпадать. В будущем это можно решить адаптерами или дополнительным обучением. Потенциальное развитие — создание обучаемых латентных протоколов, где агенты оптимизируют взаимодействие внутри скрытого пространства так же, как сегодня они оптимизируют генерацию текста.
Но уже сейчас LatentMAS показывает, что текст — не единственный и далеко не самый эффективный язык общения между моделями. Переход к латентному взаимодействию открывает путь к новому поколению мультиагентных систем, способных сотрудничать быстрее, глубже и устойчивее.
Чтобы не пропустить анонс новых материалов подпишитесь на «Голос Технократии» — мы регулярно рассказываем о новостях про AI, LLM и RAG, а также делимся полезными мастридами и актуальными событиями.