
В октябре 2025 года на передний план вышла концепция роя агентов: это десятки ИИ-моделей, которые учатся друг у друга, спорят, передают опыт, управляют устройствами и даже видят мир через очки, понимая весь информационный контекст, который вас окружает.
Агенты уже берут на себя глубокие корпоративные исследования, учатся по роликам на YouTube, общаются друг с другом на уровне мыслей, а не слов, сдают экзамены в медицинской виртуальной клинике, строят графики на уровне профессиональных дата-аналитиков и даже работают в роли научных ассистентов.
Обо всём этом расскажу вам более детально в новом обзоре главных научных исследований об ИИ за октябрь.
Если хотите быть в курсе новейших исследований в области ИИ, подписывайтесь на Dataism Science Hub — там ежедневно выходят обзоры свежих научных публикаций. А ещё приглашаю в мой авторский Telegram-канал: здесь я делюсь кейсами внедрения ИИ в бизнес, опытом создания стартапов и личными мыслями о будущем технологий.
Поехали.
1. От хаоса данных к управляемому знанию: как ИИ-агенты помогают бизнесу принимать точные решения
Корпоративные данные часто существуют в хаосе: они разбросаны по электронной почте, дашбордам, Github, Confluence и другим сервисам. В итоге классические агенты используют эти данные поверхностно для ответов на важные аналитические и стратегические вопросы. Они предоставляют понятный ответ, но не дают представления о том, на каких данных он основан.
Исследователи из Salesforce задались вопросом, можем ли мы доверить агенту-исследователю глубокое корпоративное исследование, при этом сохранив прозрачность и воспроизводимость пути от данных до его вывода.
Enterprise Deep Research (EDR) решает такие задачи. EDR использует оркестратор для декомпозиции запроса, четыре специализированных поисковых агента для поиска релевантных источников, MCP-инструменты для подключения корпоративных баз данных, рефлексию для заполнения пробелов и корректировки плана. Он записывает всю мыслительную цепочку в план todo.md, как рабочий журнал. В результате мы получаем агента, который выдерживает долгие исследовательские сценарии, хорошо сжимает контекст, не теряя ссылок на источники, пересобирает план по мере продвижения и выдает отчеты, которые можно проверить и повторить.

EDR значительно превосходит открытые аналоги на задачах DeepResearch Bench и DeepConsult из-за своего поведения, а не из-за размера модели. На этих бенчмарках требуются длинные мыслительные цепочки с планированием, поиском и цитированием источников.
Агенты на базе EDR ведут себя как команда реальных аналитиков, планируя, проверяя, правда иногда запутываясь, но всегда сохраняя прозрачность.

Исследователь может изменить план на любом этапе, не теряя ссылок и целостности. EDR не пытается быть лучшим интеллектуальным помощником на все случаи жизни, он просто превращает людей-исследователей в менеджеров исследовательской команды агентов и трансформирует корпоративные знания в инструмент принятия решений.

? Подробнее | ? Полная статья | ? Код
2. Как агент учится на ходу: почему память оказалась сильнее дообучения
Агенты часто не справляются со сложными офисными задачами: там много шагов, переключение окон, разные проверки результатов — и они постоянно повторяют одни и те же ошибки. Большие языковые модели помогают агентам в простых задачах, но из-за ошибок они бессильны на более сложных.
Агенты статичны — они не запоминают сценарии успешного решения задачи, не избегают неудачных сценариев и не становятся лучше с каждой следующей попыткой прохождения. Дообучение применяется редко, так как это дорого.
Но может ли агент улучшаться в процессе решения задачи, не меняя параметры модели? Фреймворк MUSE предлагает цикл планирования, выполнение задачи, рефлексии и запоминание. Успешные сценарии сохраняются как простые для чтения и извлечения, опыт - для закрепления стратегических находок, действия с инструментами - для уточнения их использования. Все три типа памяти сохраняются в формате естественного языка. Затем опыт используется на новых задачах.

Результаты получились обнадеживающими. На бенчмарке TAC (TheAgentCompany, 175 реальных офисных задач) MUSE устойчиво улучшала метрики с каждой новой попыткой. MUSE превосходил вариант без памяти более чем на 10% на задачах из датасета TAC. На всех 175 офисных задачах частичный балл повысился почти на 20%.

В реальных сценариях агент исправлял свой план, создавал необходимые учётные записи, объединял чаты разных сотрудников, повторял успешные стратегии несколько раз, опираясь на ранние записи.

Вывод: разные типы памяти превосходят дообучение модели. Небольшие фрагменты проверенного на практике опыта передавались от задачи к задаче и даже между моделями. Рефлексия оказалась важна - без нее резко падало качество работы агента: он не получал нужных сигналов для улучшения. MUSE показывает, что агенты могут улучшаться в процессе работы без дообучения модели, опираясь на собственный опыт.
? Подробнее | ? Полная статья | ? Код
3. Как агенты учатся по видео на YouTube
Современные агенты плохо работают с настоящим пользовательским интерфейсом. Они промахиваются мимо кнопок, теряют контекст, не отслеживают переходы между состояниями и вообще ведут себя так, будто впервые видят UI. Всё по одной простой причине: у них мало хороших демонстраций и много синтетических данных, которые не отражают реальные действия человека.
Исследователи предложили использовать для обучения интерфейсам YouTube-туториалы. Не инструкции или разметку, а именно реальные пользовательские действия. Цель работы - выяснить, возможно ли автоматически извлечь точные шаги UI-взаимодействия из необработанных видео и превратить их в сценарии, пригодные для обучения агентов.
Архитектура Watch & Learn (W&L) основана на том, что видео пропускается через связку из SigLIP-2 и Transformer, которые хорошо моделируют динамические визуальные данные. Они анализируют пары соседних видеокадров и предсказывают действие пользователя: клик, ввод текста, координаты, выбор элемента и т.д. В итоге сырые YouTube-видео превращаются в исполняемые UI-сценарии. Эти сценарии затем дважды используются для обучения: как примеры в контексте и как данные для SFT.


Масштаб впечатляет: 53 125 сценариев из 69 приложений. На OSWorld-Verified отмечается прирост у всех больших моделей (Gemini Flash +3%, o3 +2.5%, Sonnet +1.6%, Jedi +2.2%). Открытые модели получили ещё больший прирост - Qwen-VL 7B улучшился на 11.1%. Сценарии, полученные из видео, показали 91.6% точности предсказания пользовательских действий - лучший результат в своем классе.

Главный вывод таков: видео являются полноценным источником навыков для ИИ. Watch & Learn демонстрирует, что агент может обучаться интерфейсам на реальных пользовательских действиях, без необходимости дорогой разметки или ручного сбора демонстраций. Это ещё один шаг к созданию агентов, которые уверенно чувствуют себя в любых приложениях и которым не нужно учиться работать в новом UI дольше, чем это требуется человеку.
4. Почему слова мешают ИИ-агентам понимать друг друга
Мультиагентные системы делают разумные на вид вещи: обсуждают план, уточняют гипотезы, спорят друг с другом. Но итоговый ответ часто хуже, чем у одной большой модели. Это указывает на фундаментальную проблему: не в интеллекте агентов, а в самом коллективном рассуждении. Вернее, в языке, который они используют для общения.
Человеческий язык линеен, неоднозначен и слишком груб для внутренних представлений ИИ. Когда агент переводит свои мысли в текст, он теряет нюансы рассуждений, смешивает противоречивые гипотезы и привносит шум. В результате коллективное рассуждение выражает размытое мнение.
Исследователи задаются вопросом: могут ли агенты общаться напрямую фрагментами внутренних представлений — “мыслями” — без перехода в текст?Фреймворк ThoughtComm предлагает общее латентное пространство мыслей Zₜ и автоэнкодер с разрежением по якобиану, который разделяет общие и приватные факторы из внутренних состояний разных агентов. Затем каждому агенту возвращают только релевантные его роли компоненты мысли путём префиксной инъекции в эмбеддинги.


На реальных задачах MATH и GSM8K мультиагентное обсуждение с языком мыслей даёт на 17 пунктов точности лучше бейзлайна, а согласованность между агентами увеличивается без потери качества. ThoughtComm показывает, что прямой обмен «мыслями» делает коллективное рассуждение точнее и стабильнее, чем диалоги на естественном языке.
5. Децентрализованный ИИ: как рой нейросетей побеждает большие модели
Все больше экспертов говорят о том, что будущее ИИ не в одной модели, а в целой экосистеме независимых агентов. В теории мультиагентное взаимодействие может переигрывать большие модели не за счет количества параметров, а за счет организации взаимодействия агентов.
Однако на практике эффект роя невелик, большинство участников дают шумные ответы, что затрудняет выбор оптимального решения. Более того, в открытой среде, подверженной атакам Сивиллы (создание множества фейковых аккаунтов, чтобы получить контроль над системой), рой может неизбежно деградировать, поскольку большинству будет невыгодно поддерживать высокое качество решений.
В новом исследовании авторы стремятся построить децентрализованный рой, который в реальных условиях будет точнее больших моделей, устойчивее к атакам и экономически выгоднее.
Система Fortytwo сочетает в себе репутацию, коллективное голосование и защиту от атак Сивиллы с помощью механизма proof-of-capability. Система заимствует концепции как из блокчейна, так и из теории голосования. Каждый узел действует как судья и как участник: он предлагает свой собственный ответ, а также проводит серию парных сравнений между предложениями других участников. Эти локальные сравнения затем агрегируются в глобальный рейтинг с использованием модели парных сравнений Брэдли–Терри.
Репутация отражает согласие с глобальным выбором и обновляется в соответствии с задачами, требующими коллективных решений. Участники с высокой репутацией обладают большей властью в голосовании. Proof-of-capability предъявляет участникам продемонстрировать свою способность решать задачи до того, как их голос будет учтен, тем самым укрепляя устойчивость системы к атакам Сивиллы.

Экспериментально Fortytwo демонстрирует высокую устойчивость к шуму благодаря репутации и превосходит простое большинство на различных задачах. Однако дополнительный выигрыш от увеличения числа агентов значительно снижается примерно после 30 агентов, что необходимо учитывать при расчетах затрат.

Таким образом, децентрализация работает на практике. Репутация снижает шум за счет отбора лучших участников. Коллективное голосование извлекает оптимальные решения из различных подходов, устраняя индивидуальные ошибки моделей. Отсутствие центра принятия решений повышает устойчивость и обеспечивает честность за счет согласования решений между агентами, преследующими собственные интересы. Похоже, что децентрализация ведет к более точному и демократичному ИИ, учитывающему больше точек зрения.
6. Графики по щелчку: как ИИ-агенты берут на себя работу дата-аналитика
Визуализация данных всегда остаётся наиболее сложной задачей для ИИ-агентов. Вероятно, неспроста — при работе с кодом всегда остаётся уверенность, что его написание так или иначе можно декомпозировать на более короткие задачи. Но не всё так просто с визуализацией.
Стандартный LLM-подход к визуализации — это генерировать код итеративно. Это приводит к нестабильным результатам — они создают хаотические визуализации с перепутанными осями и неверными агрегациями, и начинается новый цикл исправления кода, который может даже не приблизить конечный результат к задуманному графику. Это достаточно глубокая проблема.
CoDA (Cooperative Data Analysis), разработанная Google, может быть лучшим решением этой проблемы на сегодняшний день. Это мультиагентная система, в которой роли четко выделены и формализованы на нескольких уровнях.
Агент понимания извлекает намерение пользователя, выделяет требуемые визуализацией сущности и метаданные. Планировщик выбирает тип визуализации, оси, агрегаты и другие ограничения. Поисковый агент выбирает соответствующие примеры из корпуса визуальных шаблонов. Генератор кода создает исполняемый код создания графика с помощью примеров. Отладчик устраняет синтаксические и логические ошибки, повторно исполняя код.
Наконец, визуальный экзаменатор сопоставляет визуализацию с пользовательским запросом и запускает цикл исправления, если требования не выполнены. Все агенты фиксируют свои задачи в глобальном TODO-графе — формально представленной чек-листе-с-одной-строкой-на-задачу — что дает четкие зависимости между шагами.

Эксперименты показывают, что CoDA значительно превосходит существующие методы по стабильности, с учетом успешных визуализаций в установленные сроки. На MatplotBench он достигает OS 79.5 по сравнению с 55 для лучшего существующего метода. Производительность в Qwen Code Interpreter составляет 89.0 по сравнению с 81.6.

Кстати, при замене используемой модели производительность мало изменяется благодаря формализации задач, что позволяет системе эффективно компенсировать различные недостатки каждой модели. CoDA показывает, что правильная организация процессов — ключ к тому, чтобы ИИ наконец начал генерировать корректный код для визуализации графиков. Думаю, что такой подход можно уверенно масштабировать и на фронтенд-задачи.
7. Как ИИ-очки предсказывают ваши желания прежде чем вы о них подумаете
Если раньше ассистенты работали только по запросу, то сегодня Alpha-Service переводит их в новый режим — ассистентов, которые работают проактивно на основании контекста вокруг пользователя. Таким ассистентам не нужны ни словесные запросы, ни интерфейсы. Они видят окружающий мир, отслеживают уместность вмешательства и вызывают нужных агентов. Над каждым контроллер, который решает — молчать, говорить или запускать инструменты.

Архитектура строится на базе восприятия потокового видео с очков. Тут два уровня моделей — лёгкая следит за триггерами реального времени (задержка взгляда на объекте, микрожесты, колебание в действии), а большая модель глубоко интерпретирует сцену: что за объект, какой контекст, какая задача.

Нам ними работает главный CPU-агент, который помнит старые привычки и имеет доступ во внешние сервисы. Ассистент не подсказывает постоянно. Он говорит в микромоменте, когда это нужно. Например, в карточной игре он советует до того, как рука потянулась за картой. В музее, он даёт описание, как только взгляд зафиксировался на экспонате. В магазине, он интерпретирует нерешительность как повод подсказать побольше информации про одежду — ткань, размерный ряд, насколько вещь подходит к остальным по стилю.



И это всё работает на устройстве, обеспечивая минимальную задержку. Такой интерфейс ощущается как живой. Ассистент учится уместности — пониманию того, когда говорить, а когда нет, пониманию разницы между пользовательским сомнением и намерением, предвосхищению потребности до того как она явно сформулирована.
Проактивные ассистенты — это действительно интерфейс нового поколения. С ними помощь ИИ ощущается, как своевременная подсказка друга. Такой ассистент — не инструмент, а дополнительный контекстный слой, который постоянно чувствует вас и окружающий мир.
8. Как управлять интернетом вещей с помощью LLM
Ранее мультиагентные системы в основном управляли только программным обеспечением. MPC-IOT позволяет превратить рой агентов в инструмент взаимодействия с реальными устройствами.
Проблема в том, что IoT (интернет вещей) - фрагментированная среда. Устройства имеют разные протоколы, соединения могут быть нестабильными, форматы могут отличаться. Если оставить LLM один на один с устройствами, он начнёт гадать параметры и возвращать неработающие команды. Это требует системного решения.


MCP-IOT применяет MCP-протокол к устройствам, создавая трёхуровневую иерархию исполнительных слоёв: LLM с сервером инструментов MCP на локальном хосте, сервер подключения для маршрутизации, защиты от сбоев и буферизации, и слой микросервисов, который работает на датчиках: микроконтроллеры читают периферийные устройства, приводят данные к единому формату и отправляют ответ в стек агента. Так LLM становится интерпретатором, планировщиком и контроллером внутри иерархии инструментов, частью инженерной системы, а не внешним оператором.

IoT-MCP реально работает: 100% успешных вызовов на базовых задачах, средняя задержка 205 мс.

В 12-часовом стресс-тесте система выдержала различные сценарии переподключения без потери данных.

IoT-MCP позволяет рою агентов использовать физические сигналы так же надёжно, как API программного обеспечения, для получения данных с датчиков, сложного планирования с использованием различных источников телеметрии и, в будущем, управления бытовыми устройствами, роботами и распределёнными системами. Это новая категория систем, в которой ИИ становится оператором физических процессов.
? Подробнее | ? Полная статья | ? Код
9. ИИ в белом халате: как научится ставить диагнозы в виртуальной клинике
Сегодня ИИ-агенты в медицине — это хороший инструмент для определения диагноза, но что им не хватает для того, чтобы стать полноценным врачебным ассистентом, которому можно доверять?
Исследователи утверждают, что ИИ-агентам нужна виртуальная клиника: среда, где ИИ должен делать стратегический выбор в условиях неопределённости и нести ответственность за последствия. Диагностических агентов следует обучать тому, как формулировать гипотезы, какие тесты назначать, и как собирать недостающие данные.
Авторы представляют DiagGym, текстовую среду, которая моделирует клинические сценарии на основе реальных сценариев из MIMIC-IV (крупнейший в мире открытый медицинский датасет интенсивной терапии). Она работает как текстовая модель мира, предсказывая результаты обследований и динамическое состояние пациента.

В этой среде исследователи обучили агента на основе обучения с подкреплением (DiagAgent), оптимизируя его сценарии с учетом награды, которая поощряет точность диагностики, минимальные и адекватные назначения, а также эффективность сценариев лечения.
DiagAgent оптимизирует свое поведение на основе оценок, которые назначаются за точный диагноз, минимизацию вреда и непреднамеренное назначение тестов, экономя при этом общее количество шагов, взятых в разных эпизодах. Таким образом, он обучается стратегиям многократного взаимодействия, а не запоминанию данных и клинических сценариев высокого уровня и значительно повышает производительность.

Анализ поведения обученного агента в различных клинических сценариях показывает явное структурированное принятие решений. Например, в сценарии с подозрением на аппендицит он быстро сужает круг возможных вариантов и назначает правильное КТ.

Основная ценность DiagGym заключается в введении «первого настоящего профессионального экзамена» для диагностических ИИ-агентов, с задачами, которые требуют от агента планирования, проверки гипотез, корректировки стратегий, различения основных и побочных признаков, а также оптимизации поведения при обнаружении важных находок.
Это большой шаг вперед. Диагностические агенты, обученные с помощью DiagGym, уже можно считать «младшими врачебными ассистентами» - внимательные, последовательные и способные к самоулучшению.
? Подробнее | ? Полная статья | ? Код
10. ИИ-ученый, который открывает законы природы без участия человека
Даже рой агентов, обладающий способностью рассуждать, планировать и взаимодействовать с физическим миром, сталкивается с суровой реальностью, когда дело доходит до задач, требующих научной строгости.
Генерация текста считается решенной задачей, но способность проводить исследования всегда была частичной имитацией: генерируемые идеи были размытыми, часто предлагались надуманные эксперименты, а итоговые статьи были бессмысленными.
Исследователи из Токио решили, что не будут ограничивать область исследования, а предложили ограничить ИИ одной опубликованной научной статьей с открытым кодом и данными, существующими экспериментами и признанными ограничениями — и посмотреть, как ИИ сможет продвинуть ее далее. В том числе с учетом существующих ограничений.

По сути, поставленная задача - максимально приблизить поведение ИИ к младшему научному сотруднику, который должен искать ограничения, предлагать улучшения, проверять их, фиксировать все эксперименты и собирать черновик новой научной статьи.
Новая система эксплуатации называется "устранение недостатков", и она, помимо постановки задачи, предоставляет модели доступ ко всей рабочей среде, включая скрипты, выходные данные, файлы с результатами экспериментов и логи.
Система жестко управляет поведением модели, заставляя ее: замечать существующие ограничения; предлагать улучшение, не выходящее за рамки обозначенной задачи; проверять предлагаемое улучшение на реальном коде и данных; проверять воспроизводимость, а также возможные артефакты; проводить различные абляции для проверки истинного вклада; собирать черновик итоговой статьи с таблицами, ссылками и описанием результатов. Агенты используют специализированные инструменты и получают все необходимые научные библиотеки, а также доступ в интернет.

Черновики научных работ заметно превосходят все существующие автономные подходы. Система ведет себя намного более адекватно, больше не фантазируя об улучшениях, а предлагая те из них, которые реализуемы; выполняет настоящие эксперименты на существующей кодовой базе; не придумывает данные; собирает структурированные научные тексты со ссылками и таблицами.

Её статьи не были приняты на реальные научные конференции, но рецензии звучали так, как будто работу действительно проделал младший научный сотрудник: все было воспроизводимо и аккуратно, с умеренным вкладом.

Система управляется экспертами и не способна их заменить. ИИ продемонстрировал поведение, похожее на то, как ведет себя одно из звеньев научного процесса в реальном мире. Это не великий ум, а скорее способный джун, который умеет работать по заранее заданному протоколу и вносить небольшой, но реальный вклад - как и должно быть. А наука, в конце концов, основана именно на этом.
? Подробнее | ? Полная статья | ? Код
ИИ превращается в рой ИИ-агентов, которые учатся на ходу без дообучения, понимают контекст из мира вокруг вас, предвосхищают желания. Теперь ИИ умеет строить корректные графики по коду, управлять вашей кофеваркой и тостером, а также более уверенно помогать врачам с постановкой диагнозов. Именно так рождается новый уровень интеллекта, способный помогать человеку, усиливая его в работе и помогая в быту.
***
Не забудьте подписаться на мой Telegram-канал, где я делюсь инсайтами из ИИ-индустрии, советами по внедрению ИИ в бизнес и запуску ИИ-стартапов. А Dataism Science Hub будет ежедневно держать вас в курсе последних исследований в области ИИ. Будем вместе впереди в мире технологий!