В октябре 2025 года на передний план вышла концепция роя агентов: это десятки ИИ-моделей, которые учатся друг у друга, спорят, передают опыт, управляют устройствами и даже видят мир через очки, понимая весь информационный контекст, который вас окружает.

Агенты уже берут на себя глубокие корпоративные исследования, учатся по роликам на YouTube, общаются друг с другом на уровне мыслей, а не слов, сдают экзамены в медицинской виртуальной клинике, строят графики на уровне профессиональных дата-аналитиков и даже работают в роли научных ассистентов.

Обо всём этом расскажу вам более детально в новом обзоре главных научных исследований об ИИ за октябрь.

Если хотите быть в курсе новейших исследований в области ИИ, подписывайтесь на Dataism Science Hub — там ежедневно выходят обзоры свежих научных публикаций. А ещё приглашаю в мой авторский Telegram-канал: здесь я делюсь кейсами внедрения ИИ в бизнес, опытом создания стартапов и личными мыслями о будущем технологий.

Поехали.

1. От хаоса данных к управляемому знанию: как ИИ-агенты помогают бизнесу принимать точные решения

Корпоративные данные часто существуют в хаосе: они разбросаны по электронной почте, дашбордам, Github, Confluence и другим сервисам. В итоге классические агенты используют эти данные поверхностно для ответов на важные аналитические и стратегические вопросы. Они предоставляют понятный ответ, но не дают представления о том, на каких данных он основан.

Исследователи из Salesforce задались вопросом, можем ли мы доверить агенту-исследователю глубокое корпоративное исследование, при этом сохранив прозрачность и воспроизводимость пути от данных до его вывода.

Enterprise Deep Research (EDR) решает такие задачи. EDR использует оркестратор для декомпозиции запроса, четыре специализированных поисковых агента для поиска релевантных источников, MCP-инструменты для подключения корпоративных баз данных, рефлексию для заполнения пробелов и корректировки плана. Он записывает всю мыслительную цепочку в план todo.md, как рабочий журнал. В результате мы получаем агента, который выдерживает долгие исследовательские сценарии, хорошо сжимает контекст, не теряя ссылок на источники, пересобирает план по мере продвижения и выдает отчеты, которые можно проверить и повторить.

Enterprise Deep Research: система, объединяющая планирование, специализированный поиск, расширяемые корпоративные инструменты, визуализацию и рефлексию, с возможностью человеческого контроля.
Enterprise Deep Research: система, объединяющая планирование, специализированный поиск, расширяемые корпоративные инструменты, визуализацию и рефлексию, с возможностью человеческого контроля.

EDR значительно превосходит открытые аналоги на задачах DeepResearch Bench и DeepConsult из-за своего поведения, а не из-за размера модели. На этих бенчмарках требуются длинные мыслительные цепочки с планированием, поиском и цитированием источников.

Агенты на базе EDR ведут себя как команда реальных аналитиков, планируя, проверяя, правда иногда запутываясь, но всегда сохраняя прозрачность.

Начальная страница для ввода исследовательского запроса и добавления файлов (изображения, таблицы, базы данных). Доступны 3 режима — быстрый обзор, стандартный режим глубокого исследования и максимально подробный отчёт — с возможностью выбрать базовую LLM.
Начальная страница для ввода исследовательского запроса и добавления файлов (изображения, таблицы, базы данных). Доступны 3 режима — быстрый обзор, стандартный режим глубокого исследования и максимально подробный отчёт — с возможностью выбрать базовую LLM.

Исследователь может изменить план на любом этапе, не теряя ссылок и целостности. EDR не пытается быть лучшим интеллектуальным помощником на все случаи жизни, он просто превращает людей-исследователей в менеджеров исследовательской команды агентов и трансформирует корпоративные знания в инструмент принятия решений.

Слева показан прогресс с кратким итогом текущего шага, в панели прогресса — статус задач. Каждая задача снабжена статусом и происхождением с отметками времени для полной прозрачности.
Слева показан прогресс с кратким итогом текущего шага, в панели прогресса — статус задач. Каждая задача снабжена статусом и происхождением с отметками времени для полной прозрачности.

? Подробнее | ? Полная статья | ? Код

2. Как агент учится на ходу: почему память оказалась сильнее дообучения

Агенты часто не справляются со сложными офисными задачами: там много шагов, переключение окон, разные проверки результатов — и они постоянно повторяют одни и те же ошибки. Большие языковые модели помогают агентам в простых задачах, но из-за ошибок они бессильны на более сложных.

Агенты статичны — они не запоминают сценарии успешного решения задачи, не избегают неудачных сценариев и не становятся лучше с каждой следующей попыткой прохождения. Дообучение применяется редко, так как это дорого.

Но может ли агент улучшаться в процессе решения задачи, не меняя параметры модели? Фреймворк MUSE предлагает цикл планирования, выполнение задачи, рефлексии и запоминание. Успешные сценарии сохраняются как простые для чтения и извлечения, опыт - для закрепления стратегических находок, действия с инструментами - для уточнения их использования. Все три типа памяти сохраняются в формате естественного языка. Затем опыт используется на новых задачах.

Иллюстрация обучения во время выполнения и эволюции агентов MUSE на длинных офисных задачах: агент исследует и накапливает опыт в интерактивной среде, охватывающей разные приложения, постоянно пополняя память и непрерывно улучшаясь.
Иллюстрация обучения во время выполнения и эволюции агентов MUSE на длинных офисных задачах: агент исследует и накапливает опыт в интерактивной среде, охватывающей разные приложения, постоянно пополняя память и непрерывно улучшаясь.

Результаты получились обнадеживающими. На бенчмарке TAC (TheAgentCompany, 175 реальных офисных задач) MUSE устойчиво улучшала метрики с каждой новой попыткой. MUSE превосходил вариант без памяти более чем на 10% на задачах из датасета TAC. На всех 175 офисных задачах частичный балл повысился почти на 20%.

Фреймворк MUSE использует цикл «Планирование–Выполнение–Рефлексия–Запоминание». Агент планирования и выполнения декомпозирует задачу, агент рефлексии обобщает успешные попытки; после завершения задачи знания синтезируются в стратегическую и инструментальную память.
Фреймворк MUSE использует цикл «Планирование–Выполнение–Рефлексия–Запоминание». Агент планирования и выполнения декомпозирует задачу, агент рефлексии обобщает успешные попытки; после завершения задачи знания синтезируются в стратегическую и инструментальную память.

В реальных сценариях агент исправлял свой план, создавал необходимые учётные записи, объединял чаты разных сотрудников, повторял успешные стратегии несколько раз, опираясь на ранние записи.

Разбор кейса по задаче сбора обратной связи HR-менеджером
Разбор кейса по задаче сбора обратной связи HR-менеджером

Вывод: разные типы памяти превосходят дообучение модели. Небольшие фрагменты проверенного на практике опыта передавались от задачи к задаче и даже между моделями. Рефлексия оказалась важна - без нее резко падало качество работы агента: он не получал нужных сигналов для улучшения. MUSE показывает, что агенты могут улучшаться в процессе работы без дообучения модели, опираясь на собственный опыт.

? Подробнее | ? Полная статья | ? Код

3. Как агенты учатся по видео на YouTube

Современные агенты плохо работают с настоящим пользовательским интерфейсом. Они промахиваются мимо кнопок, теряют контекст, не отслеживают переходы между состояниями и вообще ведут себя так, будто впервые видят UI. Всё по одной простой причине: у них мало хороших демонстраций и много синтетических данных, которые не отражают реальные действия человека.

Исследователи предложили использовать для обучения интерфейсам YouTube-туториалы. Не инструкции или разметку, а именно реальные пользовательские действия. Цель работы - выяснить, возможно ли автоматически извлечь точные шаги UI-взаимодействия из необработанных видео и превратить их в сценарии, пригодные для обучения агентов.

Архитектура Watch & Learn (W&L) основана на том, что видео пропускается через связку из SigLIP-2 и Transformer, которые хорошо моделируют динамические визуальные данные. Они анализируют пары соседних видеокадров и предсказывают действие пользователя: клик, ввод текста, координаты, выбор элемента и т.д. В итоге сырые YouTube-видео превращаются в исполняемые UI-сценарии. Эти сценарии затем дважды используются для обучения: как примеры в контексте и как данные для SFT.

W&L преобразует видеодемонстрации людей в исполняемые UI‑сценарии, обеспечивая масштабируемое обучение с учителем и примеры для агентов, управляющих компьютером.
W&L преобразует видеодемонстрации людей в исполняемые UI‑сценарии, обеспечивая масштабируемое обучение с учителем и примеры для агентов, управляющих компьютером.
Обзор метода: фреймворк превращает видео демонстраций в исполняемые сценарии для компьютерных агентов.
Обзор метода: фреймворк превращает видео демонстраций в исполняемые сценарии для компьютерных агентов.

Масштаб впечатляет: 53 125 сценариев из 69 приложений. На OSWorld-Verified отмечается прирост у всех больших моделей (Gemini Flash +3%, o3 +2.5%, Sonnet +1.6%, Jedi +2.2%). Открытые модели получили ещё больший прирост - Qwen-VL 7B улучшился на 11.1%. Сценарии, полученные из видео, показали 91.6% точности предсказания пользовательских действий - лучший результат в своем классе.

Качественные примеры на OSWorld. Слева — сценарии из видео; справа показано, как без неё агенты ошибаются в привязке или планировании, а с ней — успешно решают задачу.
Качественные примеры на OSWorld. Слева — сценарии из видео; справа показано, как без неё агенты ошибаются в привязке или планировании, а с ней — успешно решают задачу.

Главный вывод таков: видео являются полноценным источником навыков для ИИ. Watch & Learn демонстрирует, что агент может обучаться интерфейсам на реальных пользовательских действиях, без необходимости дорогой разметки или ручного сбора демонстраций. Это ещё один шаг к созданию агентов, которые уверенно чувствуют себя в любых приложениях и которым не нужно учиться работать в новом UI дольше, чем это требуется человеку.

? Подробнее | ? Полная статья

4. Почему слова мешают ИИ-агентам понимать друг друга

Мультиагентные системы делают разумные на вид вещи: обсуждают план, уточняют гипотезы, спорят друг с другом. Но итоговый ответ часто хуже, чем у одной большой модели. Это указывает на фундаментальную проблему: не в интеллекте агентов, а в самом коллективном рассуждении. Вернее, в языке, который они используют для общения.

Человеческий язык линеен, неоднозначен и слишком груб для внутренних представлений ИИ. Когда агент переводит свои мысли в текст, он теряет нюансы рассуждений, смешивает противоречивые гипотезы и привносит шум. В результате коллективное рассуждение выражает размытое мнение.

Исследователи задаются вопросом: могут ли агенты общаться напрямую фрагментами внутренних представлений — “мыслями” — без перехода в текст?Фреймворк ThoughtComm предлагает общее латентное пространство мыслей Zₜ и автоэнкодер с разрежением по якобиану, который разделяет общие и приватные факторы из внутренних состояний разных агентов. Затем каждому агенту возвращают только релевантные его роли компоненты мысли путём префиксной инъекции в эмбеддинги.

Каждый агент выбирает своё подмножество мыслей; часть из них общая, часть — приватная
Каждый агент выбирает своё подмножество мыслей; часть из них общая, часть — приватная
Схема ThoughtComm: извлекаем мысли, маршрутизируем, внедряем префиксом и делаем новый подход
Схема ThoughtComm: извлекаем мысли, маршрутизируем, внедряем префиксом и делаем новый подход

На реальных задачах MATH и GSM8K мультиагентное обсуждение с языком мыслей даёт на 17 пунктов точности лучше бейзлайна, а согласованность между агентами увеличивается без потери качества. ThoughtComm показывает, что прямой обмен «мыслями» делает коллективное рассуждение точнее и стабильнее, чем диалоги на естественном языке.

? Подробнее | ? Полная статья

5. Децентрализованный ИИ: как рой нейросетей побеждает большие модели

Все больше экспертов говорят о том, что будущее ИИ не в одной модели, а в целой экосистеме независимых агентов. В теории мультиагентное взаимодействие может переигрывать большие модели не за счет количества параметров, а за счет организации взаимодействия агентов.

Однако на практике эффект роя невелик, большинство участников дают шумные ответы, что затрудняет выбор оптимального решения. Более того, в открытой среде, подверженной атакам Сивиллы (создание множества фейковых аккаунтов, чтобы получить контроль над системой), рой может неизбежно деградировать, поскольку большинству будет невыгодно поддерживать высокое качество решений.

В новом исследовании авторы стремятся построить децентрализованный рой, который в реальных условиях будет точнее больших моделей, устойчивее к атакам и экономически выгоднее.

Система Fortytwo сочетает в себе репутацию, коллективное голосование и защиту от атак Сивиллы с помощью механизма proof-of-capability. Система заимствует концепции как из блокчейна, так и из теории голосования. Каждый узел действует как судья и как участник: он предлагает свой собственный ответ, а также проводит серию парных сравнений между предложениями других участников. Эти локальные сравнения затем агрегируются в глобальный рейтинг с использованием модели парных сравнений Брэдли–Терри.

Репутация отражает согласие с глобальным выбором и обновляется в соответствии с задачами, требующими коллективных решений. Участники с высокой репутацией обладают большей властью в голосовании. Proof-of-capability предъявляет участникам продемонстрировать свою способность решать задачи до того, как их голос будет учтен, тем самым укрепляя устойчивость системы к атакам Сивиллы.

Модульная архитектура самоконтролируемого вывода, демонстрирующая четыре ключевых компонента и их взаимодействие.
Модульная архитектура самоконтролируемого вывода, демонстрирующая четыре ключевых компонента и их взаимодействие.

Экспериментально Fortytwo демонстрирует высокую устойчивость к шуму благодаря репутации и превосходит простое большинство на различных задачах. Однако дополнительный выигрыш от увеличения числа агентов значительно снижается примерно после 30 агентов, что необходимо учитывать при расчетах затрат.

Сравнение показателей производительности разных моделей.
Сравнение показателей производительности разных моделей.

Таким образом, децентрализация работает на практике. Репутация снижает шум за счет отбора лучших участников. Коллективное голосование извлекает оптимальные решения из различных подходов, устраняя индивидуальные ошибки моделей. Отсутствие центра принятия решений повышает устойчивость и обеспечивает честность за счет согласования решений между агентами, преследующими собственные интересы. Похоже, что децентрализация ведет к более точному и демократичному ИИ, учитывающему больше точек зрения.

? Подробнее | ? Полная статья

6. Графики по щелчку: как ИИ-агенты берут на себя работу дата-аналитика

Визуализация данных всегда остаётся наиболее сложной задачей для ИИ-агентов. Вероятно, неспроста — при работе с кодом всегда остаётся уверенность, что его написание так или иначе можно декомпозировать на более короткие задачи. Но не всё так просто с визуализацией.

Стандартный LLM-подход к визуализации — это генерировать код итеративно. Это приводит к нестабильным результатам — они создают хаотические визуализации с перепутанными осями и неверными агрегациями, и начинается новый цикл исправления кода, который может даже не приблизить конечный результат к задуманному графику. Это достаточно глубокая проблема.

CoDA (Cooperative Data Analysis), разработанная Google, может быть лучшим решением этой проблемы на сегодняшний день. Это мультиагентная система, в которой роли четко выделены и формализованы на нескольких уровнях.

Агент понимания извлекает намерение пользователя, выделяет требуемые визуализацией сущности и метаданные. Планировщик выбирает тип визуализации, оси, агрегаты и другие ограничения. Поисковый агент выбирает соответствующие примеры из корпуса визуальных шаблонов. Генератор кода создает исполняемый код создания графика с помощью примеров. Отладчик устраняет синтаксические и логические ошибки, повторно исполняя код.

Наконец, визуальный экзаменатор сопоставляет визуализацию с пользовательским запросом и запускает цикл исправления, если требования не выполнены. Все агенты фиксируют свои задачи в глобальном TODO-графе — формально представленной чек-листе-с-одной-строкой-на-задачу — что дает четкие зависимости между шагами.

Обзор фреймворка: Понимание → Планирование → Генерация → Саморефлексия
Обзор фреймворка: Понимание → Планирование → Генерация → Саморефлексия

Эксперименты показывают, что CoDA значительно превосходит существующие методы по стабильности, с учетом успешных визуализаций в установленные сроки. На MatplotBench он достигает OS 79.5 по сравнению с 55 для лучшего существующего метода. Производительность в Qwen Code Interpreter составляет 89.0 по сравнению с 81.6.

Качественное сравнение визуализаций, созданных базовыми методами и CoDA
Качественное сравнение визуализаций, созданных базовыми методами и CoDA

Кстати, при замене используемой модели производительность мало изменяется благодаря формализации задач, что позволяет системе эффективно компенсировать различные недостатки каждой модели. CoDA показывает, что правильная организация процессов — ключ к тому, чтобы ИИ наконец начал генерировать корректный код для визуализации графиков. Думаю, что такой подход можно уверенно масштабировать и на фронтенд-задачи.

? Подробнее | ? Полная статья

7. Как ИИ-очки предсказывают ваши желания прежде чем вы о них подумаете

Если раньше ассистенты работали только по запросу, то сегодня Alpha-Service переводит их в новый режим — ассистентов, которые работают проактивно на основании контекста вокруг пользователя. Таким ассистентам не нужны ни словесные запросы, ни интерфейсы. Они видят окружающий мир, отслеживают уместность вмешательства и вызывают нужных агентов. Над каждым контроллер, который решает — молчать, говорить или запускать инструменты.

Пассивный ИИ помогает только по запросу; проактивный — наблюдает за окружением, предполагает мысли пользователя, учитывает его потребности и оказывает услуги без запроса.
Пассивный ИИ помогает только по запросу; проактивный — наблюдает за окружением, предполагает мысли пользователя, учитывает его потребности и оказывает услуги без запроса.

Архитектура строится на базе восприятия потокового видео с очков. Тут два уровня моделей — лёгкая следит за триггерами реального времени (задержка взгляда на объекте, микрожесты, колебание в действии), а большая модель глубоко интерпретирует сцену: что за объект, какой контекст, какая задача.

Архитектура Alpha-Service
Архитектура Alpha-Service

Нам ними работает главный CPU-агент, который помнит старые привычки и имеет доступ во внешние сервисы. Ассистент не подсказывает постоянно. Он говорит в микромоменте, когда это нужно. Например, в карточной игре он советует до того, как рука потянулась за картой. В музее, он даёт описание, как только взгляд зафиксировался на экспонате. В магазине, он интерпретирует нерешительность как повод подсказать побольше информации про одежду — ткань, размерный ряд, насколько вещь подходит к остальным по стилю.

Пример подсказок по блэкджеку: распознав игру, ИИ проактивно советует ходы (на 13‑й секунде — «взять карту»). При сумме 12 (2, 4 и 6) базовая стратегия рекомендует брать. Видео снято с ИИ-очков Xiaomi.
Пример подсказок по блэкджеку: распознав игру, ИИ проактивно советует ходы (на 13‑й секунде — «взять карту»). При сумме 12 (2, 4 и 6) базовая стратегия рекомендует брать. Видео снято с ИИ-очков Xiaomi.
Экскурсионное сопровождение: распознав, что пользователь в музее, Alpha-Service ищет изображение в интернете и даёт вводное описание (15 с): "Перед вами бронзовый артефакт династии Шан — квадратный цзун с четырьмя бараньими головами, ритуальный сосуд для вина.
Экскурсионное сопровождение: распознав, что пользователь в музее, Alpha-Service ищет изображение в интернете и даёт вводное описание (15 с): "Перед вами бронзовый артефакт династии Шан — квадратный цзун с четырьмя бараньими головами, ритуальный сосуд для вина.
Пример советника по стилю: Alpha-Service замечает длительное внимание к вещи и проактивно советует (на 18-й сек.): "Есть разные способы носки; джинсы с повседневным пиджаком могут выглядеть немного формально".
Пример советника по стилю: Alpha-Service замечает длительное внимание к вещи и проактивно советует (на 18-й сек.): "Есть разные способы носки; джинсы с повседневным пиджаком могут выглядеть немного формально".

И это всё работает на устройстве, обеспечивая минимальную задержку. Такой интерфейс ощущается как живой. Ассистент учится уместности — пониманию того, когда говорить, а когда нет, пониманию разницы между пользовательским сомнением и намерением, предвосхищению потребности до того как она явно сформулирована.

Проактивные ассистенты — это действительно интерфейс нового поколения. С ними помощь ИИ ощущается, как своевременная подсказка друга. Такой ассистент — не инструмент, а дополнительный контекстный слой, который постоянно чувствует вас и окружающий мир.

? Подробнее | ? Полная статья

8. Как управлять интернетом вещей с помощью LLM

Ранее мультиагентные системы в основном управляли только программным обеспечением. MPC-IOT позволяет превратить рой агентов в инструмент взаимодействия с реальными устройствами.

Проблема в том, что IoT (интернет вещей) - фрагментированная среда. Устройства имеют разные протоколы, соединения могут быть нестабильными, форматы могут отличаться. Если оставить LLM один на один с устройствами, он начнёт гадать параметры и возвращать неработающие команды. Это требует системного решения.

Шесть семейств микроконтроллеров, с которыми работал IoT‑MCP
Шесть семейств микроконтроллеров, с которыми работал IoT‑MCP


Как из простого чтения DHT11 вырастает последовательность всё более сложных задач
Как из простого чтения DHT11 вырастает последовательность всё более сложных задач

MCP-IOT применяет MCP-протокол к устройствам, создавая трёхуровневую иерархию исполнительных слоёв: LLM с сервером инструментов MCP на локальном хосте, сервер подключения для маршрутизации, защиты от сбоев и буферизации, и слой микросервисов, который работает на датчиках: микроконтроллеры читают периферийные устройства, приводят данные к единому формату и отправляют ответ в стек агента. Так LLM становится интерпретатором, планировщиком и контроллером внутри иерархии инструментов, частью инженерной системы, а не внешним оператором.

Рабочий процесс IoT-MCP: от запроса LLM до чтения сенсоров и возврата данных
Рабочий процесс IoT-MCP: от запроса LLM до чтения сенсоров и возврата данных

IoT-MCP реально работает: 100% успешных вызовов на базовых задачах, средняя задержка 205 мс.

Слева — успешность по моделям, справа — задержка при параллельных задачах
Слева — успешность по моделям, справа — задержка при параллельных задачах

В 12-часовом стресс-тесте система выдержала различные сценарии переподключения без потери данных.

12‑часовой прогон: 13 сенсоров (7 типов) на 6 контроллерах стабильно отправляют данные
12‑часовой прогон: 13 сенсоров (7 типов) на 6 контроллерах стабильно отправляют данные

IoT-MCP позволяет рою агентов использовать физические сигналы так же надёжно, как API программного обеспечения, для получения данных с датчиков, сложного планирования с использованием различных источников телеметрии и, в будущем, управления бытовыми устройствами, роботами и распределёнными системами. Это новая категория систем, в которой ИИ становится оператором физических процессов.

? Подробнее | ? Полная статья | ? Код

9. ИИ в белом халате: как научится ставить диагнозы в виртуальной клинике

Сегодня ИИ-агенты в медицине — это хороший инструмент для определения диагноза, но что им не хватает для того, чтобы стать полноценным врачебным ассистентом, которому можно доверять?

Исследователи утверждают, что ИИ-агентам нужна виртуальная клиника: среда, где ИИ должен делать стратегический выбор в условиях неопределённости и нести ответственность за последствия. Диагностических агентов следует обучать тому, как формулировать гипотезы, какие тесты назначать, и как собирать недостающие данные.

Авторы представляют DiagGym, текстовую среду, которая моделирует клинические сценарии на основе реальных сценариев из MIMIC-IV (крупнейший в мире открытый медицинский датасет интенсивной терапии). Она работает как текстовая модель мира, предсказывая результаты обследований и динамическое состояние пациента.

Обзор метода: виртуальная среда DiagGym как модель мира и обучение DiagAgent с подкреплением
Обзор метода: виртуальная среда DiagGym как модель мира и обучение DiagAgent с подкреплением

В этой среде исследователи обучили агента на основе обучения с подкреплением (DiagAgent), оптимизируя его сценарии с учетом награды, которая поощряет точность диагностики, минимальные и адекватные назначения, а также эффективность сценариев лечения.

DiagAgent оптимизирует свое поведение на основе оценок, которые назначаются за точный диагноз, минимизацию вреда и непреднамеренное назначение тестов, экономя при этом общее количество шагов, взятых в разных эпизодах. Таким образом, он обучается стратегиям многократного взаимодействия, а не запоминанию данных и клинических сценариев высокого уровня и значительно повышает производительность.

Как оценивают симулятор: качество по случаям и по распределениям результатов обследований
Как оценивают симулятор: качество по случаям и по распределениям результатов обследований

Анализ поведения обученного агента в различных клинических сценариях показывает явное структурированное принятие решений. Например, в сценарии с подозрением на аппендицит он быстро сужает круг возможных вариантов и назначает правильное КТ.

Как измеряют одношаговые рекомендации и итоговые диагнозы; сравнительные результаты DiagAgent и LLM
Как измеряют одношаговые рекомендации и итоговые диагнозы; сравнительные результаты DiagAgent и LLM

Основная ценность DiagGym заключается в введении «первого настоящего профессионального экзамена» для диагностических ИИ-агентов, с задачами, которые требуют от агента планирования, проверки гипотез, корректировки стратегий, различения основных и побочных признаков, а также оптимизации поведения при обнаружении важных находок.

Это большой шаг вперед. Диагностические агенты, обученные с помощью DiagGym, уже можно считать «младшими врачебными ассистентами» - внимательные, последовательные и способные к самоулучшению.

? Подробнее | ? Полная статья | ? Код

10. ИИ-ученый, который открывает законы природы без участия человека

Даже рой агентов, обладающий способностью рассуждать, планировать и взаимодействовать с физическим миром, сталкивается с суровой реальностью, когда дело доходит до задач, требующих научной строгости.

Генерация текста считается решенной задачей, но способность проводить исследования всегда была частичной имитацией: генерируемые идеи были размытыми, часто предлагались надуманные эксперименты, а итоговые статьи были бессмысленными.

Исследователи из Токио решили, что не будут ограничивать область исследования, а предложили ограничить ИИ одной опубликованной научной статьей с открытым кодом и данными, существующими экспериментами и признанными ограничениями — и посмотреть, как ИИ сможет продвинуть ее далее. В том числе с учетом существующих ограничений.

Рабочий процесс младшего научного ИИ-сотрудника: предоставляются базовая статья, её LaTeX-исходники и код; их эффективное использование на всех этапах заметно повышает качество генерируемой статьи.
Рабочий процесс младшего научного ИИ-сотрудника: предоставляются базовая статья, её LaTeX-исходники и код; их эффективное использование на всех этапах заметно повышает качество генерируемой статьи.

По сути, поставленная задача - максимально приблизить поведение ИИ к младшему научному сотруднику, который должен искать ограничения, предлагать улучшения, проверять их, фиксировать все эксперименты и собирать черновик новой научной статьи.

Новая система эксплуатации называется "устранение недостатков", и она, помимо постановки задачи, предоставляет модели доступ ко всей рабочей среде, включая скрипты, выходные данные, файлы с результатами экспериментов и логи.

Система жестко управляет поведением модели, заставляя ее: замечать существующие ограничения; предлагать улучшение, не выходящее за рамки обозначенной задачи; проверять предлагаемое улучшение на реальном коде и данных; проверять воспроизводимость, а также возможные артефакты; проводить различные абляции для проверки истинного вклада; собирать черновик итоговой статьи с таблицами, ссылками и описанием результатов. Агенты используют специализированные инструменты и получают все необходимые научные библиотеки, а также доступ в интернет.

Рабочий процесс младшего ИИ-исследователя на этапе экспериментов: три стадии; благодаря управлению ошибками и отслеживанию производительности система передает наиболее перспективные экспериментальные узлы на следующую стадию.
Рабочий процесс младшего ИИ-исследователя на этапе экспериментов: три стадии; благодаря управлению ошибками и отслеживанию производительности система передает наиболее перспективные экспериментальные узлы на следующую стадию.

Черновики научных работ заметно превосходят все существующие автономные подходы. Система ведет себя намного более адекватно, больше не фантазируя об улучшениях, а предлагая те из них, которые реализуемы; выполняет настоящие эксперименты на существующей кодовой базе; не придумывает данные; собирает структурированные научные тексты со ссылками и таблицами.

Рабочий процесс младшего ИИ‑исследователя на этапе написания: три шага — черновик, рефлексия и корректировка.
Рабочий процесс младшего ИИ‑исследователя на этапе написания: три шага — черновик, рефлексия и корректировка.

Её статьи не были приняты на реальные научные конференции, но рецензии звучали так, как будто работу действительно проделал младший научный сотрудник: все было воспроизводимо и аккуратно, с умеренным вкладом.

Пример сгенерированной статьи: младший ИИ‑исследователь может создавать полноценные научные статьи с приложениями.
Пример сгенерированной статьи: младший ИИ‑исследователь может создавать полноценные научные статьи с приложениями.

Система управляется экспертами и не способна их заменить. ИИ продемонстрировал поведение, похожее на то, как ведет себя одно из звеньев научного процесса в реальном мире. Это не великий ум, а скорее способный джун, который умеет работать по заранее заданному протоколу и вносить небольшой, но реальный вклад - как и должно быть. А наука, в конце концов, основана именно на этом.

? Подробнее | ? Полная статья | ? Код

ИИ превращается в рой ИИ-агентов, которые учатся на ходу без дообучения, понимают контекст из мира вокруг вас, предвосхищают желания. Теперь ИИ умеет строить корректные графики по коду, управлять вашей кофеваркой и тостером, а также более уверенно помогать врачам с постановкой диагнозов. Именно так рождается новый уровень интеллекта, способный помогать человеку, усиливая его в работе и помогая в быту.

***

Не забудьте подписаться на мой Telegram-канал, где я делюсь инсайтами из ИИ-индустрии, советами по внедрению ИИ в бизнес и запуску ИИ-стартапов. А Dataism Science Hub будет ежедневно держать вас в курсе последних исследований в области ИИ. Будем вместе впереди в мире технологий!

Комментарии (0)