ИИ всё чаще выходит за рамки однотипных задач и начинает демонстрировать качества, похожие на человеческие: он рискует, хитрит, ошибается и… делает это с полной уверенностью в своей правоте. В августовском обзоре — статьи о том, почему модели галлюцинируют и как можно сместить стимулы в сторону честности, зачем агентам память и когнитивные карты, как построить мультиагентные системы без хаоса и что значит по-настоящему интерактивный мир для обучения ИИ; от новых методов борьбы с выдумками и систем глубоких исследований до роботов, умеющих готовить завтрак и ориентироваться в реальном пространстве. В этой статье новые архитектуры, метрики и фреймворки, которые уже меняют подход к созданию ИИ-агентов.

Если хотите быть в курсе новейших исследований в области ИИ, подписывайтесь на Dataism Lab — там ежедневно выходят обзоры свежих научных публикаций. А ещё приглашаю в мой Telegram-канал: здесь я делюсь кейсами внедрения ИИ в бизнес, опытом создания стартапов и личными мыслями о будущем технологий. Поехали!

1. Почему LLM врут с умным видом

Исследование OpenAI разбирает корень проблемы галлюцинаций LLM: модели часто «уверенно ошибаются», потому что сама цель обучения и оценки подталкивает их к угадыванию. Даже если данные безошибочны, оптимизация по кросс-энтропии заставляет модель генерировать ответы, а бенчмарки с бинарной системой оценки (1 за верно, 0 за неверно и за «не знаю») закрепляют эту стратегию. В итоге выигрывают не самые надёжные модели, а те, что чаще рискуют.

Авторы формализуют проблему через идею «валидно/невалидно» и показывают статистическую закономерность: генеративная ошибка не может быть меньше, чем удвоенная ошибка классификатора, который лишь различает правильность ответа. Особенно это заметно на произвольных фактах (например, датах рождения), где закономерности нет — и там доля ошибок предсказуема. Анализ показывает: постобучение вроде RLHF не убирает галлюцинации, потому что метрики продолжают поощрять догадки вместо безопасного отказа.

Is-It-Valid обучается распознавать корректные и некорректные генерации по размеченным примерам (±, слева). Классификаторы (пунктирные линии) хорошо работают для некоторых понятий, например орфографии (сверху), но дают сбои из-за слабых моделей (посередине) или на произвольных фактах без закономерностей (внизу).
Is-It-Valid обучается распознавать корректные и некорректные генерации по размеченным примерам (±, слева). Классификаторы (пунктирные линии) хорошо работают для некоторых понятий, например орфографии (сверху), но дают сбои из-за слабых моделей (посередине) или на произвольных фактах без закономерностей (внизу).

Главное предложение исследователей — изменить систему оценки. Если встроить в бенчмарки явный порог уверенности, при котором модель отвечает только в случае высокой вероятности быть правой, а иначе говорит «не знаю», стимулы смещаются в сторону честности. Это позволит формировать LLM, которые не просто сильны в тестах, но и надёжны как помощники: они перестанут выдавать выдумки там, где данных или уверенности мало. Для практики это значит более прозрачное понимание границ возможностей моделей и реальное снижение числа галлюцинаций.

Гистограммы калибровки GPT-4 до (слева) и после (справа) обучения с подкреплением. Графики для задач множественного выбора (A, B, C, D). Предобученная модель хорошо откалибрована.
Гистограммы калибровки GPT-4 до (слева) и после (справа) обучения с подкреплением. Графики для задач множественного выбора (A, B, C, D). Предобученная модель хорошо откалибрована.

? Подробнее

? Оригинальная статья

2. Глубокие исследования без границ: выбираем свою LLM и управляем стратегией поиска

Исследование Universal Deep Research (UDR) нацелено на решение проблемы, которая стоит перед современными инструментами “глубоких исследований”: закрытость и негибкость. Текущие системы вроде Perplexity или OpenAI Deep Research дают хороший результат, но скрывают стратегию поиска и не позволяют пользователю задавать собственные правила проверки источников, менять модель или управлять затратами. Авторы UDR предложили концепцию, где стратегия и модель разведены: пользователь описывает алгоритм шагов на естественном языке, система превращает его в исполняемый код, а LLM используется лишь как вспомогательный интеллект.

Высокоуровневая схема, показывающая компоненты типичного инструмента глубокого исследования;
Высокоуровневая схема, показывающая компоненты типичного инструмента глубокого исследования;
Схема высокого уровня, визуализирующая компоненты UDR. UDR получает от пользователя и стратегию исследования, и исследовательский запрос, что обеспечивает большую настраиваемость.
Схема высокого уровня, визуализирующая компоненты UDR. UDR получает от пользователя и стратегию исследования, и исследовательский запрос, что обеспечивает большую настраиваемость.

Такой подход дает сразу несколько преимуществ. Код работает стабильнее длинных промтов, легко проверяется и воспроизводится, а сама оркестрация не зависит от “черного ящика” модели. Благодаря изолированному исполнению повышается безопасность, а прозрачные уведомления и сохранение промежуточных данных позволяют отслеживать каждый шаг исследования. Это снижает риски, дает контроль над источниками и бюджетом, а также делает систему пригодной для критически важных доменов — от финансов до здравоохранения.

Скриншот интерфейса, созданного для демонстрации UDR: строка поиска (сверху), список выбора стратегий (в центре) и область редактирования стратегии (внизу).
Скриншот интерфейса, созданного для демонстрации UDR: строка поиска (сверху), список выбора стратегий (в центре) и область редактирования стратегии (внизу).
Скриншот демонстрационного интерфейса UDR с завершённым исследовательским процессом: строка поиска (вверху), список выбора стратегии (верхняя середина), визуализатор прогресса уведомлений (нижняя середина) и просмотрщик отчёта (внизу).
Скриншот демонстрационного интерфейса UDR с завершённым исследовательским процессом: строка поиска (вверху), список выбора стратегии (верхняя середина), визуализатор прогресса уведомлений (нижняя середина) и просмотрщик отчёта (внизу).

В результате UDR открывает новый уровень кастомизации: можно запускать любую стратегию на любой LLM и адаптировать тактику под задачу — от быстрых обзоров до многоступенчатых экспертиз. Это меняет саму логику конкуренции: разработчики моделей сосредотачиваются на качестве рассуждений, а исследователи — на качестве стратегий. Для бизнеса и науки это означает переход к более надежным, прозрачным и воспроизводимым инструментам анализа информации.

? Подробнее

? Оригинальная статья

? Код

3. Как дообучать LLM на лету с помощью памяти вместо файнтюнинга

Исследование AgentFly предлагает свежий взгляд на развитие интеллектуальных агентов: вместо традиционного дообучения больших языковых моделей (LLM) с изменением весов здесь делается ставка на память. Авторы исходят из того, что реальные задачи требуют не одного ответа на промт, а цепочки действий — поиска, кода, чтения документов, проверки гипотез. AgentFly хранит опыт прошлых решений в виде кейсов и при встрече с новой задачей извлекает наиболее релевантные, чтобы строить план действий. Такой подход формализован как марковский процесс принятия решений с памятью, где политика выбора кейсов обучается онлайн, а сама LLM остаётся «замороженной».

Графическая модель марковского процесса принятия решений, основанного на памяти.
Графическая модель марковского процесса принятия решений, основанного на памяти.

Испытания показали, что память действительно усиливает агента: на бенчмарках GAIA и DeepResearcher он превзошёл даже модели с классическим дообучением, а на SimpleQA достиг рекордных 95% точности. Особенно заметна польза в задачах вне распределения: перенос стратегий через аналогии дал прирост до 9,6 процентных пунктов. Важным наблюдением стало то, что небольшая, но качественная память работает лучше бесконтрольного накопления данных, а краткие структурированные планы планировщика оказываются продуктивнее длинных размышлений.

Архитектура AgentFly с параметрической памятью: фреймворк «планировщик–исполнитель», чередующий планирование на основе случаев (этап 1) и выполнение с инструментами (этап 2).
Архитектура AgentFly с параметрической памятью: фреймворк «планировщик–исполнитель», чередующий планирование на основе случаев (этап 1) и выполнение с инструментами (этап 2).

Главный вывод исследования: адаптивных агентов можно строить без затратного файнтюнинга. Память превращает обучение в непрерывный процесс — система накапливает успешный опыт и тут же применяет его к новым вызовам. Это открывает дорогу к созданию устойчивых и доступных интеллектуальных помощников для науки, бизнеса и образования. В будущем остаётся решить задачи «гигиены памяти» и организации обмена кейсами между агентами, но сам подход уже приближает нас к системам, которые учатся и действуют так же естественно, как человек.

Сравнение AgentFly с базовыми методами на валидационном и тестовом наборах GAIA.
Сравнение AgentFly с базовыми методами на валидационном и тестовом наборах GAIA.

? Подробнее

? Оригинальная статья

? Код

4. Как построить мультиагентную систему, которая реально работает без магии и костылей

AgentScope 1.0 — это попытка ответить на главный вопрос агентных систем: как сделать так, чтобы LLM не просто болтали, а действовали осмысленно и предсказуемо в реальном окружении. Исследователи предложили фреймворк, который соединяет рассуждение и действие без магии и костылей: единый формат сообщений, унифицированные интерфейсы для разных моделей и инструментов, полноценная память (краткосрочная и долгосрочная), а также парадигму ReAct, где каждый шаг — это мысль, действие и наблюдение. Такой подход позволяет легко подключать API, базы данных или браузер, управлять параллельными вызовами и при этом не терять контроль над сценарием.

Обзор фреймворка AgentScope.
Обзор фреймворка AgentScope.
Использование модуля Toolkit в AgentScope, включая регистрацию инструментов (зелёный), групповое управление (синий) и выполнение (красный).
Использование модуля Toolkit в AgentScope, включая регистрацию инструментов (зелёный), групповое управление (синий) и выполнение (красный).
Рабочий процесс агента ReAct в AgentScope.
Рабочий процесс агента ReAct в AgentScope.

На практике AgentScope решает три критические проблемы: сложность интеграции, непредсказуемость поведения и отсутствие нормальной оценки. Единый Toolkit для инструментов упрощает разработку, параллельные и асинхронные вызовы ускоряют сценарии, а встроенные системы оценки и визуализации дают разработчикам прозрачный контроль качества. Важным элементом стала память: агент может запоминать факты и опыт, возвращаться к ним и использовать в новых задачах. Это делает его более устойчивым к длинным процессам и снижает вероятность ошибок.

Схема работы агента Deep Research.
Схема работы агента Deep Research.
Схема рабочего процесса агента «Browser-user».
Схема рабочего процесса агента «Browser-user».
Ключевой компонент Meta Planner и пример его сценария.
Ключевой компонент Meta Planner и пример его сценария.

В результате получаем платформу, которая сокращает время от идеи до работающего агента, повышает скорость и стабильность систем и при этом готова к масштабированию. AgentScope открывает дорогу к мультиагентным сценариям без хаоса: где агенты могут сотрудничать, синхронизировать контекст и выполнять сложные планы. Для бизнеса и исследователей это означает меньше инженерных рисков, больше гибкости и реальную возможность строить надёжные системы — от глубоких исследований до автоматизации процессов.

Диалог в стиле чат-бота и визуализация трассировки.
Диалог в стиле чат-бота и визуализация трассировки.

? Подробнее

? Оригинальная статья

? Код

5. Как обучение с подкреплением перестраивает мышление LLM

Исследование показывает, что обучение с подкреплением для LLM работает не только как способ повысить точность ответов, но и как инструмент перестройки самой «архитектуры мышления» модели. Авторы выявили две фазы прогресса: сначала модель автоматизирует низкоуровневые операции исполнения, а затем переключается на развитие стратегий — дедукции, ветвления, бэктрекинга. Именно на этом этапе появляются «aha-моменты» и устойчивый рост качества рассуждений. Для анализа они предложили прокси-метрику Strategic Grams — устойчивые n-граммы вроде «let’s try» или «but the problem mentions», которые отделяют планирующие токены от исполняющих.

Рассуждение с выделенными планирующими токенами: высокоуровневые шаги — дедукция, ветвление, бэктрекинг.
Рассуждение с выделенными планирующими токенами: высокоуровневые шаги — дедукция, ветвление, бэктрекинг.

Главная практическая новинка — метод HICRA (Hierarchy-Aware Credit Assignment). В отличие от классического GRPO, он распределяет «кредит» неравномерно: усиливает позитивный сигнал и смягчает штраф именно на стратегических токенах. Это позволяет расширять репертуар планов и закреплять удачные стратегии, вместо того чтобы случайно увеличивать вариативность исполнения. В экспериментах на Qwen, Llama и MiMO-VL HICRA стабильно обгоняет GRPO, давая особенно заметный прирост на математических и олимпиадных задачах.

Планирующие токены часто высокоэнтропийны, но большинство высокоэнтропийных токенов не являются планирующими. Функциональная метка надежнее.
Планирующие токены часто высокоэнтропийны, но большинство высокоэнтропийных токенов не являются планирующими. Функциональная метка надежнее.

Выводы исследования выходят за пределы тестовых наборов: если отделять планирование от исполнения, обучение становится более предсказуемым, а метрики — информативнее. Такой подход может применяться в кодогенерации, научных исследованиях, длинном тексте или мультиагентных системах, где стратегия и исполнение чётко разделимы. По сути, это шаг к тому, чтобы ИИ не просто «считал точнее», а развивал настоящее умение планировать и учиться на собственных стратегиях.

Энтропийная регуляризация наказывает и поощряет не там: растит пустую вариативность исполнения и длину ответа, но не точность. HICRA таргетирует стратегию и выигрывает.
Энтропийная регуляризация наказывает и поощряет не там: растит пустую вариативность исполнения и длину ответа, но не точность. HICRA таргетирует стратегию и выигрывает.

? Подробнее

? Оригинальная статья

6. Почему Text-to-SQL до сих пор ломается и как это исправить

Исследование SQL-of-Thought отвечает на давнюю проблему Text-to-SQL: модели умеют генерировать синтаксически правильные запросы, но часто ошибаются в логике. Вместо бесконечной перегенерации кода по результатам выполнения авторы предлагают структурировать рассуждение модели. Ключевой вклад — многоступенчатый конвейер: от выделения релевантных таблиц и построения плана на естественном языке до генерации SQL и направляемой коррекции через таксономию ошибок. Такой подход превращает задачу из угадывания в осмысленное проектирование запроса.

Архитектура SQL-of-Thought: от вопроса и схемы — к плану, SQL и циклу исправления с опорой на таксономию ошибок.
Архитектура SQL-of-Thought: от вопроса и схемы — к плану, SQL и циклу исправления с опорой на таксономию ошибок.

Главная инновация — система диагностики ошибок. Вместо «неверный результат» модель получает конкретный диагноз: «пропущено соединение», «не хватает GROUP BY» или «ошибка в агрегации». Исправление строится по плану, а не вслепую, что снижает количество бесполезных итераций. Эксперименты на наборах Spider и его усложнённых версиях показали впечатляющие результаты: до 91,6% точности, что превосходит текущие публичные решения. Особенно заметен вклад пошагового плана и направляемой коррекции: отключение этих модулей снижало точность на 5–10%.

Таксономия ошибок: 9 категорий и 31 подтип логических сбоев, которые система умеет распознавать и исправлять.
Таксономия ошибок: 9 категорий и 31 подтип логических сбоев, которые система умеет распознавать и исправлять.

Практический вывод прост: системы, которые сначала думают, а потом пишут SQL, стабильнее и дешевле, чем грубая «перегенерация до победы». Более того, мультиагентная архитектура позволяет использовать дорогие рассуждающие модели только там, где это критично, а генерацию SQL доверять более дешёвым. Для бизнеса это означает надёжный переход от «иногда работает» к предсказуемым системам запросов на естественном языке. А в перспективе — возможность дообучать лёгкие модели на типичных ошибках и получать доступные решения для корпоративных баз данных.

? Подробнее

? Оригинальная статья

7. Увидел-кликнул-победил: как UItron управляет компьютером по-человечески

UItron — это попытка научить ИИ взаимодействовать с компьютером так же, как это делает человек: видеть экран целиком, находить нужные элементы, кликать и выстраивать цепочки действий. Авторы отмечают, что основной барьер в развитии подобных систем был не в мощности моделей, а в отсутствии «жизненного опыта» — реальных кликов, свайпов и сложных сценариев. Ранее интерфейсы упрощали до кода или тегов, но при этом терялись нюансы, важные для успешного выполнения задач. Появление визуально-языковых моделей (VLM) открыло путь к новому уровню: теперь агент воспринимает интерфейс глазами пользователя.

Общая схема инженерии данных: включает сбор данных, их хранение, обработку, анализ и визуализацию для поддержки бизнес-решений.
Общая схема инженерии данных: включает сбор данных, их хранение, обработку, анализ и визуализацию для поддержки бизнес-решений.
Общее введение в парадигму обучения: схема иллюстрирует основные этапы и структуру процесса обучения модели.
Общее введение в парадигму обучения: схема иллюстрирует основные этапы и структуру процесса обучения модели.

Чтобы это работало, команда UItron собрала более миллиона шагов взаимодействия из топ-100 китайских приложений, построила инфраструктуру для симуляции действий и унифицировала разрозненные данные. Агент проходит три этапа обучения: восприятие элементов интерфейса, планирование действий и закрепление через RL. Такой подход позволил ему не только распознавать даже мелкие кнопки, но и продумывать длинные сценарии вроде отправки файла в мессенджере. В тестах UItron заметно превзошёл конкурентов по точности, скорости и устойчивости к обновлениям приложений, а в китайских супераппах показал особенно высокий прирост — до 20% успешности задач.

Сравнение UItron и UI-Tars по восприятию, пониманию и планированию, а также в китайских сценариях.
Сравнение UItron и UI-Tars по восприятию, пониманию и планированию, а также в китайских сценариях.
Общее представление об интерактивной инфраструктуре.
Общее представление об интерактивной инфраструктуре.

Главное достижение UItron — создание открытой системы, которую можно развивать и адаптировать под разные языки, приложения и сценарии. Это уже не просто исследовательский прототип, а фундамент для будущих цифровых помощников, способных полноценно работать с интерфейсами и учиться в процессе. В перспективе такие агенты смогут объединяться в мультиагентные системы, обмениваться опытом и выходить за пределы экранов — к взаимодействию с физическими устройствами. По сути, UItron показывает, каким может быть следующий шаг в эволюции человекоподобных ИИ-ассистентов.

Общая архитектура мобильной инфраструктуры с основными компонентами и их взаимодействием.
Общая архитектура мобильной инфраструктуры с основными компонентами и их взаимодействием.
Основные возможности агента для графического интерфейса: восприятие интерфейса, привязка действий к элементам, планирование действий без взаимодействия (оффлайн) и во время исполнения (онлайн).
Основные возможности агента для графического интерфейса: восприятие интерфейса, привязка действий к элементам, планирование действий без взаимодействия (оффлайн) и во время исполнения (онлайн).

? Подробнее

? Оригинальная статья

? Код

8. ИИ как соавтор: как агенты меняют науку прямо сейчас

Исследование о Agentic Science предлагает радикальный взгляд на роль искусственного интеллекта в науке. Авторы показывают, как ИИ переходит от уровня «инструмента» к статусу полноценного научного партнёра: он читает литературу, формулирует гипотезы, планирует и проводит эксперименты, анализирует результаты и даже корректирует собственные ошибки. Такой агент работает в замкнутом цикле и способен адаптировать последовательность шагов под задачу и ограничения — от поиска терапевтических мишеней в биотехнологиях до проектирования новых материалов.

Эволюция ИИ для науки: от вычислительных инструментов к творческим соавторам — четырёхэтапный путь ИИ в науке. Agentic Science — этап внутри AI for Science, в основном соответствующий Уровню 3 (полное агентное открытие) и опирающийся на Уровень 2 (частичное агентное открытие).
Эволюция ИИ для науки: от вычислительных инструментов к творческим соавторам — четырёхэтапный путь ИИ в науке. Agentic Science — этап внутри AI for Science, в основном соответствующий Уровню 3 (полное агентное открытие) и опирающийся на Уровень 2 (частичное агентное открытие).
Фреймворк автономного научного открытия: интеграция базовых возможностей, основных процессов и уровней исследований в биологических науках, химии, материаловедении и физике.
Фреймворк автономного научного открытия: интеграция базовых возможностей, основных процессов и уровней исследований в биологических науках, химии, материаловедении и физике.

Ключевая идея работы — систематизировать возможности агентных систем в науке. Исследователи выделяют пять базовых способностей (планирование, интеграция инструментов, память, мультиагентность и самоэволюция), которые делают возможным автономное открытие. Фреймворк связывает эти способности с этапами научного процесса и реальными доменами — химией, физикой, биологией, материаловедением. Уже сегодня такие агенты проектируют реакции на роботизированных установках, предлагают новые лекарства и ускоряют моделирование сложных физических процессов.

Совместный цикл открытия человека и агента: ученый задает высокоуровневое направление, а научный агент автономно действует в цикле открытия, опираясь на пять ключевых возможностей.
Совместный цикл открытия человека и агента: ученый задает высокоуровневое направление, а научный агент автономно действует в цикле открытия, опираясь на пять ключевых возможностей.
Основные способности научных агентов.
Основные способности научных агентов.

Однако вместе с прорывами встают новые вызовы: воспроизводимость, прозрачность рассуждений, проверка новизны гипотез и вопросы безопасности. Авторы предлагают дорожную карту развития, которая ведёт от устойчивых и воспроизводимых систем к амбициозной цели — «Нобелевскому тесту Тьюринга», то есть способности агента совершать открытия нобелевского уровня. Для науки это значит не просто ускорение экспериментов, а переход к новой модели сотрудничества, где ИИ становится соавтором, а учёный — стратегом и архитектором научного процесса.

Естественно-научные исследования на основе агентного ИИ. На рисунке показаны только репрезентативные задачи.
Естественно-научные исследования на основе агентного ИИ. На рисунке показаны только репрезентативные задачи.
Путь к агентным ученым: преодоление текущих вызовов, запуск автономного изобретательства и создание «Нобелевского теста Тьюринга» в биотехнологиях, химии, материаловедении и физике.
Путь к агентным ученым: преодоление текущих вызовов, запуск автономного изобретательства и создание «Нобелевского теста Тьюринга» в биотехнологиях, химии, материаловедении и физике.

? Подробнее

? Оригинальная статья

? Код

9. Нажал — и мир двинулся: Matrix-Game 2.0 делает видео интерактивным в реальном времени

Matrix-Game 2.0 решает ключевую проблему интерактивных моделей мира — как сделать так, чтобы видео реагировало на действия пользователя в реальном времени и не «ломалось» при длинных последовательностях. Для этого авторы построили масштабные пайплайны данных в Unreal Engine и GTA5, собрав более 1200 часов клипов с точной привязкой действий к каждому кадру. Технический прорыв заключается в причинной диффузионной архитектуре с дистилляцией (self-forcing), KV-кэшем и минимальным числом шагов генерации. Итог — потоковое видео 25 кадров в секунду на одной видеокарте с точным контролем мыши и клавиатуры.

Matrix-Game 2.0 — модель интерактивной генерации видео в реальном времени; благодаря модулям действий и дистилляции в несколько шагов она авторегрессивно создаёт качественные интерактивные видео из входного изображения со скоростью 25 кадров/с. Результаты охватывают различные сцены и стили, демонстрируя её мощные возможности.
Matrix-Game 2.0 — модель интерактивной генерации видео в реальном времени; благодаря модулям действий и дистилляции в несколько шагов она авторегрессивно создаёт качественные интерактивные видео из входного изображения со скоростью 25 кадров/с. Результаты охватывают различные сцены и стили, демонстрируя её мощные возможности.
Пайплайны Matrix-Game 2.0
Пайплайны Matrix-Game 2.0

Результаты впечатляют: модель стабильно держит качество и динамику на длинных отрезках, превосходит аналоги вроде Oasis и YUME по управляемости и устойчивости, а также сохраняет «память» о сцене без накопления ошибок. При этом Matrix-Game 2.0 показала неожиданный эффект: слишком большие окна памяти портят результат, а сбалансированный KV-кэш, наоборот, помогает модели корректировать собственные огрехи на ходу.

Обзор пайплайна производства данных на базе Unreal Engine.
Обзор пайплайна производства данных на базе Unreal Engine.
Обзор пайплайна производства данных на базе GTA5.
Обзор пайплайна производства данных на базе GTA5.

Значимость работы в том, что она открывает путь к по-настоящему интерактивным симуляторам. Это ускоряет обучение агентов для игр, навигации и робототехники, позволяет LLM-моделям тестировать гипотезы в визуальном «песочнице» и делает видеодиффузию прикладным инструментом. Публикация кода и весов превращает Matrix-Game 2.0 не просто в исследование, а в основу для следующего поколения интерактивных ИИ-систем, где мир «откликается» на каждое действие.

Генерация длинных видео в Matrix-Game 2.0: результаты в реальном времени демонстрируют высокое визуальное качество и точный контроль действий при создании длинных видео.
Генерация длинных видео в Matrix-Game 2.0: результаты в реальном времени демонстрируют высокое визуальное качество и точный контроль действий при создании длинных видео.

? Подробнее

? Оригинальная статья

? Код

10. Память для роботов: как машины учатся видеть мир осознанно

Исследование BSC-Nav поднимает ключевую проблему робототехники: большинство агентов остаются реактивными, действуя по кадрам без долгосрочного понимания пространства. Авторы предлагают решение, вдохновленное работой мозга человека — когнитивную память с тремя уровнями: ориентиры, когнитивная карта и рабочая память. Такая архитектура позволяет не просто «реагировать на картинку», а строить осмысленные маршруты, переиспользовать опыт и гибко адаптироваться под задачу.

BSC-Nav — фреймворк когнитивного пространственного интеллекта: от биологической памяти к рабочей памяти агента и высоким навыкам
BSC-Nav — фреймворк когнитивного пространственного интеллекта: от биологической памяти к рабочей памяти агента и высоким навыкам
Иерархическое извлечение: быстрый поиск по ориентирам для категорий и ассоциативный поиск по карте для экземпляров и изображений
Иерархическое извлечение: быстрый поиск по ориентирам для категорий и ассоциативный поиск по карте для экземпляров и изображений

Методы сочетают современные инструменты компьютерного зрения (DINOv2, детекторы объектов) и большие языковые модели, которые помогают увязывать семантику запросов с памятью. Важный принцип — «сюрприз»: в память попадает только новое и значимое, что делает систему устойчивой и экономичной. Эксперименты на симуляторах Habitat показали резкий рост точности: до 78,5% успеха на сложных сценах и заметное превосходство над базовыми подходами в задачах поиска по категории, тексту или изображению.

Целевая мультимодальная навигация: категории, экземпляры по тексту и по изображению; траектории и верификация цели
Целевая мультимодальная навигация: категории, экземпляры по тексту и по изображению; траектории и верификация цели
Высокоуровневые навыки: следование человеческим инструкциям и воплощённые вопросы-ответы
Высокоуровневые навыки: следование человеческим инструкциям и воплощённые вопросы-ответы

В реальных испытаниях на мобильном роботе BSC-Nav продемонстрировал уверенную работу: от навигации по этажам до многошаговых манипуляций вроде «готовки завтрака». Это подтверждает, что переход от реактивных политик к многоуровневому пространственному мышлению реален. В перспективе такая память позволит создавать роботов, которые ориентируются и действуют в мире так же осмысленно, как человек, — что критически важно для будущих сервисных и домашних помощников.

Робот умеет даже готовит завтрак из нескольких ингредиентов с чередованием движения и действий.

? Подробнее

? Оригинальная статья

? Код

? Видео


ИИ быстро учится планировать, эффективно работать с памятью, взаимодействовать с окружением и даже формировать собственные стратегии поведения. Вместе с этим растёт и наша ответственность: теперь важно не только делать модели мощнее, но и выстраивать стимулы так, чтобы они были прозрачными и безопасными. Всё это приближает нас к миру, где интеллектуальные помощники смогут действовать устойчиво, сотрудничать друг с другом и поддерживать нас в науке, бизнесе и повседневной жизни. Вопрос в том, как мы сумеем использовать эту автономию — чтобы ИИ стал не конкурентом, а партнёром в создании будущего.

Не забудьте подписаться на мой Telegram-канал — там я делюсь инсайтами из ИИ-индустрии, практическими кейсами внедрения технологий в бизнес и опытом создания ИИ-стартапов. А канал Dataism Lab ежедневно держит вас в курсе самых свежих исследований в области ИИ. Будем вместе впереди в мире технологий!

Комментарии (0)


  1. Sapsan_Sapsanov
    22.09.2025 05:00

    Получится, как всегда, увы. Первые плоды будет получать военщина. Азимов будет как вентилятор в гробу.)