Интерактивные модели мира — это способ учить ИИ «ощущать» мир, а не только описывать его словами. Но до недавнего времени у таких моделей было три больших препятствия: не хватало качественных данных с точной пометкой действий; классические видеодиффузоры считали слишком долго и «забывали» начало ролика; ошибки накапливались от кадра к кадру. Matrix-Game 2.0 предлагает ясный, практичный ответ: авторегрессивная модель с малым числом шагов, потоковая генерация на лету в 25 FPS и строгий контроль действий мышью и клавиатурой.

Matrix-Game 2.0 — модель интерактивной генерации видео в реальном времени; благодаря модулям действий и дистилляции в несколько шагов она авторегрессивно создаёт качественные интерактивные видео из входного изображения со скоростью 25 кадров/с. Результаты охватывают различные сцены и стили, демонстрируя её мощные возможности.
Matrix-Game 2.0 — модель интерактивной генерации видео в реальном времени; благодаря модулям действий и дистилляции в несколько шагов она авторегрессивно создаёт качественные интерактивные видео из входного изображения со скоростью 25 кадров/с. Результаты охватывают различные сцены и стили, демонстрируя её мощные возможности.

Зачем вообще пытаться моделировать мир видео?

  • Чтобы агенты в играх и симуляторах могли планировать не схематично, а «видя» последствия нажатий.

  • Чтобы обучение вождения или навигации шло быстрее и безопаснее.

  • Чтобы LLM и мультиагентные системы получали визуальный «симулятор», где можно проверять гипотезы по промтам без физического мира.

Вместо длинных промтов Matrix-Game 2.0 ориентируется на то, что действительно правит динамикой — на визуальные кадры и реальные действия.

Конвейеры Matrix-Game 2.0.
Конвейеры Matrix-Game 2.0.

Откуда взялись данные, на которых модель учится

Команда построила два производственных конвейера — в Unreal Engine и GTA5. Оба выдают видео и синхронные логи нажатий, движения камеры и физики с точностью до кадра.

  • Unreal Engine: навигационная сетка задаёт траектории без залипания, агенты обучены PPO с наградами за разнообразие и отсутствие столкновений, а камера управляется с практически нулевой ошибкой вращения. Потоки рендеринга и записи идут параллельно, что повышает пропускную способность даже на одной видеокарте.

  • GTA5: собственный плагин одновременно пишет RGB, мышь/клавиатуру и параметры движения авто. Можно переключать виды камеры, погоду, плотность трафика; помогает удерживать поведение в пределах проходимых зон.

В сумме получилось порядка 1200 часов разнообразных клипов с точной привязкой действий к кадрам.

Обзор пайплайна производства данных на базе Unreal Engine.
Обзор пайплайна производства данных на базе Unreal Engine.
Обзор пайплайна производства данных на базе GTA5.
Обзор пайплайна производства данных на базе GTA5.

Что у модели внутри

Matrix-Game 2.0 — модель мира без текста: на вход идёт одно референсное изображение и действия; на выходе — видео, подчинённое законам физики сцены. 3D Causal VAE ужимает кадры по пространству и времени, экономя вычисления. Диффузионный трансформер (DiT) получает:

  • непрерывные действия мыши, встроенные через MLP и временное самовнимание;

  • дискретные клавиши, поданные через кросс-внимание с позиционными признаками RoPE, чтобы не «ломать» длинную зависимость.

Ключ к реальному времени — дистилляция из двунаправленного «учителя» в причинную малошаговую «студент-модель» методом Self-Forcing. Она учится предсказывать следующие токены, опираясь на собственный прошлый вывод, а не на идеальную правду. Так снижается накопление ошибок. KV‑кэш хранит последние токены и действия в скользящем окне: это даёт непрерывную потоковую генерацию без квадратичных издержек по длине.

Обучение причинной диффузионной модели методом self-forcing: дистилляция выравнивает распределения модели-студента с моделью-учителем через самообусловленную генерацию, что эффективно снижает накопление ошибок при сохранении качества генерации.
Обучение причинной диффузионной модели методом self-forcing: дистилляция выравнивает распределения модели-студента с моделью-учителем через самообусловленную генерацию, что эффективно снижает накопление ошибок при сохранении качества генерации.

Как это ощущается на практике

  • Скорость: 25 кадров в секунду на одной H100; несколько минут непрерывного видео без «потери памяти» о сцене.

  • Управление: точная реакция на клавиатуру и мышь кадр-в-кадр, что важно для игр и симуляторов.

  • Качество: по бенчмарку GameWorld Score модель заметно превосходит Oasis в Minecraft (лучше изображение, действие и стабильность на длинных отрезках), а в сложных сценах держит стиль и динамику на уровне и выше YUME, но работает быстрее и устойчивее к «залипанию» кадра.

Чтобы выйти на 25 FPS без просадки качества, команда комбинировала три приёма: кэш декодера VAE, облегчение модулей действий и уменьшение шагов диффузии до трёх — метрики при этом остаются стабильными.

Генерация длинных видео в Matrix-Game 2.0: результаты в реальном времени демонстрируют высокое визуальное качество и точный контроль действий при создании длинных видео.
Генерация длинных видео в Matrix-Game 2.0: результаты в реальном времени демонстрируют высокое визуальное качество и точный контроль действий при создании длинных видео.

Один неожиданный урок

Слишком большой локальный размер KV‑кэша портит долгую последовательность: копятся артефакты, и модель переучивается на собственные огрехи. Умеренное окно сохраняет контекст и даёт шанс исправляться на ходу.

Качественное сравнение при разных локальных размерах для KV-cache: большой локальный размер вызывает артефакты на длинных последовательностях, а меньший сохраняет баланс между визуальным качеством и точностью содержания.
Качественное сравнение при разных локальных размерах для KV-cache: большой локальный размер вызывает артефакты на длинных последовательностях, а меньший сохраняет баланс между визуальным качеством и точностью содержания.

Где границы сегодня

  • Сцены вне домена всё ещё сложны: длительный подъём камеры или очень длинное движение вперёд приводит к деградации.

  • Разрешение 352×640 — не 4K: для некоторых задач хочется побольше разрешения.

  • Долгая память об объектах и событиях на горизонте десятков минут требует лёгких модулей памяти или внешнего поиска без потери скорости.

Проблемные случаи. Matrix-Game-V2 иногда не справляется со сценами вне домена, например, выдаёт чрезмерно насыщенные (слева) или ухудшенные (справа) результаты.
Проблемные случаи. Matrix-Game-V2 иногда не справляется со сценами вне домена, например, выдаёт чрезмерно насыщенные (слева) или ухудшенные (справа) результаты.

Почему это важно

Открытые код и веса — это возможность быстро проверять идеи: подключать планировщики для мультиагентных систем, связывать миромодель с LLM по промту, учить новых агентов на богатых интерактивных траекториях. Matrix-Game 2.0 превращает видеодиффузию в рабочий инструмент для реальных систем.

Если коротко, работа показывает, что у мира, который генерирует ИИ, может быть тактильность: нажал — и мир двинулся. Быстро, устойчиво и достаточно точно, чтобы на этом строить следующие поколения интерактивного ИИ. Код и веса будут опубликованы, а значит, главный эксперимент — только начинается.

? Оригинальная статья

***

Если вам интересна тема ИИ, подписывайтесь на мой Telegram-канал - там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.

Комментарии (1)


  1. Rive
    25.08.2025 06:19

    H100 всё-таки пока слишком дорогой для игровой видеокарты.