Начинаем серию разборов современных Vision-Language-Action (VLA) моделей для манипуляции. Несмотря на то, что им всего около года (π₀ была представлена ровно год назад — 31 октября 2024), текущие системы уже можно считать вторым поколением VLA-подходов. Их ключевое отличие — появление дополнительного модуля action head, который представляет собой не просто голову над представлениями, а отдельный диффузионный трансформер, обучаемый по задаче flow matching.

Сегодня — разбор GR00T от NVIDIA, который с момента релиза N1 уже успел обновиться до версии N1.5, а на днях ожидается N1.6.

Концепция VLA и постановка задачи

VLA-модель — это end-to-end система, принимающая на вход «сырые» сенсорные сигналы различных модальностей (видео, текст, состояния сочленений робота) и напрямую предсказывающая управляющие действия, без внешнего планировщика или постобработки.

Для человекоподобного робота входные данные включают:

  • RGB-изображение с onboard-камеры,

  • текстовую инструкцию (например, «положи чашку в посудомойку»),

  • вектор текущих угловых положений суставов.

Выход модели — вектор целевых углов суставов (или приращений), который подаётся непосредственно в контроллер привода.

Архитектура GR00T N1.5

Модель можно условно разделить на две подсистемы:

  1. Vision-Language Encoder (Eagle-2 VLM) — мощная мультимодальная модель, извлекающая токенизированные представления сцены и текстовой команды. Она заморожена и не дообучается.

  2. Action Transformer (Diffusion Policy Transformer) — диффузионный трансформер, который, используя объединённое представление от VLM и State Encoder, предсказывает траекторию действий на горизонте до 16 шагов вперёд.

State Encoder и Action Encoder — модули, обрабатывающие текущее состояние робота или команду. Для каждого типа робота используется собственный набор весов, что позволяет проецировать состояния роботов с разной кинематикой в общее латентное пространство. Таким образом, модель учится в латентном пространстве, где все роботы и все задачи приводятся к унифицированной форме взаимодействия. Это обеспечивает переносимость и переиспользуемость параметров между платформами.

Данные и схема обучения

Обучение проводится на триплетах вида:
(изображение, текстовая команда, состояние на момент t) → предсказание действий на t+1…t+16.

Важная ценность GR00T — масштаб и структура обучающего пула данных. NVIDIA показала, что базовые модели можно эффективно обучать на смеси реальных и синтетических данных, что радикально снижает стоимость датасета.

Всего — около 6 500 часов данных:

  • 88 часов телеоператорских демонстраций, собранных NVIDIA

  • 3 300 часов телеопа с разных роботов из публичного домена

  • 2 500 часов видео людей (egocentric human demonstrations)

  • 2 700 часов синтетики

Синтетические данные формируются по двум схемам:

  • Simulation Trajectories — телеоп-треки из симулятора, расширенные методом DexMimicGen,

  • Neural Trajectories — сцены, аугментированные видео-моделью, дообученной на телеоп-роликах.

Видео людей требуют особой обработки: обучается VQ-VAE, кодирующий наблюдения человека от первого лица в латентное “позовое” пространство тела, что позволяет использовать эти данные наравне с роботизированными демонстрациями.

Обучение GR00T N1.5 проводилось на 50 000 GPU-часов на графических ускорителях NVIDIA H100. На NVIDIA Orin AGX (TensorRT backend) модель инферится «в вакууме» за ≈ 100 мс на один шаг предсказания, что делает её пригодной для использования на мобильных гуманоидных платформах.

Результаты

GR00T N1.5 — это базовая (foundation) модель для манипуляции, предназначенная для последующего дообучения под конкретный тип робота и задачу.

Такой подход обеспечивает:

  • быструю адаптацию к новому телу робота,

  • существенное снижение объёма требуемых данных,

  • рост качества (success rate) для задач как в симуляции, так и на реальных задачах.

На этом все. В следующий раз обсудим модель pi0. 

Подписывайтесь на наш канал ?❤️: https://t.me/+Kh7YUgQ3QvI4MzYy

Комментарии (0)