Начинаем серию разборов современных Vision-Language-Action (VLA) моделей для манипуляции. Несмотря на то, что им всего около года (π₀ была представлена ровно год назад — 31 октября 2024), текущие системы уже можно считать вторым поколением VLA-подходов. Их ключевое отличие — появление дополнительного модуля action head, который представляет собой не просто голову над представлениями, а отдельный диффузионный трансформер, обучаемый по задаче flow matching.
Сегодня — разбор GR00T от NVIDIA, который с момента релиза N1 уже успел обновиться до версии N1.5, а на днях ожидается N1.6.
Концепция VLA и постановка задачи
VLA-модель — это end-to-end система, принимающая на вход «сырые» сенсорные сигналы различных модальностей (видео, текст, состояния сочленений робота) и напрямую предсказывающая управляющие действия, без внешнего планировщика или постобработки.
Для человекоподобного робота входные данные включают:
RGB-изображение с onboard-камеры,
текстовую инструкцию (например, «положи чашку в посудомойку»),
вектор текущих угловых положений суставов.
Выход модели — вектор целевых углов суставов (или приращений), который подаётся непосредственно в контроллер привода.

Архитектура GR00T N1.5
Модель можно условно разделить на две подсистемы:
Vision-Language Encoder (Eagle-2 VLM) — мощная мультимодальная модель, извлекающая токенизированные представления сцены и текстовой команды. Она заморожена и не дообучается.
Action Transformer (Diffusion Policy Transformer) — диффузионный трансформер, который, используя объединённое представление от VLM и State Encoder, предсказывает траекторию действий на горизонте до 16 шагов вперёд.
State Encoder и Action Encoder — модули, обрабатывающие текущее состояние робота или команду. Для каждого типа робота используется собственный набор весов, что позволяет проецировать состояния роботов с разной кинематикой в общее латентное пространство. Таким образом, модель учится в латентном пространстве, где все роботы и все задачи приводятся к унифицированной форме взаимодействия. Это обеспечивает переносимость и переиспользуемость параметров между платформами.
Данные и схема обучения
Обучение проводится на триплетах вида:
(изображение, текстовая команда, состояние на момент t) → предсказание действий на t+1…t+16.
Важная ценность GR00T — масштаб и структура обучающего пула данных. NVIDIA показала, что базовые модели можно эффективно обучать на смеси реальных и синтетических данных, что радикально снижает стоимость датасета.

Всего — около 6 500 часов данных:
88 часов телеоператорских демонстраций, собранных NVIDIA
3 300 часов телеопа с разных роботов из публичного домена
2 500 часов видео людей (egocentric human demonstrations)
2 700 часов синтетики
Синтетические данные формируются по двум схемам:
Simulation Trajectories — телеоп-треки из симулятора, расширенные методом DexMimicGen,
Neural Trajectories — сцены, аугментированные видео-моделью, дообученной на телеоп-роликах.
Видео людей требуют особой обработки: обучается VQ-VAE, кодирующий наблюдения человека от первого лица в латентное “позовое” пространство тела, что позволяет использовать эти данные наравне с роботизированными демонстрациями.
Обучение GR00T N1.5 проводилось на 50 000 GPU-часов на графических ускорителях NVIDIA H100. На NVIDIA Orin AGX (TensorRT backend) модель инферится «в вакууме» за ≈ 100 мс на один шаг предсказания, что делает её пригодной для использования на мобильных гуманоидных платформах.
Результаты
GR00T N1.5 — это базовая (foundation) модель для манипуляции, предназначенная для последующего дообучения под конкретный тип робота и задачу.
Такой подход обеспечивает:
быструю адаптацию к новому телу робота,
существенное снижение объёма требуемых данных,
рост качества (success rate) для задач как в симуляции, так и на реальных задачах.

На этом все. В следующий раз обсудим модель pi0.
Подписывайтесь на наш канал ?❤️: https://t.me/+Kh7YUgQ3QvI4MzYy