Привет, Хабр! Меня зовут Дмитрий Тетерюков, и я профессор Центра системного проектирования Сколтеха. Работаю на стыке ИИ и роботов — там, где алгоритмы начинают взаимодействовать с физическим миром и ведут себя «по-человечески».

В этом материале по мотивам моего доклада с True Tech Day я расскажу, как функционируют когнитивные роботы с физическим ИИ (Physical AI). Это направление, которое готовится перевернуть промышленность и стать многомиллиардным рынком. Сюда вкладываются гиганты вроде NVIDIA и Google. Physical AI — это не просто программы, а системы, которые способны мыслить, учиться и действовать в реальном мире. Разберемся, как когнитивные роботы принимают решения, какие вызовы стоят перед разработчиками и почему это самое крутое направление в ИИ прямо сейчас. Поехали!

Будущее производства — полностью автономные системы

Давайте сядем на машину времени и перенесемся в прошлое. Обратимся к истории индустриальных революций. Первая была связана с изобретением паровых машин и механизацией процессов. Вторая ознаменовалась развитием массового производства, и одним из ее ключевых идеологов был Генри Форд, который ввел в промышленность конвейер для сборки автомобилей. Третья связана с началом роботизации, а четвертая — с появлением киберфизических систем, которые объединили роботы и сенсоры.

Концепцию «Индустрия 4.0» предложил Клаус Шваб, основатель и президент Всемирного экономического форума в Давосе и доктор экономических наук. Он обобщил самые перспективные на тот момент технологии, включая элементы искусственного интеллекта и аддитивные технологии, такие как 3D-печать, дополненную и виртуальную реальность, а также концепцию цифровых двойников.

Сейчас мы находимся в эпохе пятой индустриальной революции, когда на производстве люди взаимодействуют с роботами. Несмотря на значительный технологический прогресс, «Индустрия 4.0» и «Индустрия 5.0» по-прежнему предполагают участие человека в производственных процессах.

Знаете ли вы, сколько роботов у Amazon? Один миллион. Что приближается к количеству сотрудников компании (1,5 млн). Именно такой масштаб позволяет Amazon быть абсолютным лидером по скорости доставки. Благодаря роботам компания повысила эффективность сборки заказов на 20%. В этих процессах задействованы самые разные машины: мобильные роботы, роботы-паллетайзеры, новый робот Vulcan с тактильным очувствлением и другие. Сегодня все распределительные центры Amazon практически полностью автоматизированы, за исключением последней операции — сборки заказа. Сейчас компания активно работает и над этим этапом. Когда это произойдет, можно будет говорить о стопроцентной автоматизации, включая применение генеративного ИИ для выявления любых ошибок и недочетов в логистических процессах.

Я разработал концепцию «Индустрии 6.0» вместе с командой из одиннадцати исследователей лаборатории, прежде всего аспирантов Артема Лыкова и Михаила Коненкова, Dr. Miguel Altamirano Cabrera. Ее ключевая особенность — полная автоматизация производства и проектирования. Идея в том, что выпуск любых типов изделий будет осуществляться без участия человека — исключительно под управлением ИИ-систем и с помощью роботов, взаимодействующих друг с другом.

Что в сердце «Индустрии 6.0»

Основная идея — охватить полный производственный цикл. В рамках этой концепции все этапы — начиная от создания CAD-моделей, которые могут включать как механические узлы, так и печатные платы (PCB), и до финальной сборки и доставки продукции — предполагается выполнять с использованием генеративного искусственного интеллекта в сочетании с системой гетерогенных автономных роботов. При этом используется облачный ИИ, управляющий всеми процессами. Причем каждый робот оснащен локальным ИИ, который наделяет их способностью действовать как автономно, так и сотрудничая через роевой интеллект. В рой будут включаться различные типы роботов: человекоподобные, промышленные, коллаборативные, мобильные, дроны и обрабатывающие Центры с ИИ. Также в системе будут функционировать ИИ-агенты, связывающие цифровой мир и мир роботов.

Интересная особенность концепции в том, что она охватывает не только цикл производства, но и процессы ремонта и обслуживания — все это будет происходить без участия человека. В случае появления дефектов в продукции облачный ИИ сможет определить причину. Роботы будут сами ремонтировать как станки, так и других роботов.

Сейчас на производственных предприятиях все строится горизонтально благодаря подходу Генри Форда, чье изобретение конвейера определило облик заводов на целое столетие. Но такие фабрики занимают много пространства. Мы предлагаем применять рои автономных дронов, оснащенных генеративным ИИ, для доставки внутри помещений любой конфигурации. Это особенно актуально в контексте тренда на вертикальные фермы в условиях города. По аналогии можно организовать производство прямо в урбанистической среде, что позволит значительно ускорить поставку продукции.

Еще один ключевой элемент «Индустрии 6.0» — цифровые двойники. Здесь стоит упомянуть NVIDIA и ее платформы Omniverse, Isaac Sim, и Cosmos. У них действительно уникальная разработка: возможность разворачивать виртуальное производство за считанные часы. На этих платформах можно смоделировать действия роботов, станков с ЧПУ и других установок, обучить их на синтетических данных, а затем перенести получившийся код в реальные устройства. Такой подход, основанный на симуляции в цифровом пространстве с последующим переносом в физический мир (SimToReal) — одно из направлений, которое делает возможным реализацию «Индустрии 6.0».

Теперь расстояние от идеи продукта до ее воплощения сокращается до минимума. Пользователь описывает, что ему нужно, текстом или с помощью изображения, а на выходе получает готовый продукт! «Индустрия 6.0» сможет производить кастомные изделия для любого пользователя.

Чего мы уже добились по концепции «Индустрии 6.0»

Создание прототипа по текстовому запросу

Мы не только предложили концепцию «Индустрия 6.0», но и воплотили ее. В нашем сценарии пользователь поставил задачу создать робототехнический захват по текстовому запросу. Для прототипирования использовалась 3D-печать. После изготовления детали коллаборативный робот извлек и загрузил ее в дрон для дальнейшей транспортировки на участок сборки. Результат пока еще не является промышленным стандартом, поскольку остается открытым вопрос вычислительных ресурсов, необходимых для подобных систем. Демонстрация технологии доступна по ссылке.

В этом и других наших примерах использовался сервер с видеокартой NVIDIA RTX 4090. Но если говорить о создании полностью автономных роботов, то нужно переносить языковые модели прямо им на борт. И тут возникает определенная сложность. Сегодня существует всего несколько технических решений, которые это позволяют. Например, NVIDIA Jetson Orin способна выполнять вычисления для небольших LLM в реальном времени.

Сейчас основная задача заключается в том, чтобы такие решения стали еще более мощными и компактными. На днях NVIDIA представила миниатюрный компьютер для роботов Jetson Thor с производительностью 2070 терафлопс, что позволит размещать уже полноценные языковые модели непосредственно на роботах.

Мы также экспериментировали с разными предметами, сгенерированными искусственным интеллектом — например, оправой очков, корпусом коптера, настенными часами и другими объектами. Сейчас это относительно простые изделия, но в будущем, безусловно, возможно создание и более сложных конструкций, таких как автомобили, роботы и даже самолеты и космические корабли.

Нам удалось значительно ускорить ключевые процессы: создание CAD-моделей теперь занимает в 47 раз меньше времени по сравнению с работой человека, а сам процесс производства — в 4,4 раза быстрее.

Если на момент появления нашей концепции подобное казалось делом далекого будущего, то сегодня это уже реальность. В марте этого года на заводе, производящем автомобили ZEEKR, начали работать десятки человекоподобных роботов, объединенных в единую сеть под управлением роевого искусственного интеллекта. В целом в Китае ежегодно устанавливают порядка 300 тысяч промышленных роботов, что составляет более 50% всех установок в мире, и технологический бум страны в значительной степени опирается именно на роботизацию и внедрение искусственного интеллекта на производствах.

Недавно генеративный ИИ уже начал активно применяться на складах Amazon. Появилась система DeepFleet, координирующая весь флот роботов и распределяющая задачи между ними. Это уменьшило время движения на 10%, однако сами роботы пока не используют технологии ИИ.

Первая технология для управления поведением мультиагентной системы роботов — LLM-MARS — была разработана ISR Lab еще в декабре 2023 года. Недавно мы опубликовали статью по технологии SwarmVLM, где роем дронов и мобильных роботов управляет визуально-языковая модель. Система показала 92% успешной реализации задач в 12 различных сценариях, обеспечивая безопасность движения за счет импедансного управления.

Концепция «Индустрия 6.0» распространяется далеко за пределы промышленности: 

  • Склад 6.0: полная роботизация склада посредством роя автономных гетерогенных роботов управляемых генеративным ИИ.

  • Автономность 6.0: рой гетерогенных транспортных средств управляемых генеративным ИИ (будущее беспилотных такси и грузовых перевозок).

  • Логистика 6.0: рой гетерогенных роботов для indoor и outdoor доставки товаров.

  • Город 6.0: рой гетерогенных роботов под управлением ИИ для уборки и ремонта городской инфраструктуры, роботизированного строительства и обеспечения безопасности в городе.

  • Хаптика 6.0: рой тактильных дисплеев под управлением ИИ для передачи ощущения полного погружения в AR/VR (медицинские симуляторы, обучение роботов, видео игры).

  • Образование 6.0: рой роботов с ИИ для изучения и тестирования технологий Physical AI. 

А 19–25 октября этого года «Индустрия 6.0» будет представлена в Ханжоу, Китай, на глав��ой роботехнической конференции в мире по ИИ в робототехнике — IEEE/RSJ IROS 2025

Коммуникация роботов между собой

Поговорим о рое гетерогенных роботов — объединении в одну систему роботов разных типов: промышленных, коллаборативных, человекоподобных, роботов-собак и других.

Возникает вопрос: как все эти устройства могут взаимодействовать? Чтобы решить эту задачу, мы создали CognitiveOS — операционную систему, которая позволяет роботам координировать свои действия и «общаться» друг с другом:

Мы представили эту технологию на главной конференции по робототехнике IEEE ICRA 2025 (Core A*), где было около 7 тысяч участников и более 1 200 статей. Наш доклад был единственным, представленным спикером из России.

Ее уникальность в том, что она построена на архитектуре трансформеров и представляет собой мультиагентную систему. CognitiveOS состоит из набора модулей необходимых для функционирования определенного типа роботов. Например, если говорить о роботе-собаке, то для него нужны модули навигации и визуального анализа среды, генерации поведения, запоминания полезной информации и этический модуль для взаимодействия с человеком.

Если речь идет о коллаборативном роботе, то ему нужны модули определения положения и манипулирования объектами и генерации паттернов поведения. То есть вы можете собирать мозг робота как конструктор лего. Причем роботы общаются между собой на естественном для людей языке — таким образом они не только могут передавать информацию друг другу, но и получать обратную связь от пользователя если они допустили ошибку или он хочет поменять задачу.

Мы реализовали интересный сценарий: человек просит четвероногого робота принести полезный напиток. Робот-собака подходит к коллаборативному роботу, передает ему запрос на естественном языке. Манипулятор определяет и отдает нужный напиток. Робот-собака определяет свой путь назад к человеку и приносит ему напиток.

Объединение в одну систему разных типов роботов стало возможным благодаря масштабируемости и модульной архитектуре CognitiveOS. На роботах стоит одна операционная система, но с разным набором модулей. Таким образом мы можем оптимально использовать ограниченные вычислительные ресурсы. Мы получаем один мозг с разным набором модулей для любых типов роботов!

При сравнении CognitiveOS с передовыми решениями, такими как Robotics Transformer 2 (RT-2) от Google DeepMind, она превзошла их в рассуждениях — ключевой метрики для оценки когнитивных роботов.

Работа вызвала положительные отклики, и сейчас одна из ведущих мировых компаний в сфере социальных сетей набирает около 200 инженеров для разработки промышленной версии операционной системы для когнитивных роботов. Кроме того, компания Skild AI, работающая над созданием единого мозга для любых типов роботов, с инвестициями от NVIDIA и Amazon уже оценивается в 4,5 миллиарда долларов. CEO компании является Deepak Pathak, Профессор Робототехники Университета Carnegie Mellon University.

Более подробно ознакомиться с системой CognitiveOS можно в статье аспиранта Сколтеха Артема Лыкова на Habr: CognitiveOS: операционная система с модульной архитектурой для интеграции LLM в роботов.

Выравнивание симуляции и физики реального мира

Это актуально для обучения человекоподобных роботов, потому что люди обладают самой сложной физикой движения.

Если мы хотим создать помощника с такой же универсальностью, как у людей, то речь уже идет о создании Physical AI (Физического ИИ). Physical AI — это не только написать код управления всеми 30–50 степенями свободы, но и наделить робота способностью решать задачи с которыми ранее он не сталкивался. И это крайне сложный вызов — по словам CEO NVIDIA Дженсена Хуанга это «пик развития ИИ». Научить робота в реальном мире — очень трудозатратная задача, на которую может потребоваться сотни тысяч экспериментов. Поэтому сейчас для обучения роботов используют виртуальные лаборатории с воспроизведением физики взаимодействия.

Одна из последних интересных разработок в этой области — проект ASAP, созданный Carnegie Mellon University, одним из ведущих университетов в сфере робототехники, совместно с NVIDIA. Система ASAP позволила сократить ошибку в движениях робота на 52,7%.

Как этого добились? Сначала модели обучали в виртуальной среде Isaac Sim на датасетах видеоизображений. Затем их переносили в реальный мир и проверяли, как ведет себя робот на практике. После этого специалисты анализировали расхождения между движениями в симуляции и в физической реальности, чтобы скорректировать ошибки. В итоге для каждого движения рассчитали поправки, которые позволили роботу двигаться в реальном мире так же, как в виртуальной среде:

В своей работе специалисты использовали видеоданные движений футболиста Криштиану Роналду и баскетболиста Леброна Джеймса. Воспроизвести их чрезвычайно сложно не только для робота, но и для человека.

Разработка моделей, объединяющих зрение, язык и действия

Рассмотрим работу мозга: в нем есть префронтальная зона, отвечающая за планирование, рассуждения и контроль действий, и моторная зона, управляющая движением наших рук. Например, если вы закроете глаза и начнете двигать руками, все равно будете ощущать их положение и сможете даже точно совмещать кончики пальцев. Это уникальная способность называется проприоцепцией. Кроме того человек, единственное существо на планете, которое может тонко и ловко манипулировать предметами.

Чтобы научить робота функционировать так же эффективно, но только по визуальным данным и проприоцепции, нужна новая фундаментальная модель. Она должна генерировать действия, опираясь на архитектуру трансформеров, используя данные с камер робота.

Такие модели называются «Видение-Язык-Действие» (VLA: Vision-Language-Action) и в робототехнике они пытаются решить одну из самых сложных задач — автономная работа в новых условиях и с неизвестными ранее объектами.

Классическая архитектура включала в себя блок восприятия, который обрабатывает данные с лидаров, радаров, камер, тактильных датчиков, блок планирования траектории движения, и блок управления роботом. Такая архитектура подразумевает написания большого количество строчек кода и работала только для одного типа роботов и для специфического сценария. Любой новый сценарий требовал полного перепрограммирования робота.

Теперь же благодаря архитектуре VLA на вход системе подаются только визуальные данные от «первого лица», а на выходе мы сразу получаем вектор действия (вектор скоростей и угловая скорость рыскания для дронов и мобильных роботов, либо дельту положения и ориентации захвата для манипуляторов). Впервые такую архитектуру предложила компания Google DeepMind для роботов. Она называется RT (Robotics Transformer) и позволяет напрямую связывать восприятие с действиями.

Сейчас SOTA (state-of-the-art) архитектура для человекоподобных роботов основана на двухуровневой архитектуре, включающей VLM для медленных рассуждений верхнего уровня и управление нижним уровнем действий VLA c высокой частотой дискретизации. На этом принципе работает Helix от американской компании Figure и наша технология RaceVLA, которая позволила дрону построить траекторию движения без карты пространства, используя только данные камеры от первого лица.

Мы также разработали когнитивный дрон CognitiveDrone, который способен даже решать математические уравнения, чтобы определить нужную цель для полета. Такие дроны могут стать основой когнитивного конвейера состоящего из роя дронов, который сможет избегать препятствия, взаимодействовать с коботами и мобильными роботами, и строить траекторию своего полета в динамической среде.

На данный момент самая продвинутая фундаментальная модель с открытым кодом для Человекоподобных роботов — это GROOT N1.5 от NVIDIA. Одним из ее ключевых разработчиков является выпускник лаборатории ISR Lab Никита Чернядев.

Что касается компаний, специализирующихся на Physical AI для разных типов роботов, то лидером по инвестициям является Field AI. Она уже оценивается в 2 млрд. USD. В компанию уже вложили средства Билл Гейтс, NVIDIA, intel, Samsung. Основателем и CEO компании является Dr. Ali Agha, который ранее работал в NASA JPL Lab. и Университете Caltech.

Кстати, большинство компаний в робототехнике созданы благодаря университетам, поскольку требуются компетенции в самых передовых технологий. Например, ведущую компанию по промышленным роботам FANUK создал выпускник Токийского Университета Dr. S. Inaba.

В России крупнейшие Центры Робототехники, работают благодаря компетенциям ISR Lab. Например, все руководство Yandex Robotics учились у меня созданию логистических роботов и проектированию всего стека систем управления. Мы первыми в России создали автономный мобильный робот с манипулятором PickToGo, робот для инвентаризации складов WareVision, робот для доставки товаров внутри склада WareBot,  робот для считывания RFID меток, и систему управления складскими роботами через VR — WareVR.

Почему именно сейчас человечество подошло к созданию полноценных когнитивных роботов и какое у них будущее?

В 2004 году, когда я приехал учиться в аспирантуру Токийского Университета, большим прорывом считался робот ASIMO, который бегал со скоростью 6 км/ч и выполнял сложные манипуляции. Казалось, что вот-вот произойдет революция, и человекоподобные роботы будут повсюду. Но этого не случилось по двум причинам. Во-первых, они тогда были очень дорогими и сложными в производстве. Во-вторых, на тот момент еще не существовало генеративного искусственного интеллекта, позволяющего роботам выполнять универсальные задачи в новых условиях.

Сегодня все изменилось: разработки в области AI и передовые технологии в робототехнике — от приводов до систем управления — сошлись во времени. Поэтому сейчас мы видим настоящий бум в развитии человекоподобных роботов. В одном только Китае уже около 100 компаний, которые занимаются их производством. Например, Unitree выпускает качественных роботов по достаточно доступной цене. Базовая версия Unitree стоит около 4 миллионов рублей, а более продвинутая — около 6. Таких роботов вполне можно применять на производстве, в том числе для выполнения рутинных операций в сложных условиях.

Человекоподобные роботы не заменят промышленных, коллаборативных и мобильных роботов. Но именно благодаря им можно будет достичь полной роботизации производства — они смогут устанавливать электронные блоки в автомобили, собирать провода жгутами, проверять качество сборки, тестировать системы, ремонтировать промышленных и мобильных роботов.

Мы стоим на пороге новой эпохи — от «Индустрий 4.0» и 5.0, где человек был неотъемлемой частью производственных процессов, к «Индустрии 6.0», где ключевую роль играют искусственный интеллект и рой разнородных роботов.

Все эти разработки, о которых я рассказал, не фантастика, а реальный задел на ближайшее будущее. И хотя впереди еще много вызовов, мы уже видим, как быстро идет прогресс.

Комментарии (0)


  1. mstat
    18.09.2025 07:25

    Вот когда робот сможет моментально определять себя в пространстве используя стерео зрение (моментальное построение 3D) и подобие вестибулярного аппарата - вот, тогда можно говорить о прорыве. Тогда он сможет координировать себя относительно опоры в пространстве. А так все идет постепенно как и должно быть. Сейчас же все строится на контроле приложенных усилий и времени применения этих усилий. Вот когда скоррелириуют это с положением в пространстве - вот тогда и будет чудо.