Привет Хабр! Меня зовут Александр Панов, и я руковожу научной группой «Нейросимвольная интеграция» в AIRI, работаю в ФИЦ ИУ РАН и преподаю ИИ и RL в МФТИ. К числу научных интересов нашей группы относится обучение с подкреплением (мультиагентное, с моделями мира, память, трансформерами), планирование поведения и фундаментальные модели для роботизированных платформ.

Совсем недавно мы с коллегами вернулись из Йокогамы, где проходила ведущая конференция по робототехнике — IEEE International Conference on Robotics and Automation или просто ICRA2024. В этом посте я подробно расскажу о том, что интересного, на мой взгляд, было представлено в этом году (лишь небольшая доля всего того, что там было, так как конференция большая), поделюсь впечатлениями и фотографиями (сделанными на телефон — не судите строго!), а также кратко изложу, с чем там выступала наша команда.

Что за мероприятие?

Название конференции говорит само за себя — робототехника и автоматизация. В этом году акцент был заявлен на взаимодействие этой области науки и техники с другими аспектами человеческой деятельности.

Мероприятие с большой историей — первая конференция состоялась ещё в 1984 году и с тех пор проходит ежегодно по всему миру. С каждым годом рос и статус конференции: в прошлом десятилетии ICRA получила ранг A в компьютерных науках по рейтингу CORE, то сейчас она имеет ранг A* и считается главным событием в области, во всяком случае, по критерию цитируемости.

Конференции по робототехнике, отсортированные по цитируемости
Конференции по робототехнике, отсортированные по цитируемости

13 мая. Воркшопы

Мы с коллегами — Алексеем Староверовым и Константином Мироновым — были в Йокогаме уже 13 мая и успели к самому началу.

Вид на конференц-центр Pacifico Yokohama, где проходили доклады
Вид на конференц-центр Pacifico Yokohama, где проходили доклады
Неподалёку от конференц-центра расположен парк с вот таким красивым парусником
Неподалёку от конференц-центра расположен парк с вот таким красивым парусником

Пакет участника я бы оценил так: скромно, но со вкусом. Платочек для местных ванн (фурошики) с традиционными японскими мотивами показался мне очень милым. Кстати, покормить тут норовят каждый день.

Пакет участника
Пакет участника

ICRA2024 началась с воркшопов. Один из них как раз по актуальной для нас теме мобильной манипуляции — 2nd Workshop on Mobile Manipulation and Embodied Intelligence (MOMA.v2). Из пленарных докладчиков была Keerthana Gopalakrishnan из DeepMind, участница известных проектов SayCan, RT-1, RT-2, RT-X. Акцентировала внимание на двух проблемах в эпоху VLM в робототехнике: как учить эффективные стратегии и что делать с данными. Для стратегий рекомендует последнюю работу её группы, улучшающую DT с помощью негативных примеров — Q-transformer. Ну а с данными один выход — нужно всем коллаборироваться ? и генерировать их больше и больше, как в проекте Open x-embodiment.

Классные роботы Google Robotics сами себе готовят и стол сервируют
Классные роботы Google Robotics сами себе готовят и стол сервируют

Второй докладчик — Tetsuya Ogata из Японии, как истинный робототехник, показывал много видео и рассказывал мало деталей. Упирал на глубокое предиктивное обучение и whole-body (всем телом робота) управление. Сейчас в тренде двурукая манипуляция и он тоже не отставал с примерами открытия женской сумки и готовки еды (зачем же еще нужны роботы??).

Выступала и известная своим планировщиком PRM Lydia Kavraki. Говорила, что сейчас всем важна универсальная мобильная манипуляция. Рекламировала новый датасет для планировщиков Motion BenchMaker.

В конце порадовал Tamim Asfour  докладом про повседневные задачи с мобильной манипуляцией и уже 15 лет как с разными версиями робота ARMAR решающий задачу готовки ужина на двоих роботом на кухне. Спустя столько лет тоже сделали датасет, выпустили уже 7 версию своего двурукого робота и начали решать задачу помощи людям в ремонте (наконец-то обои можно будет клеить не одному!).

Линейка роботов ARMAR
Линейка роботов ARMAR

14 мая. Основная часть

Первый день докладов конференции начался, как обычно, со статистики. Статей с каждым годом все больше, в 2024 почти 4К отправок — это в 7 раз больше чем в далеком 1994 году (помните, я говорил: конференция старая). Уровень принятия — 44%. Самые активные, как, впрочем, и везде, — США и Китай, но подтягиваются Германия и Великобритания.

На ICRA почти четверть статей перенаправляются с RA‑L и кто‑то даже предлагает сделать как в ARR — все рецензировать только через RA‑L. Сама конференция очень большая — 285 сессий (!), 70 воркшопов, 11 соревнований и 80 роботов на экспо, которое заслуживает отдельного рассказа.

Та самая статистика конференции
Та самая статистика конференции

Кейноут в первый день был от Yoky Matsuoka и снова про жизненный путь, тернистый и, конечно, успешный. Много хвалилась, что уже 10 лет как не публикуется и делает только полезные робо-продукты. Основной посыл — границы между индустрией и академией постепенно стираются и теперь куда свободнее, чем раньше можно двигаться туда-обратно, а свежие научные результаты, с пылу жару, уже через несколько месяцев начинают быть доступны всем желающим (как с GenAI). Ну и быть explorer’ом (исследователем) в индустрии теперь — так же интересно, как и в науке?.

Пути между индустрией и наукой
Пути между индустрией и наукой

Из устных статей отмечу списком на любимые темы про LLM в робототехнике (кстати, здесь это идет под названием AI-enabled или AI-based robotics) и RL (в основном с safety — для робототехники сейчас это важно). Первый блок про LLM и VLM:

И блок статей по RL:

15 мая. Основная часть

В этот день на конференции наконец-то был действительно хороший пленарный доклад по делу и с подробностями. Sami Haddadin, TUM, рассказывал про свой взгляд на робототехнику и ее будущее. Начал с функционального определения робота robot=f (embodiment, intelligence) и прошёлся по обоим его составляющим — воплощению и интеллекту.

По его мнению, оправдываются три гипотезы: zero-shot learning, cooperative AI, collective learning. Воплощение сильно проэволюционировало за последние годы, и такие важные задачи для промышленности, как вставка одних объектов в другие и точная манипуляция с инструментами теперь работают хорошо на таких роботах как Franka.

В области интеллекта, на его взгляд, будущее за интеграцией классического управления и RL (в том числе перспективно DMP — dynamic motion primitives). Упирал на коллективное обучение умения сразу на целой фабрике роботов, и в Европе запускается целый проект по этой теме — AI.Factory???. В плане железа перспективным считает дизайн хороших форм роботов с помощью самих же роботов (вспоминал и Неймана с его самовоспроизводящимися автоматами). Человек лишь будет контролировать этот процесс.

Таймлайн достижений лаборатории спикера
Таймлайн достижений лаборатории спикера

Был сегодня и наш устный доклад и постер NPField, посвященные нейросетевым представлениям карты и препятствий для эффективного избегания столкновений, с которой мы перебили все SOTA. С открытым кодом и демо на реальном роботе, между прочим ?.

Коллег очень заинтересовала наша техника интеграции сеток прямо в процесс обсчета MPC через L4Casadi. В ряду бесконечных вариантов collision avoidance с разными эвристиками наш подход выглядит куда более универсальным.

Десятка избранных статей этого дня, которую я хотел бы отметить, в основном по тематике обучения планирования:

1.  Human‑Robot Gym: Benchmarking Reinforcement Learning in Human‑Robot Collaboration — полезный бенчмарк и среда для отработки коллаборации роботов и людей;

2.  Projection‑Based Fast and Safe Policy Optimization for Reinforcement Learning — безопасное расширение TRPO с адаптивными проекторами;

3.  Guided Online Distillation: Promoting Safe Reinforcement Learning by Offline Demonstration — безопасная дистилляция стратегии, полученной по демонстрациям с IQL;

4.  Active Neural Topological Mapping for Multi‑Agent Exploration — эффективное исследлование среды в мульти‑агентной постановке на данных Gibson и H3M;

5.  DiPPeR: Diffusion‑Based 2D Path Planner Applied on Legged Robots — диффузионки для построения плана перемещения собак с тестами на Go1 и Spot;

6.  PathRL: An End‑To‑End Path Generation Method for Collision Avoidance Via Deep Reinforcement Learning — похожая на нашу работа, но на RL, генераци траектории избегания столкновений и тоже с costmap;

7.  ZAPP! Zonotope Agreement of Prediction and Planning for Continuous‑Time Collision Avoidance with Discrete‑Time Dynamics — формально безопасное планирование с нейросетевым предсказанием траекторий;

8.  Planning with Learned Subgoals Selected by Temporal Information — планирование траекторий для манипулятора с подцелями и с AIT*;

9.  Unconstrained Model Predictive Control for Robot Navigation under Uncertainty — MPC на редком в нынешнее время роботе Astra от Amazone;

10.  Weighting Online Decision Transformer with Episodic Memory for Offline‑To‑Online Reinforcement Learning — двухфазное обучение DT в онлайне и автономно.

И еще пара интересных работ:

1.  AdaptAUG: Adaptive Data Augmentation Framework for Multi‑Agent Reinforcement Learning — разные варианты аугментации для MARL;

2.  HyperPPO: A Scalable Method for Finding Small Policies for Robotic Control — автоматический подбор архитектуры энкодера для PPO;

3.  Grow Your Limits: Continuous Improvement with Real‑World RL for Robotic Locomotion — одна из статей Левайна про RL на реальном роботе с правильным исследованием пространства состояний робота;

4.  IQL‑TD‑MPC: Implicit Q‑Learning for Hierarchical Model Predictive Control — интеграция MPC и автономного IQL на базе TD‑MPC;

5.  SLIM: Skill Learning with Multiple Critics — безопасное обучение умений с несколькими критиками;

6.  TWIST: Teacher‑Student World Model Distillation for Efficient Sim‑To‑Real Transfer — дистилляция модели мира для эффективного переноса модели.

16 мая. Основная часть

Заключительный день основной программы начался с пленарного доклада Sunil Agrawal по реабилитационной робототехнике. Правда, назвать роботами используемые там устройства, например, для восстановления навыков хождения сложно, но автоматизацией — уж точно. Товарищ в своей лаборатории проводит большую работу по помощи людям, удачи ему.

Также я в этот день послушал и так называемый keynote, которых тут идет несколько в параллель, от Kensuke Harada про манипуляцию в промышленности. Докладчик — управленец старой закалки, без всяких генеративок и диффузионок — только внешние базы знаний об объектах. Показывал много видео с довольно смешными примерами задач по распутыванию проводов (важно в автомобилестроении) и вытаскиванию объектов с полок (важно в логистике).

И кстати, в Японии никто не переживает про то, что роботы отнимут работу у людей. Наоборот, наглядно показывают, что рабочая сила с каждым годом выпадает естественным образом (население стареет), а роботов наоборот не хватает, чтобы ее заменить?. Так что нужно больше автоматизации и внедрений на разные процессы типа приготовления еды и сборки телефонов.

Где японцы хотят заместить людей роботами
Где японцы хотят заместить людей роботами

Традиционная десятка статей с устных выступлений этого дня. Разбавим немного бесконечные LLM многоагентностью:

1.  ERRA: An Embodied Representation and Reasoning Architecture for Long‑Horizon Language‑Conditioned Manipulation Tasks — одна из первых работ по LLM для манипуляции c RA‑L 2022 еще с T5 и CLIP;

2.  Grasp‑Anything: Large‑Scale Grasp Dataset from Foundation Models — отличный синтетический датасет для хватания очень разных предметов, который тоже сделали с помощью LLM;

3.  Anticipate & Act: Integrating LLMs and Classical Planning for Efficient Task Execution in Household Environments — еще одна интеграции PDDL планирования и LLM;

4.  Conditionally Combining Robot Skills Using Large Language Models — как правильно делать переключатель умений на LLM;

5.  Interactive Planning Using Large Language Models for Partially Observable Robotic Tasks — что‑то боле оригинальное: как заставить LLM узнать больше о задаче, если информации не хватает;

6.  Optimal Scene Graph Planning with Large Language Model Guidance — планирование с LTL проверкой получающего автомата на действиях, без A* не обошлось, используют 3DSceneGraph dataset;

7.  CAPE: Corrective Actions from Precondition Errors Using Large Language Models — на Spot и в VirtualHome расширяют SayCan на проверки предусловий действий;

8.  GraspGPT: Leveraging Semantic Knowledge from a Large Language Model for Task‑Oriented Grasping — так называемое целеориентированное хватание, когда это хватание нужно сделать для выполнения задачи (например, вылить воду из крушки, а не просто ее поднять)

9.  Benchmarking Multi‑Robot Coordination in Realistic, Unstructured Human‑Shared Environments — еще один бенчмарк для мульти‑агентного планирования от Koenig;

10.  Conflict Area Prediction for Boosting Search‑Based Multi‑Agent Pathfinding Algorithms — предсказание областей конфликта агентов с помощью нейросетки.

Еще парочка:

1.  Conflict‑Based Model Predictive Control for Scalable Multi‑Robot Motion Planning — симпатичная работа по интеграции эвристического CCBS и MPC для более реалистичных роботов;

2.  ALPHA Attention‑Based Long‑Horizon Pathfinding in Highly‑Structured Areas — а вот и MARL с графовым трансформером, кучей хендкрафт признаков и только для сильно структурированных сред;

3.  Sim‑To‑Real Learning for Humanoid Box Loco‑Manipulation — неплохой sim2real на роботе Digit при переносе грузов, но без зрения;

4.  Hamiltonian Dynamics Learning from Point Cloud Observations for Nonholonomic Mobile Robot Control — развитие нейросетевых ODE для восстановления динамики мобильного Jakal;

5.  Deep Model Predictive Optimization — хорошая работа по использованию MPC как модели для PPO;

6.  SERL: A Software Suite for Sample‑Efficient Robotic Reinforcement Learning — фреймворк от команды Левайна с супер эффективным обучением на реальном роботе, используют DRQ‑SAC и RLPD;

7.  Robotic Offline RL from Internet Videos Via Value‑Function Learning — трехфазовый подход обучения по видео без дорогой разметки действий экспертами;

8.  Safe Reinforcement Learning with Dead‑Ends Avoidance and Recovery — безопасный RL с детекцией циклов.

14-16 мая. Выставка роботов

Про выставку здесь можно говорить много — роботов действительно хватает на любой вкус и цвет. Просто покажу несколько первых попавшихся:

От китайских разработчиков выбор большой, но вот все как-то нет в них уверенности, хоть выглядит все достойно. Unitree, на который тут большой ажиотаж, в этом смысле положительно выделяется. Компания, раскрученная благодаря красивым видео (любят все-таки робототехники впечатляющие ролики) и их демо, хоть и простенькие в стиле постоять-потолкать, собирают большую толпу, ведь на конференции уже есть возможность посмотреть его в живую!

17 мая. Заключительный день

Прощаемся с ведущей конференцией по робототехнике. ICRA по праву считается самой большой и почетной, даже салют на прощальном банкете могут себе позволить ?.

В последний день воркшопов нельзя было пройти мимо Vision-Language Models for Navigation and Manipulation (VLMNM), хотя от обилия языковых моделей и костылей, с которыми их прикручивают к всяким разным роботам уже начало рябить в глазах?. Но здесь был великолепный Subbarao Kambhampati, которого я слушал еще в феврале в Ванкувере с теми же мыслями: сами по себе LLM планировать не могут и их нужно помещать в более сложные архитектуры (типа их Modulo), чтобы извлекать какую-то пользу.

Он придумал некий тест (PlanBench) по типу мира кубиков для тестирования планировочных возможностей и из нового протестировал нашумевшую GPT4o. И классикам все еще нечего бояться ? — где-то она оказалась даже хуже старой версии.

Еще из докладов воркшопа отмечу Chuchu Fan с их AutoTAMP на темпоральной логике и Jeannette Bohg, которая рассказывала, как они дальше развивают своего нашумевшего в свое время TidyBot — уже делают мультиробот постановку задачи и критикуют обучение по демонстрациям из-за болей со сбором данных и нестабильными стратегиями.

Были еще пару докладчиков попроще: David Hsu про то, как правильно токенизировать наблюдения для LLM и Yuke Zhu с пирамидой Маслоу сбора данных для робототехники от веб данных до все-таки данных из реального мира, без которых в робототехнике все-таки не обойтись.

Бонус. Парад роботов

На сладкое: парад роботов с конференции, кто как мог шел, ехал и полз


Кстати, на ICRA2024 мы прилетели сразу, как только закончилась другая знаковая конференция по обучению представлениям — ICLR2024, но о ней как-нибудь в другой раз. Если же не терпится узнать, что происходило и там тоже, читайте в моём канале в телеграме: t.me/ai_panov. Я там рассказываю и скидываю ещё больше фото со всех мероприятий, которые посещаю.

Комментарии (2)