Исследовательский институт Toyota (TRI) объявил о революционном подходе к генеративному искусственному интеллекту, позволяющем обучать роботов новым навыкам за несколько часов. Это может значительно повысить пользу от роботов и стать шагом к созданию «больших моделей поведения (LBM)» для роботов по аналогии с большими языковыми моделями (LLM), которые произвели настоящую революцию.

Предыдущие методы обучения роботов новому поведению были медленными, непоследовательными, неэффективными и часто ограничивались узкими задачами в ограниченных условиях. Робототехникам приходилось тратить много часов на написание сложного кода и/или использовать многочисленные циклы проб и ошибок для программирования поведения.

С новым подходом TRI уже научила роботов 60 сложным, требующим ловкости навыкам (переливание жидкостей, использование инструментов и манипуляциям с хрупкими объектами). Эти достижения были достигнуты без единой строчки нового кода; роботу просто предоставляли новые данные. Успех вдохновил TRI на новую амбициозную цель – обучить роботов сотням новых навыков к концу этого года и тысяче новых — к концу 2024 года.

Как работает обучение

Чтобы научить робота новому поведению, человек-оператор телеуправляет роботом, демонстрируя выполнение желаемой задачи. Обычно для этого требуется час или два, что соответствует 24-100 демонстрациям.

После того как будет собран набор демонстраций для определённого действия, робот учится выполнять это действие автономно. Ядром процесса является технология генеративного искусственного интеллекта под названием Diffusion, которая недавно штурмом захватила сферу создания изображений (DALL-E 2, Stable Diffusion). TRI и партнёры из университета в лаборатории профессора Сонга адаптировали эту технику в метод под названием Diffusion Policy, который напрямую генерирует поведение роботов. Вместо генерации изображений, основанных на естественном языке, происходит генерация действий робота, основанная на показаниях датчиков и, возможно, естественном языке.

В этом простом примере с толканием блоков робот работает в двумерном пространстве, что позволяет легко визуализировать его поведение. На каждом временном этапе процесс начинается со случайной траектории движения, которая затем преобразуется в последовательный план, выполняемый роботом. Этот процесс повторяется несколько раз в секунду.
В этом простом примере с толканием блоков робот работает в двумерном пространстве, что позволяет легко визуализировать его поведение. На каждом временном этапе процесс начинается со случайной траектории движения, которая затем преобразуется в последовательный план, выполняемый роботом. Этот процесс повторяется несколько раз в секунду.

Использование диффузии для генерации поведения робота даёт три ключевых преимущества по сравнению с предыдущими подходами:

  • Возможны мультимодальные демонстрации. Люди-операторы могут обучать роботов поведению естественным образом, не боясь сбить его с толку.

  • Пригодность к многомерным пространствам действий. Робот может планировать действия на будущее, что помогает избежать близорукого, непоследовательного или беспорядочного поведения.

  • Стабильное и надёжное обучение. Обучение роботов масштабируемое, можно быть уверенным, что они будут работать без трудоёмкой ручной настройки или утомительного поиска оптимальных контрольных точек.

Мультимодальное поведение

Большинство реальных задач можно решить разными способами. Например, если нужно поднять чашку, человек может схватить её сверху, сбоку или даже снизу. Это явление, называемое поведенческой мультимодальностью, всегда вызывало большие затруднения при обучении роботов, хотя для человека является естественным. 

Рассмотрим простой случай: робот должен переместить в заданное место блок Т-образной формы, который лежит на столе.

Робот может перемещать блок, двигая его по столу, и при этом ему придётся двигаться вокруг блока, чтобы добраться до разных сторон Т-образного блока. Робот не может перелететь через блок. Этой задаче присуща мультимодальность — блок разумно обойти слева либо справа — оба варианта будут правильными действиями. Решение заключается в том, что вместо предсказания одного действия изучается распределение по действиям. Diffusion Policy способна изучать эти распределения более стабильным и надёжным способом и намного лучше улавливает эту многомодальность по сравнению с предыдущими подходами.

Примеры поведения в перемещении блока. Diffusion Policy vs.предыдущие подходы
Примеры поведения в перемещении блока. Diffusion Policy vs.предыдущие подходы

Способность справляться с мультимодальными демонстрациями оказалась решающей для успешного обучения сложному поведению, требующему ловкости, где этот тип мультимодальности является эндемичным. Также это позволяет роботам легко учиться у нескольких операторов по мере того, как расширяется сбор данных.

Действия в высокомерных пространствах
Действия в высокомерных пространствах

Diffusion естественным образом хорошо подходит для высокомерных пространств вывода. Генерация изображений, например, требует предсказания сотен тысяч отдельных пикселей. Для робототехники это ключевое преимущество, оно позволяет диффузионным моделям легко масштабироваться до сложных роботов с несколькими конечностями. Это также обеспечивает критически важную способность предсказывать намеченные траектории действий, а не только одиночные временные шаги. Недавние исследования (DP , ACT) показали, что предсказание траектории часто является ключевой конструктивной особенностью для обучения надёжных стратегий, которые успешно выполняют задачи.

Стабильное обучение

Diffusion Policy также ошеломляюще легко обучать; новое поведение усваивается, не требуя многочисленных дорогостоящих и трудоёмкого процесса оценки для поиска наиболее эффективных контрольных точек и гиперпараметров. 

В отличие от приложений компьютерного зрения или естественного языка, системы замкнутого цикла на основе искусственного интеллекта не могут быть точно оценены с помощью автономных показателей — их необходимо оценивать в условиях замкнутого цикла. В робототехнике это означает оценку на физическом оборудовании. То есть любой конвейер обучения, требующий обширной настройки или оптимизации гиперпараметров, становится непрактичным из-за этого узкого места в реальной оценке. Поскольку Diffusion Policy стабильно работает «из коробки», она позволяет обойти эту трудность, что и стало ключевым фактором масштабирования.

Инструменты

Телеоперация

Поскольку роботы обучаются посредством демонстрации на людях, хороший интерфейс телеуправления имеет решающее значение для обучения сложному поведению. Подход к обучению роботов не зависит от выбора устройства дистанционного управления, поэтому используется множество недорогих интерфейсов вроде джойстиков.

Для манипуляций, требующих большой ловкости, роботов обучают с помощью двуручных тактильных устройств с позиционной связью между устройством дистанционного управления и роботом. Связь между позициями означает, что устройство ввода отправляет измеренную позу в виде команд роботу, и робот отслеживает эти команды позы, используя оперативное управление пространством на основе крутящего момента.

Ошибка отслеживания позы робота затем преобразуется в силу и отправляется обратно на устройство ввода, чтобы оператор мог ее почувствовать. Это позволяет операторам замыкать петлю обратной связи с роботом с помощью силы и имеет решающее значение для многих из самых сложных изучаемых навыков.

Обеспечение обратной связи по усилию особенно важно, когда робот взаимодействует с объектом обеими руками. Наглядный пример — работа с устройством, которое надо приводить в действие. Например, с ручным миксером. Такой процесс невозможно достоверно продемонстрировать без этой обратной связи.

В этом примере оператор-человек сделал 10 демонстраций взбивания яиц. Благодаря тактильной обратной связи оператор всегда добивался успеха. Без этой обратной связи ничего бы не вышло. На фото (справа) представлена ​​разбивка режимов отказа, возникающих без применения силы.

Когда робот держит инструмент обеими руками, он создаёт замкнутую кинематическую цепь. Для любой заданной конфигурации робота и инструмента существует широкий диапазон возможных внутренних сил, которые невозможно наблюдать визуально. Определённые конфигурации сил, такие как разъединение захватов, по своей природе нестабильны и могут привести к соскальзыванию захвата робота. Если операторы-люди не будут иметь доступа к тактильной обратной связи, они не смогут ощутить силу или научить её правильному контролю.

Здесь оператор пытается использовать оба захвата для перемещения крекера вверх и вниз, при этом стараясь не сломать его. Это легко сделать с тактильной обратной связью (слева) и чрезвычайно сложно без неё (справа). Благодаря тактильной обратной связи оператор может легко почувствовать силы, вызванные неправильной координацией между двумя захватами, и соответствующим образом отрегулировать их. В результате оператор не ломает крекер, пока не захочет (в конце видео).

Осязание

Любой, кто пытался завязать шнурок в перчатках, знает, насколько важно для людей чувство осязания; при выполнении задач на ловкость умение чувствовать происходящее даёт дополнительную информацию, имеющую решающее значение для успеха. И роботы ничем не отличаются, им также полезно осязание. Чтобы подарить им это чувство, используются датчики TRI Soft-Bubble. Они состоят из внутренней камеры, наблюдающей за надутой деформируемой внешней мембраной. Они выходят за рамки измерения разреженных сигналов силы и позволяют роботу воспринимать пространственно плотную информацию о шаблонах контакта, геометрии, скольжении и силе.

Хотя датчики этого типа были более популярны в последние годы, эффективное использование предоставляемой ими информации - непростая задача. Diffusion обеспечивает роботам естественный способ использования всего богатства этих зрительно-тактильных датчиков (мы используем эти сигналы в качестве дополнительных входных данных), что позволяет нам применять их для произвольных задач, требующих ловкости.

Задача — раскрыть книгу рецептов на странице с салатом. Обратите внимание, что случайно перевернулось слишком много страниц назад и нужно реабилитироваться. Также обратите внимание на небольшое отклонение, обнаруженное на красной странице.

Ранние эксперименты в этом направлении оказались чрезвычайно многообещающими. Оказалось, что во многих случаях добавление сенсорного распознавания значительно улучшает способность робота выполнять задачи с интересными фазами контакта.

Реальное сравнение производительности между политиками обучения с тактильной поддержкой и только с помощью зрения.
Реальное сравнение производительности между политиками обучения с тактильной поддержкой и только с помощью зрения.

Безопасный и эффективный контроль

Критически важным, но часто недооценённым компонентом высокопроизводительного робота является управление среднего уровня. В нашем случае как обучающие стратегии, так и операторы-люди выдают команды на позицию и ориентацию захвата роботом с частотой 10 Гц. Затем эти команды масштабируются и преобразуются в команды на уровне суставов с частотой 1 кГц средним контроллером. Важно отметить, что этот контроллер среднего уровня имеет встроенные средства безопасности, которые обеспечивают защиту робота и предотвращают выполнение потенциально опасных команд на более высоком уровне.

Здесь оператор намеренно выдаёт команду на выполнение небезопасного действия, которое приведёт к столкновению — и контрольный слой робота правильно предотвращает его выполнение.

Новый подход основан на контроле в операционном пространстве и формулируется как задача ограниченной оптимизации по командам на уровне суставов. Целью является отслеживание команд высокого уровня, предоставленных оператором или обучающей стратегией, с соблюдением физических и других ограничений безопасности, таких как избегание столкновений. Эта реализация основана на Drake Systems Framework, которая обеспечивает строгий анализ и тестирование. В будущем планируется открыть исходный код этой реализации.

Надёжный контроллер среднего уровня действительно является основой для обучения поведению высокого качества. Он не только позволяет реализовать критически важные функции, такие как контроль импеданса и тактильная обратная связь, но также предоставляет бесценные средства защиты для всей системы и позволяет операторам доводить робота до его физических пределов без опасения повредить его.

Мы вступаем в замечательную новую эру робототехники. То, на что раньше у опытных робототехников уходили недели времени на разработку, теперь выполняется за половину дня.

Программирование такого поведения несколько лет назад (верхнее изображение) занимало месяцы. Обученная версия (внизу) была готова за день. Но предстоит ещё многое сделать прежде, чем обучение роботов достигнет уровня языковых моделей.


Что ещё интересного есть в блоге Cloud4Y

→ Спортивные часы Garmin: изучаем GarminOS и её ВМ MonkeyC

→ NAS за шапку сухарей

→ Взлом Hyundai Tucson, часть 1часть 2

→ Взламываем «умную» зубную щётку

→ 50 самых интересных клавиатур из частной коллекции

Комментарии (3)


  1. dprotopopov
    22.09.2023 10:07

    Хочу кобота с обучалкой!!!


  1. Gryphon88
    22.09.2023 10:07

    я что-то подобное читал на хабре лет 5 назад, типа "просто пару раз переместите манипулятор кобота вручную, он запомнит движение и операцию", а потом тема коботов на хабре надолго затухла :)


    1. Arlekcangp
      22.09.2023 10:07

      Я думаю больше из-за стоимости. Так бы даже такой тупой повторюшка уже был бы в каждом доме. По крайней мере это весело (ну первые два дня). Тут как я понимаю прогресс в том, что он не повторяет движение один-в-один а использует генеративную сеть для планирования. На мой взгляд успех скромный, т к взглянув на то что может chat gpt 3.5 я сразу понял, что с помощью аналогичного алгоритма можно решать проблемы планирования, возникающие в робототехнике. И тут явно не доделано и из технологии не выжат максимум. По идеи роботу должно быть можно просто сказать "возьми помидор с полки и помой", а сеть по фразе построит сначала высокоуровневый план, а затем по действиям этого плана детальный список команд для приводов. Но как видим до этого пока не добрались, хотя путь выглядит очевидным...