Особый подход к машинному обучению может помочь роботам научиться собирать телефоны и работать с другими мелкими запчастями на конвейере
В подвале 3-го корпуса MIT робот тщательно размышляет над своим следующим ходом. Он нежно тыкает башню из блоков, выискивая наиболее подходящий для вытягивания блок, чтобы не разрушить всю башню. Так идёт его одиночная, медленная но удивительно динамичная игра «Дженга».
Робот, разработанный инженерами из MIT, оснащён захватом с мягким штырём, браслетом с датчиком давления и внешней камерой – и всё это они использует, чтобы видеть и чувствовать как всю башню, так и её отдельные блоки.
В то время, как робот аккуратно давит на блок, компьютер воспринимает визуальную и тактильную обратную связь с камеры и браслета, сравнивая измерения с предыдущими ходами. Он также рассчитывает возможные последствия этих ходов – конкретно, получится ли успешно извлечь определённый блок, учитывая конкретную конфигурацию башни и с приложением силы определённой величины. Затем в реальном времени робот «учится», надо ли продолжать давить на блок, или нужно перейти к новому, чтобы не дать башне упасть.
Детальное описание робота, играющего в «Дженгу», были опубликованы в январе в журнале Science Robotics. Альберто Родригез, адъюнкт-профессор из карьерного центра им. Уолтера Генри Гейла при департаменте машиностроения MIT, говорит, что робот демонстрирует нечто, чего было сложно добиться при разработке предыдущих систем: возможность быстро выучить наилучший способ выполнения задачи не только по визуальным данным, каковой подход часто используется в робототехнике, но и по тактильному, физическому взаимодействию.
«В отличие от более логически наполненных задач или игр, к примеру, шахмат или го, чтобы играть в „Дженгу“, нужно хорошо владеть физическими навыками – прощупывать, тянуть, размещать и выравнивать блоки. Для этого требуется интерактивное восприятие и манипуляции, нужно дотронуться до башни, чтобы понять, как и когда сдвигать блоки, — говорит Родригез. – Симулировать такую задачу очень сложно, поэтому роботу приходится обучаться в реальном мире, взаимодействуя с реальной башней „Дженга“. Главная трудность состоит в необходимости обучаться на относительно малом количестве экспериментов, используя здравый смысл в применении к объектам и физике».
Он говорит, что разработанную ими тактильную обучающуюся систему можно использовать и для других задач кроме «Дженги», особенно в тех, что требуют осторожного физического взаимодействия, например, сортировки перерабатываемого мусора или сборки потребительских продуктов.
«На сборочном конвейере для телефонов почти на каждом шагу требуется ощущение того, что деталь встала на место, или что винт закручен – всё это исходит из тактильных и силовых ощущений, а не зрительных, — говорит Родригез. – Обучающие модели подобных действий – это на сегодня самый вкусный сегмент данной технологии».
Ведущий автор работы – аспирант MIT Нима Фазели. Также в команду входят: Микель Оллер, Цзяцзюнь Ву, Чжэн Ву и Джошуа Тененбаум, профессор когнитивных наук и изучения работы мозга в MIT.
Тяни, толкай
В игре «Дженга», что на суахили означает «строить», 54 прямоугольных блока кладутся в 18 слоёв по 3 блока в каждом, так, чтобы в соседних слоях блоки были расположены перпендикулярно друг к другу. Цель игры – аккуратно вынимать блоки и класть их наверх башни, строя новый уровень, так, чтобы башня не падала.
Чтобы запрограммировать робота для игры в «Дженгу», традиционные схемы машинного обучения (МО) потребовали бы описывать вообще всё, что может произойти при взаимодействии блока, робота и башни – это довольно затратные вычисления, требующие обработки данных из тысяч или даже десятков тысяч попыток достать блок.
Вместо этого Родригез с коллегами начали подыскивать более эффективный с точки зрения использования данных способ для робота обучиться игре в «Дженгу», вдохновлённый когнитивными способностями человека и тем, как мы сами могли бы подойти к этой игре.
Команда приспособила для задачи стандартный для промышленности роботизированный захват ABB IRB 120, а потом установила башню «Дженга» в доступном для захвата месте, и начался период обучения. Сначала робот выбирал случайные блоки и место на блоке, куда нужно было надавливать. Затем он прикладывал небольшое усилие, пытаясь выдавить блок из башни.
Во время каждой попытки компьютер записывал связанные с нею визуальные и тактильные измерения, и отмечал, закончилась ли она успехом.
Вместо того, чтобы проводить десятки тысяч таких попыток (тогда и башню пришлось бы восстанавливать столько же раз), робот обучился всего на 300. Попытки похожих измерений и результатов группировались, обозначая определённые аспекты поведения блоков. К примеру, одна группа данных могла обозначать попытки сдвинуть блок, сопротивляющийся движению, другая – работу с блоком, который двигался легко, третья – попытки, приведшие к падению башни. Для каждой группы данных робот разработал простую модель, предсказывающую поведение блока на основе его текущих визуальных и тактильных измерений.
Фазели говорит, что такая технология группировки серьёзно увеличивает эффективность, с которой робот обучается данной игре, и была вдохновлена естественным образом, которым люди группируют схожее поведение объектов. «Робот строит кластеры данных и затем обучается моделям по каждому из этих кластеров, вместо того, чтобы обучаться по модели, описывающей вообще всё, что в принципе может произойти».
Собирая стопку
Исследователи проверили свой подход, сравнив его с передовыми алгоритмами МО в компьютерной симуляции игры при помощи симулятора MuJoCo. Полученные в симуляторы данные позволяют учёным понять, как обучался бы робот в реальном мире.
«Мы обеспечиваем этим алгоритмам те же данные, что получает наша система, чтобы увидеть, как они смогут научиться играть в „Дженгу“ на схожем уровне, — говорит Оллер. – По сравнению с нашим подходом, этим алгоритмам для освоения игры приходилось играть с количеством башен, на несколько порядков превышающее то, что было у нас».
Команда заинтересовалась, может ли их подход к МО соревноваться с игроками-людьми, и провела несколько неформальных соревнований с добровольцами.
«Мы посмотрели, сколько блоков смог доставать из башни человек перед тем, как она упадёт, и разница оказалась не такой уж и большой», — говорит Оллер.
Однако есть способ по-настоящему стравить робота и человека, если исследователям это захочется. Кроме физического взаимодействия, для игры в «Дженгу» нужна стратегия, извлечение подходящего блока для того, чтобы оппоненту было тяжелее вытащить следующий блок, не уронив башню.
Пока что команде не так интересно создание робота, побеждающего в «Дженгу», она больше занята применением его новых навыков в других областях.
«Существует много задач, которые мы выполняем при помощи рук, где ощущение „правильного выполнения“ можно выразить на языке сил и тактильных подсказок, — говорит Родригез. – Для таких задач может пригодиться подход, похожий на наш».
ebragim
Погодите, а разве это уже не давным-давно введено в промышленность? Все эти промышленные манипуляторы имеют обратную связь, у маска вон вообще было обучение роботов путём повторений действий рабочих, в в фармацевтике обратная связь захватов тоже с десяток лет как есть.
И не понятно, откуда сделан вывод, что без тактильных датчиков (где они, кстати? на видео видно только подпружиненный палец, который при неком усилии сдвигается внутрь манипулятора) потребовалось бы гораздо больше на обучение? Та же камера, то же микродавление на палку в дженге, просто не по усилию, а по видео смещения определяем результат.
johnfound
Нет, не введено. "Повторение действии рабочих" это простое запоминание координаты/траектории. Датчики обратной связи как правило нет или они очень простые. По крайней мере так обстоят дела с простыми промышленными манипуляторами. Те которые очень любят показывать на Дискавари. :)