Обезьяна (шимпанзе) достает термитов из термитника при помощи палки. Навторой фотографии горилла использует палку для сбора нужной ей травы
Разработчики из США создали специализированный алгоритм для роботов, который дал возможность последним использовать дополнительные инструменты для выполнения поставленной задачи. А она относительно простая — определенным образом переместить предмет из точки А в точку Б.
Алгоритм состоит из двух частей. Первая позволяет роботу перемещать предметы случайным образом, выполняя своего рода эксперименты. Вторая часть дает возможность оценить последствия того либо иного действия при помощи нейросети. Как оказалось, роботы, работая по алгоритму, эффективно использовали вспомогательные инструменты без обучения.
Человек использует множество дополнительных инструментов каждый день. Животные тоже на это способны — попугаи, вороны, обезьяны и некоторые другие живые существа умеют использовать палки, камешки, колючки для достижения желаемых задач (например, извлечение личинки жука из-под коры).
Для нас использование ножа для нарезания хлеба вполне очевидно. Но для робота, которому необходимо объяснять каждое действие в виде машинного языка — вовсе нет.
Ученые из Калифорнийского университета в Беркли разработали способ, позволяющий обучить роботов использовать вспомогательные инструменты и принимать решения по их применению в той либо иной ситуации. Алгоритм «визуализирует» задачу, демонстрируя роботу, в какую сторону нужно двигать пример. А уже робот (это обычный роботизированный манипулятор) берет инструмент и двигает предмет. Все движения отслеживаются на камере.
В основе алгоритма — нейросеть. Специализированная программа просчитывает разные последовательности действий для робота, которые «скармливаются» нейросети. Та генерирует видео, которое показывает, что будет происходить в результате выполнения того либо иного действия.
Манипулятору дается команда на выполнение действия. Если реальный результат совпадает с планируемым, выполнение задания засчитывается. В ходе работы различные варианты видео сравниваются с изображением, которое предоставлено пользователем и отображает конечный результат выполнения задачи. После того, как найдена оптимальная последовательность действий, робот приступает к решению задачи.
В этом проекте совмещены такие подходы машинного обучения, как обучение без демонстрации и имитационное обучение. В первом случае робот выбирает варианты действий случайным образом. В результате генерируется значительная выборка данных, которая помогает достигать оптимального результата. Во втором разработчики наглядно показывали роботу, как нужно использовать инструмент в том либо ином случае. Именно в этой ситуации и записывается на камеру эталонное решение, с которым робот сравнивает последствия своих действий.
В некоторых случаях робот «понимает», что лучше всего выполнить задачу можно без вспомогательных элементов — и делает это. Инструменты же используются без обучения, даже в том случае, если роботу не показывали их прежде.