Все дело в виртуальном «прянике»: Uber создал алгоритм, способный обыграть человека в игре Atari / forpes.ru

Главная
Все дело в виртуальном «прянике»: Uber создал алгоритм, способный обыграть человека в игре Atari

Все дело в виртуальном «прянике»: Uber создал алгоритм, способный обыграть человека в игре Atari +24

04.03.2021 15:52

Belisckner 4 3100 Источник

В ИИ-лаборатории Uber AI Labs создали новое семейство алгоритмов Go-Explore. В основе алгоритма — обучение с подкреплением. По эффективности Go-Explore превосходит большинство существующих разработок при испытании на классических играх Atari 1980-х годов.

ИИ от Uber прошел в общей сложности 11 самых сложных игр, в том числе Montezuma’s Revenge и Pitfall. По сумме набранных очков он обошел людей. Разрабатывается алгоритм не ради игр: в ближайшем будущем алгоритм можно будет применять для обучения в робототехнике, обработке естественных языков, создания новых лекарств и т.п. Что лежит в основе алгоритма?

Обучение с подкреплением

Для начала напомним, что такое обучение с подкреплением и почему у него высокий потенциал.

Это хорошо известная разновидность обучения нейросети. Преимущество подобной технологии в элементе, который называется агентом. Он работает не обособленно, а учится взаимодействовать с окружающей средой. Окружающая среда реагирует на действия агента, создавая эффект поощрения.

ИИ старается получить виртуальный «пряник», так что действует исходя из возможности получения награды. Если этого не приносит, то в следующий раз операция считается менее желательной.

В условиях заданной полезности обучение с поощрением позволяет максимально улучшить результат.

Что за алгоритм создал Uber

Главная отличительная черта алгоритма Uber — запоминание предшествующих перспективных состояний. Причем алгоритм не просто способен воспроизвести их, но и осуществляет разведку. Как будто снова и снова задает вопрос: “А что если?” И ищет новый лучший ответ. Благодаря такой цепочке удается увеличить эффективность алгоритма обучения.

У семейства алгоритмов от AI Uber Labs есть важная способность — запоминать предыдущие перспективные состояния. Небольшими итерациями алгоритм строит архив состояний. А они, в свою очередь, группируются в ячейки.

Схема работы Go-Explore, фазы исследования и робастификации

Go-Explore решает две важные проблемы обучения с поощрением.

Первая проблема. Алгоритм теряет интерес к ранее пройденным состояниям. Причем некоторые из этих состояний могут быть перспективными, но алгоритм их начинает игнорировать.

Вторая проблема. Процесс исследования препятствует откату к ранним состояниям алгоритма. Вместо того, чтобы вернуться назад, ИИ уходит слишком далеко от начальной точки и произвольно масштабирует случайные действия.

Испытание алгоритма на играх

В Uber обратились к классическим играм Altari, чтобы убедиться в действенности своей разработки. Они взяли самые сложные из игр, с которыми компьютеру сложнее всего справиться. Трудности возникают из-за слишком редкого вознаграждения. В таких случаях между действием алгоритма и успешным результатом проходят сотни операций. Определить, какие именно действия помогли получить виртуальную награду, классическим путем становится сложно.

Как же с этим справляется алгоритм от Uber? Он отправляет похожие состояния в одну ячейку. Цикл начинается с отбора состояний из ячейки, где они ранжированы по весам. Предпочтение при этом отдается недавно найденным состояниям, из них исследуются новые области. Потом происходит обновление архива. Таким образом, Go-Explore обрабатывает максимально доступное количество вариантов и, главное, не пропускает самые интересные состояния.

Далее у алгоритма есть опция сделать робастификацию найденных решений и исключить внешнее или учесть помехи. Эта опция снижает уровень шума в найденных траекториях. Зачем это нужно? В Atari окружение и действия четко определены: конкретные ходы приводят к ожидаемым результатам. Для уменьшения детерминированности в игру вводили искусственные задержки. Чтобы алгоритм не только выполнял заранее проверенные действия, но и обучался в условиях, приближенных к реальным.

В итоге Go-Explore показал хорошие результаты в игре в двух ситуациях:

В случае неизвестности, когда у алгоритма отсутствуют первичные сведения.
При наличии сведений: алгоритму известны вводные (координаты, ключи и пр.).

Во втором случае, ожидаемо, результаты получаются выше. Так, Go-Explore в игре Montezuma’s Revenge обошел результат игрока-человека на 42,5%, набрав 1,73 млн очков.

Go-Explore для роботов

Помимо игр Atari, семейство алгоритмов протестировали на роботизированном манипуляторе. Go-Explore выполнил успешно перемещения роборуки в симуляторе, где требовалась переставлять предметы на полках. Причем роборука могла их не только переставлять, но и доставать из-за дверей с замками.

Комментарии (4)

jamaze
04.03.2021 22:39
#22766624
+2
Вместо рандомного exploration сделали A*-search. Разумно.

Arastas
05.03.2021 12:55
#22768656
Я примерно представляю себе, где в бизнесе востребован data-science: поиски каких-то закономерностей, прогнозирование действий пользователя, что-то такое. Но я не понимаю (в силу узкого кругозора), где на сегодня в бизнесе исползуется Reinforcement Learning, есть ли у него какая-то ниша. Я имею ввиду не единичные исследовательские лаборатории, где разрабатывают автопилот или автономные подлодки, напрмер. Я про массовый бизнес, есть ли там место и потребность для Reinforcement Learning? Или перспективы?
1. WASD1
  05.03.2021 18:12
  #22770356
  «госзаказ» военных: симуляция КШУ на ИИ
  1. Arastas
    05.03.2021 19:23
    #22770646
    Ох, не знаю. Это разве не попадает под "единичные исследовательские лаборатории"?