Эволюционное глубокое обучение с подкреплением может помочь преодолеть ограничения других подходов, а результаты работы, возможно, сильно повлияют на ИИ и робототехнику.

Созданные в сложной виртуальной среде агенты развивают не только способность к обучению, но и физическую конструкцию. Подробностями делимся под катом, пока у нас начинается курс по ML и DL.


Несмотря на аналогию с эволюцией и природой, в сфере ИИ большой акцент сделан на создании отдельных элементов интеллекта и на их объединении. Подход дал отличные результаты, но ограничил гибкость агентов ИИ в присущих даже простейшим формам жизни навыках.

Тело и мозг животных развиваются вместе. Чтобы появились необходимые в окружающей среде конечности, органы и нервная система, виды пережили бесчисленные мутации. 

При этом все виды на Земле произошли от первой формы жизни, которая появилась на Земле несколько миллиардов лет назад. Давление отбора среды по-разному направило развитие потомков этих первых живых существ.

Изучать эволюцию жизни и интеллекта интересно, но воспроизвести её очень сложно. Чтобы воссоздать разумную жизнь подобно эволюции, системе ИИ пришлось бы искать в очень большом пространстве возможных морфологий, а это чревато чрезмерными вычислительными затратами. Требуется множество разнообразных проб и ошибок.

Решения проблем изучения эволюции

Часть этих проблем исследователи решают по-разному. Например, учёные фиксируют архитектуру или физическую структуру системы и фокусируются на оптимизации параметров обучения. Есть и другие подходы:

  • Агенты ИИ передают изученные параметры своим потомкам, отражая эволюционную теорию Ламарка.

  • Зрительную, двигательную, речевые системы ИИ можно обучать отдельно друг от друга, объединяя их в конечной системе. 

Эти подходы ускоряют процесс и снижают затраты на обучение и развитие агентов ИИ, но они ограничивают гибкость и разнообразие результатов.

Эволюционное глубокое обучение с подкреплением

В новой работе учёные Стэнфордского университета стремятся приблизить исследования ИИ к реальному эволюционному процессу при минимуме затрат. 

«Наша цель — изучить принципы, управляющие связями между сложностью окружающей среды, развившейся морфологией и обучаемостью интеллектуального управления», — пишут исследователи.

Их подход называется эволюционным глубоким обучением с подкреплением. Чтобы приобрести навыки и максимизировать вознаграждение за время своей жизни, каждый агент в системе использует глубокое обучение с подкреплением. 

Чтобы найти оптимальные решения в морфологическом пространстве, здесь применяется дарвиновская теория эволюции. Иными словами, новое поколение агентов наследует только физические и архитектурные черты своих предков с небольшими мутациями. Следующим поколениям не передаётся ни один изученный параметр.

«Фундамент эволюционного глубокого обучения с подкреплением даёт дорогу крупномасштабным экспериментам компьютерного моделирования, позволяющим понять, как совместное применение обучения и эволюции приводит к созданию непростых взаимосвязей между сложностью окружающей среды, морфологическим интеллектом и обучаемостью агента», — пишут исследователи.

Моделирование эволюции

За основу исследователи взяли виртуальную среду MuJoCo с высокоточным моделированием физики твёрдого тела. Цель — создать в её пространстве морфологии UNIversal aniMAL (UNIMAL), которые изучают задачи перемещения и манипулирования объектами в условиях разнообразного рельефа.

Каждый агент в среде состоит из генотипа. Генотип определяет его конечности и соединения. Прямой потомок агента наследует генотип и мутирует: создаёт или удаляет конечности, изменяет их размер и степени свободы.

Чтобы максимизировать вознаграждение в различных средах, каждый агент проходит обучение с подкреплением. Основная задача — перемещение, при котором агент вознаграждается за преодолеваемое во время эпизода расстояние. Агенты, чьё физическое строение лучше подходит для пересечения местности, учатся передвижению быстрее.

Чтобы проверить результаты, учёные генерировали агентов в трёх типах местности: 

  • На равнине давление отбора на морфологию агентов минимально. 

  • Пересечённая местность вынуждает развивать универсальную физическую структуру, чтобы взбираться на склоны и обходить препятствия. 

  • На пересечённой местности с изменяемыми объектами есть дополнительная трудность: чтобы выполнить задачу, агенты должны манипулировать объектами.

Преимущества эволюционного глубокого обучения с подкреплением

Эволюционное глубокое обучение с подкреплением генерирует разнообразные морфологии в различных средах
Эволюционное глубокое обучение с подкреплением генерирует разнообразные морфологии в различных средах

Один из интересных выводов исследования — многообразие результатов. Другие подходы к эволюционному ИИ обычно сходятся в одном решении, поскольку новые агенты напрямую наследуют сложение и знания своих предков. Но при эволюционном глубоком обучении с подкреплением потомкам передаются только морфологические данные, а значит, в системе создаётся набор разнообразных морфологий, включая дву-, трёх- и четвероногих агентов с руками и без них.

В этой системе обнаруживается эффект Болдуина: агенты, которые учатся быстрее, с большей вероятностью воспроизведут и передадут свои гены следующему поколению. 

Эволюционное глубокое обучение с подкреплением показывает, что эволюция, как сказано в работе стэнфордских исследователей, «выбирает более быстрых агентов без какого-либо прямого давления отбора».

«Любопытно, что наличие этого морфологического эффекта Болдуина может использоваться в будущих исследованиях, чтобы создавать воплощённые агенты с меньшей сложностью выборки и большей возможностью обобщения», — пишут исследователи.

Агенты, проходящие глубокое эволюционное обучение с подкреплением, оцениваются по различным задачам
Агенты, проходящие глубокое эволюционное обучение с подкреплением, оцениваются по различным задачам

Эволюционное глубокое обучения с подкреплением подтверждает гипотезу: чем сложнее среды, тем более интеллектуальные агенты будут появляться. 

Исследователи протестировали эволюционировавших агентов по восьми различным задачам, включая патрулирование, побег, манипулирование объектами и разведку. 

Результаты показали, что в целом агенты, эволюционировавшие на пересечённой местности, учатся быстрее, а их результаты лучше, чем у агентов ИИ, которые сталкивались только с равнинной местностью.

Эти выводы согласуются с другой гипотезой исследователей DeepMind: сложная среда, подходящая структура вознаграждения и обучение с подкреплением могут привести к появлению всех видов разумного поведения.

Исследования ИИ и робототехники

Среда эволюционного глубокого обучения с подкреплением обладает лишь малой частью сложностей реального мира. 

«Хотя эволюционное глубокое обучение с подкреплением позволяет сильно продвинуться в масштабировании сложности эволюционных сред, важным направлением будущей работы будет создание более открытых, физически реалистичных и многоагентных эволюционных сред», — пишут исследователи.

В будущем учёные расширят спектр задач, чтобы лучше понимать, как агенты могут повысить свою способность изучать свойственное человеку поведение. Эта работа может подтолкнуть исследователей к применению методов, которые гораздо ближе к естественной эволюции.

«Надеемся, что наша работа поможет дальнейшим масштабным исследованиям с использованием обучения и эволюции в других контекстах, которые приведут к новым научным результатам, а эти подходы способствуют появлению быстро обучаемых видов разумного поведения и новых возможностей их инстанцирования в машинах», — пишут исследователи.

А пока учёные преодолевают ограничения искусственного интеллекта, вы можете обратить внимание на наши курсы, чтобы научиться с помощью ИИ решать проблемы бизнеса:

Также вы можете перейти на страницы из каталога, чтобы узнать, как мы готовим специалистов в других направлениях.

Профессии и курсы

Комментарии (2)


  1. phenik
    11.11.2021 13:38

    Стэнфорд показал Deep Learning по Дарвину
    Можно моделировать эволюцию агентов в средах применяя обучение, а можно воспользоваться эволюционным наследием. Это наследие устанавливается в эволюционных и когнитивных исследованиях, и в последние десятилетия здесь имеется существенный прогресс в виде установления функционала когнитивного ядра. Интересующимся этой тематикой, в особенности моделированием поведения интеллектуальных агентов в физических средах, см. работы выполненные под руководством специалиста из MIT Д. Таненбаума. Ссылки на некоторые модели приведены в этом коменте.


  1. deely
    11.11.2021 16:15

    Оказывается DoF над зверушками в видео это Degrees of Freedom.