Эволюционное глубокое обучение с подкреплением может помочь преодолеть ограничения других подходов, а результаты работы, возможно, сильно повлияют на ИИ и робототехнику.
Созданные в сложной виртуальной среде агенты развивают не только способность к обучению, но и физическую конструкцию. Подробностями делимся под катом, пока у нас начинается курс по ML и DL.
Несмотря на аналогию с эволюцией и природой, в сфере ИИ большой акцент сделан на создании отдельных элементов интеллекта и на их объединении. Подход дал отличные результаты, но ограничил гибкость агентов ИИ в присущих даже простейшим формам жизни навыках.
Тело и мозг животных развиваются вместе. Чтобы появились необходимые в окружающей среде конечности, органы и нервная система, виды пережили бесчисленные мутации.
При этом все виды на Земле произошли от первой формы жизни, которая появилась на Земле несколько миллиардов лет назад. Давление отбора среды по-разному направило развитие потомков этих первых живых существ.
Изучать эволюцию жизни и интеллекта интересно, но воспроизвести её очень сложно. Чтобы воссоздать разумную жизнь подобно эволюции, системе ИИ пришлось бы искать в очень большом пространстве возможных морфологий, а это чревато чрезмерными вычислительными затратами. Требуется множество разнообразных проб и ошибок.
Решения проблем изучения эволюции
Часть этих проблем исследователи решают по-разному. Например, учёные фиксируют архитектуру или физическую структуру системы и фокусируются на оптимизации параметров обучения. Есть и другие подходы:
Агенты ИИ передают изученные параметры своим потомкам, отражая эволюционную теорию Ламарка.
Зрительную, двигательную, речевые системы ИИ можно обучать отдельно друг от друга, объединяя их в конечной системе.
Эти подходы ускоряют процесс и снижают затраты на обучение и развитие агентов ИИ, но они ограничивают гибкость и разнообразие результатов.
Эволюционное глубокое обучение с подкреплением
В новой работе учёные Стэнфордского университета стремятся приблизить исследования ИИ к реальному эволюционному процессу при минимуме затрат.
«Наша цель — изучить принципы, управляющие связями между сложностью окружающей среды, развившейся морфологией и обучаемостью интеллектуального управления», — пишут исследователи.
Их подход называется эволюционным глубоким обучением с подкреплением. Чтобы приобрести навыки и максимизировать вознаграждение за время своей жизни, каждый агент в системе использует глубокое обучение с подкреплением.
Чтобы найти оптимальные решения в морфологическом пространстве, здесь применяется дарвиновская теория эволюции. Иными словами, новое поколение агентов наследует только физические и архитектурные черты своих предков с небольшими мутациями. Следующим поколениям не передаётся ни один изученный параметр.
«Фундамент эволюционного глубокого обучения с подкреплением даёт дорогу крупномасштабным экспериментам компьютерного моделирования, позволяющим понять, как совместное применение обучения и эволюции приводит к созданию непростых взаимосвязей между сложностью окружающей среды, морфологическим интеллектом и обучаемостью агента», — пишут исследователи.
Моделирование эволюции
За основу исследователи взяли виртуальную среду MuJoCo с высокоточным моделированием физики твёрдого тела. Цель — создать в её пространстве морфологии UNIversal aniMAL (UNIMAL), которые изучают задачи перемещения и манипулирования объектами в условиях разнообразного рельефа.
Каждый агент в среде состоит из генотипа. Генотип определяет его конечности и соединения. Прямой потомок агента наследует генотип и мутирует: создаёт или удаляет конечности, изменяет их размер и степени свободы.
Чтобы максимизировать вознаграждение в различных средах, каждый агент проходит обучение с подкреплением. Основная задача — перемещение, при котором агент вознаграждается за преодолеваемое во время эпизода расстояние. Агенты, чьё физическое строение лучше подходит для пересечения местности, учатся передвижению быстрее.
Чтобы проверить результаты, учёные генерировали агентов в трёх типах местности:
На равнине давление отбора на морфологию агентов минимально.
Пересечённая местность вынуждает развивать универсальную физическую структуру, чтобы взбираться на склоны и обходить препятствия.
На пересечённой местности с изменяемыми объектами есть дополнительная трудность: чтобы выполнить задачу, агенты должны манипулировать объектами.
Преимущества эволюционного глубокого обучения с подкреплением
Один из интересных выводов исследования — многообразие результатов. Другие подходы к эволюционному ИИ обычно сходятся в одном решении, поскольку новые агенты напрямую наследуют сложение и знания своих предков. Но при эволюционном глубоком обучении с подкреплением потомкам передаются только морфологические данные, а значит, в системе создаётся набор разнообразных морфологий, включая дву-, трёх- и четвероногих агентов с руками и без них.
В этой системе обнаруживается эффект Болдуина: агенты, которые учатся быстрее, с большей вероятностью воспроизведут и передадут свои гены следующему поколению.
Эволюционное глубокое обучение с подкреплением показывает, что эволюция, как сказано в работе стэнфордских исследователей, «выбирает более быстрых агентов без какого-либо прямого давления отбора».
«Любопытно, что наличие этого морфологического эффекта Болдуина может использоваться в будущих исследованиях, чтобы создавать воплощённые агенты с меньшей сложностью выборки и большей возможностью обобщения», — пишут исследователи.
Эволюционное глубокое обучения с подкреплением подтверждает гипотезу: чем сложнее среды, тем более интеллектуальные агенты будут появляться.
Исследователи протестировали эволюционировавших агентов по восьми различным задачам, включая патрулирование, побег, манипулирование объектами и разведку.
Результаты показали, что в целом агенты, эволюционировавшие на пересечённой местности, учатся быстрее, а их результаты лучше, чем у агентов ИИ, которые сталкивались только с равнинной местностью.
Эти выводы согласуются с другой гипотезой исследователей DeepMind: сложная среда, подходящая структура вознаграждения и обучение с подкреплением могут привести к появлению всех видов разумного поведения.
Исследования ИИ и робототехники
Среда эволюционного глубокого обучения с подкреплением обладает лишь малой частью сложностей реального мира.
«Хотя эволюционное глубокое обучение с подкреплением позволяет сильно продвинуться в масштабировании сложности эволюционных сред, важным направлением будущей работы будет создание более открытых, физически реалистичных и многоагентных эволюционных сред», — пишут исследователи.
В будущем учёные расширят спектр задач, чтобы лучше понимать, как агенты могут повысить свою способность изучать свойственное человеку поведение. Эта работа может подтолкнуть исследователей к применению методов, которые гораздо ближе к естественной эволюции.
«Надеемся, что наша работа поможет дальнейшим масштабным исследованиям с использованием обучения и эволюции в других контекстах, которые приведут к новым научным результатам, а эти подходы способствуют появлению быстро обучаемых видов разумного поведения и новых возможностей их инстанцирования в машинах», — пишут исследователи.
А пока учёные преодолевают ограничения искусственного интеллекта, вы можете обратить внимание на наши курсы, чтобы научиться с помощью ИИ решать проблемы бизнеса:
Также вы можете перейти на страницы из каталога, чтобы узнать, как мы готовим специалистов в других направлениях.
Профессии и курсы
Data Science и Machine Learning
Python, веб-разработка
Мобильная разработка
Java и C#
От основ — в глубину
А также:
phenik