![image](https://habrastorage.org/webt/xv/_o/zb/xv_ozb5pnc-2cawgsbalriojhe0.png)
DeepMind AI представила агента искусственного интеллекта MuZero. Его обучили играть в десятки старых видеоигр Atari, шахматы и ??настольные игры типа Go. В отличие от предшественников, бот самостоятельно вырабатывает для себя правила игры.
Сейчас MuZero подключили к разработке алгоритма кодирования видео, который может сократить расходы YouTube.
MuZero работает на системе ИИ глубокого обучения с подкреплением — техники, в которой многоуровневые нейросети позволяют машинам обучаться новым навыкам методом проб и ошибок, получая «вознаграждение» за успех.
При разработке MuZero использовали программу DQN, которая достигла высокого уровня мастерства в видеоиграх Atari. Также были задействованы:
- AlphaGo, программа, которая победила чемпиона Go Ли-Седола со счетом 4:1 в соревновании 2016 года;
- AlphaGo Zero, которая превзошла AlphaGo по производительности в 2017 году после обучения с нуля и была ознакомлена только с основными правилами игры;
- AlphaZero, которую можно применять не только в Go, но и в шахматах и сёги.
![image](https://habrastorage.org/webt/g3/1w/8y/g31w8ybipfemsfb9euydzhpgqzs.png)
Сообщается, что MuZero оказался немного лучше AlphaZero в игре Go, несмотря на то, что за каждый ход выполнялось меньше вычислений. Бот также превзошел R2D2 — ведущий игровой алгоритм Atari — в 42 из 57 игр, протестированных на старой консоли. Более того, он сделал это после того, как выполнил только половину тренировочных шагов.
![image](https://habrastorage.org/webt/tn/ha/j6/tnhaj6cl6e5im8l5d4koa9a2hhk.png)
Оба достижения указывают на то, что MuZero способен более эффективно извлекать больше информации из меньшего количества данных.
Венди Холл, профессор компьютерных наук в Университете Саутгемптона и член правительственный совет по ИИ, отметил, что новая система со временем сможет добиться «сверхчеловеческой производительности», а данная работа является «значительным шагом вперед», но при этом вызывает обеспокоенность. Он обратил внимание на то, какие последствия может иметь разработка такого бота.
В DeepMind задумались о практическом применении MuZero. Сейчас бота задействовали в изобретении нового вида сжатия видео.
Более подробная информация о способах применения MuZero появится в 2021 году. Потенциально бота можно использовать для разработки виртуальных помощников нового поколения, медицинских и поисково-спасательных технологий.
Ранее DeepMind продемонстрировала последнюю версию системы ИИ AlphaFold, которая способна давать надежные прогнозы базовой физической структуры белка за считанные дни. Прорыв в фолдинге белка признали организаторы критической оценки прогнозирования структуры белка (CASP).
См. также:
pdima
Его же уже больше года как представили: Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model
Stecenko
В оригинале заметки:
Т.е. в 2019 была предварительная статья, а вчера — окончательный вариант статьи.