В многолетней погоне за созданием искусственного интеллекта IT-специалисты спроектировали и разработали всевозможные сложные механизмы и технологии для создания аналогов зрения, языка, мышления, моторики и других способностей, присущих разумной жизни. Хотя эти усилия и привели к созданию систем слабой формы искусственного интеллекта, которые могут эффективно решать определенные проблемы в ограниченных условиях и окружении, такие системы и в подметки не годятся уровню интеллекта не только людей, но и животных.
В новой статье, опубликованной в рецензируемом научном журнале Artificial Intelligence, ученые из DeepMind утверждают, что интеллект и связанные с ним способности появятся не в результате формулирования и решения сложных проблем, а в результате соблюдения простого, но действенного принципа: максимизация вознаграждения. Речь идет про обучение с подкреплением.
Работа под названием «Достаточно награды» (Reward is Enough), которая на момент написания этой статьи все еще находится на этапе предварительной проверки, базируется на изучении эволюции естественного интеллекта, а также извлечения уроков из недавних достижений в области искусственного интеллекта. Авторы предполагают, что максимизации вознаграждения и метода проб и ошибок достаточно, чтобы развить поведение, демонстрирующее способности, связанные с интеллектом. Из этого они делают вывод, что обучение с подкреплением, ветвь ИИ, основанная на максимизации вознаграждения, может привести к развитию сильной формы искусственного интеллекта.
Два пути для ИИ
Один из распространенных методов создания ИИ — попытки воспроизвести элементы разумного поведения в компьютерных системах. Например, изучение системы зрения млекопитающих привело к появлению разных видов систем искусственного интеллекта, которые могут классифицировать изображения, определять местонахождение объектов на фотографиях, определять границы между объектами и многое другое. Точно так же наше понимание языка помогло в разработке различных систем обработки естественного языка, таких как ответы на вопросы с распознаванием речи, генерация текста и машинный перевод.
Но все это примеры узкоспециализированных систем, которые были разработаны для выполнения определенных задач. Некоторые ученые считают, что комбинация нескольких специализированных моделей ИИ приведет к созданию более «умных» систем. Например, это может быть программный комплекс, который координирует работу отдельных модулей компьютерного зрения, обработки голоса, НЛП и управления моторикой для решения сложных задач, требующих множества навыков. Это первый подход.
Второй, который и предлагается представителями DeepMind, заключается в воссоздании простого, но эффективного механизма, который привел к появлению разума. А именно — обучение с подкреплением. Этот метод в течение миллиардов лет естественного отбора и случайных изменений позволял развиваться определенным формам жизни. Другие, которые не справлялись с задачей — рано или поздно уходили с арены жизни. Наиболее сильными оказались лучше всего приспособленные для решения разных задач существа.
Все потому, что, по мнению исследователей, условия окружающей среды настолько сложные, что для достижения определенных результатов созданий, которые живут в это среде, нужно развивать комплексные способности. Т.е. простая модель обучения с подкреплением способствует не столько «сферическому разуму в вакууме», сколько появлению комплексного разума, который способен решать сложные задачи.
Пример — белка. Голодная белка ищет еду, что логично. Но белка, которая способна лишь на поиск еды с мгновенным ее поеданием, не выдержит зимовки. В холодное время года она погибнет от голода. А вот белка, которая научилась прятать орехи в определенном месте, кладовой, и более того, может запомнить это место — скорее всего, выживет.
Развитие способностей за счет максимизации вознаграждения
В своей статье исследователи приводят несколько примеров того, как “интеллект и связанные с ним способности неявно возникают для максимизации одного из множества возможных сигналов вознаграждения”.
Так, разного рода сенсорные навыки помогают животным выживать в сложном окружении/условиях. Распознавание объектов дает возможность животным обнаруживать еду, сородичей, реагировать на угрозы, избегать ловушек. Сегментация изображений помогает им различать сложные объекты и избегать смертельно опасных ошибок вроде падения с ветки. Слух, а не зрение, спасает животное тогда, когда ничего не видно или видно плохо. Аналогичным образом способность чувствовать вкус и запах увеличивает шансы животного выжить.
В статье ученые также обсуждают базирующиеся на обучении с вознаграждением новые возможности вроде основ языка, социального интеллекта, имитации и общего разума, который описывается как «максимизация единственного вознаграждения в единой сложной среде».
По мнению ученых, весь этот эволюционный путь с появлением разума можно повторить для ИИ.
Обучение с подкреплением для максимизации вознаграждения
Обучение с подкреплением — это особая разновидность алгоритмов ИИ, которая включает три основные элемента: среду, агентов и вознаграждения.
В рассматриваемой учеными ситуации выполнение действий агентом приводит к изменению как состояния окружающей среды, так и состояния самого агента. В зависимости от направленности изменений — помогают они достигать цели или мешают, агент либо награждается, либо наказывается.
Во многих экспериментах по обучению с подкреплением у агента нет никаких знаний об окружающей среде, так что агент начинает с нуля и случайных действий. А потом, используя полученный опыт, агент адаптируется, подстраивая свои действия и вырабатывая методы, которые приводят к максимизации вознаграждения.
В своей статье исследователи DeepMind предлагают обучение с подкреплением в качестве основного алгоритма, который дает возможность воспроизвести максимизацию вознаграждения, наблюдаемую в природе, и в конечном итоге — привести к созданию полноценного ИИ. Тем не менее, гарантии появления сильной формы ИИ при использовании обучения с подкреплением специалисты не дают. Возможно, агенту понадобятся для этого сотни лет, а в итоге мы получим лишь ИИ, способный играть в компьютерные игры. До настоящего момента ученые не разработали методики обучения с подкреплением, которые дают возможность сочетать и обобщать полученные знания в разных областях.
Исследователи признают, что механизмы обучения для максимизации вознаграждения — нерешенная проблема, которая требует тщательного дальнейшего изучения.
Сильные и слабые стороны максимизации вознаграждения
Ряд специалистов не согласен с положениями статьи. Например, датасаентист Герберт Ройтблат утверждает, что простые механизмы обучения, метода проб и ошибок недостаточно для появления разума. По мнению ученого, предположения из статьи сталкиваются с рядом проблем, когда дело доходит до их проверки в реальной жизни.
В целом, Ройтблат считает, что для появления разума под действием указанных механизмов требуется слишком много времени. Конечно, рано или поздно и бесконечное число обезьян, набирающих текст на бесчисленном множестве печатных машинок наберут текст «Илиады». Но для появления сильной формы ИИ в ближайшем обозримом будущем этого явно недостаточно.
«После того, как модель и ее внутреннее представление созданы, оптимизация или усиление могут направлять ее развитие, но это не означает, что подкрепления достаточно», — комментирует он работу коллег. Также он критикует и то, что в описываемой работе нет предположений о том, как именно определяются вознаграждение, действия и другие элементы обучения с подкреплением.
В целом, по словам критиков работы, обучение с подкреплением, пускай даже с максимизацией вознаграждения — это хорошо. Но для появления разума, естественного или искусственного, этого мало, скорее всего, должны быть и другие факторы, которые влияют на живой организм или компьютерную систему в комплексе с обучением.
leventov
Помимо аргумента Ройтблата о том, что для такого обучения надо слишком много времени, есть еще один: в текущем сверхсвязанном и сверхсложном мире, single-agent оптимизация уже давно неадекватна для решения проблем. Нужны принципиально новые подходы для многоагентной координации на многих уровнях. Я подозреваю что простого подкрепления тут недостаточно не только с практической, но и с теоретической точки зрения.
mad_god
Почему single-agent? Должно бы масштабироваться и на multiple-agents. А в идеале, чтобы не получать очередные порции несвязной информации, можно конструировать виртуальные копии environment, чтобы увидеть исследованные и не исследованные ситуации, в которые попадал агент. Можно представить ситуацию, вместо того, чтобы посылать агента в опасную ситуацию. Но это, если получится свернуть признаки до общего принципа, например, если агента на полигоне убило бочкой, камнем и так далее, то всех тяжёлых предметов нужно опасаться.