Новейшие системы ИИ начинают обучение, ничего не зная об игре, и вырастают до мирового уровня за несколько часов. Но исследователи с трудом справляются с применением таких систем за пределами игрового мира




До недавнего времени машины, способные посрамить людей-чемпионов, хотя бы имели уважение использовать человеческий опыт для обучения играм.

Чтобы выиграть у Гарри Каспарова в шахматы в 1997 году, инженеры IBM воспользовались столетиями шахматной мудрости при создании своего компьютера Deep Blue. В 2016 программа AlphaGo проекта Google DeepMind разгромила чемпиона Ли Седоля в древней настольной игре го, обработав миллионы игровых позиций, собранные с десятков тысяч партий между людьми.

Но сейчас исследователи ИИ переосмысливают то, как их боты должны впитывать человеческое знание. Текущую тенденцию можно описать как «да и бог с ним».

В прошлом октябре команда DeepMind опубликовала подробности новой системы игры в го, AlphaGo Zero, вообще не изучавшей игры людей. Она начала с правил игры и играла сама с собой. Первые ходы были совершенно случайными. После каждой игры она принимала новые знания о том, что привело к победе, а что – нет. После этих матчей AlphaGo Zero стравили с уже сверхчеловеческой версией AlphaGo, победившей Ли Седоля. Первая выиграла у второй со счётом 100:0.


Ли Седоль, 18-кратный чемпион мира по го, матч против AlphaGo в 2016-м.

Команда продолжила изыскания и создала следующего гениального игрока в семействе AlphaGo, на этот раз названного просто AlphaZero. В работе, опубликованной на сайте arxiv.org в декабре, исследователи DeepMind раскрыли, как, снова начав с нуля, AlphaZero натренировалась и победила AlphaGo Zero – то есть, она победила бота, победившего бота, победившего лучшего игрока в го в мире. А когда ей дали правила для японских шахмат сёги, AlphaZero быстро обучилась и сумела обыграть лучшие их специально созданных алгоритмов для этой игры. Эксперты удивлялись агрессивному и незнакомому стилю игры программы. «Мне всегда было интересно, на что это было бы похоже, если бы превосходящие нас существа прилетели на Землю и показали бы нам, как они играют в шахматы, — говорил датский гроссмейстер Петер Хейне Нильсен в интервью ВВС. – Теперь я знаю».

В прошлом году мы видели и других ботов с иных миров, проявивших себя в настолько разных областях, как безлимитный покер и Dota 2 – популярной онлайн-игре, в которой фэнтезийные герои борются за контроль над иным миром.

Естественно, что амбиции компаний, инвестирующих деньги в подобные системы, простираются за пределы доминирования на игровых чемпионатах. Исследовательские команды вроде DeepMind надеются применять сходные методы к задачам реального мира – созданию сверхпроводников, работающих при комнатной температуре, или пониманию того, какое оригами свернёт белки в полезные для лекарств молекулы. И, конечно, многие практики надеются построить искусственный интеллект общего назначения – плохо определяемая, но пленительная цель дать машине возможность мыслить, как человек и гибко подходить к решению разных проблем.

Однако, несмотря на все вложения, пока неясно, насколько далеко смогут текущие технологии выйти за пределы игровой доски. «Не уверен, что идеи, лежащие в основе AlphaZero, будет так легко обобщить», — говорит Педро Домингос, специалист по информатике из Вашингтонского университета. «Игры – это очень, очень необычная тема».

Идеальные цели для неидеального мира


Одна общая у многих игр характеристика, включая шахматы и го – игрокам постоянно видны все фишки с обеих сторон доски. У каждого игрока есть, что называется, «идеальная информация» о состоянии игры. Какой бы сложной ни была игра, вам нужно просто думать над текущей позицией.

Многие ситуации реального мира с этим не сравнить. Представьте, что мы просим компьютер поставить диагноз или провести бизнес-переговоры. «Большая часть стратегических взаимодействий в реальном мире связана со скрытой информацией», — говорит Ноам Браун, аспирант по информатике из Университета Карнеги-Мэлон. «Мне кажется, что большая часть ИИ-сообщества этот факт игнорирует».

Покер, на котором специализируется Браун, предлагает иную задачу. Вы не видите карт оппонента. Но и здесь машины, обучающиеся через игру с самими собой, уже достигают сверхчеловеческих высот. В январе 2017 года программа Libratus, созданная Брауном и его куратором Томасом Сэндхолмом, обыграла четырёх профессиональных игроков в безлимитный техасский холдем, выиграв $1,7 млн в конце 20-дневного чемпионата.

Ещё более обескураживающая игра с неидеальной информацией — StarCraft II, ещё одна многопользовательская онлайн-игра с огромным числом фанатов. Игроки выбирают команду, строят армию и ведут войну на научно-фантастическом ландшафте. Но ландшафт окружён туманом войны, из-за которого игроки видят только те части территории, на которых расположены их собственные войска или строения. Даже в решении исследовать территорию соперника полно неопределённости.

Это единственная игра, в которую ИИ пока не может выиграть. Препятствиями служат огромное количество вариантов ходов в игре, которое обычно переваливает за тысячу, и скорость принятия решений. Каждому игроку – человеку или машине – приходиться беспокоиться об огромном количестве вероятных сценариев развития с каждым щелчком мышки.

Пока что соперничать на равных с людьми в этой области ИИ не может. Но это является целью для развития ИИ. В августе 2017 DeepMind скооперировалась с Blizzard Entertainment, компанией, создавшей StarCraft II, чтобы создать инструменты, которые, по их словам, откроют эту игру для исследователей ИИ.

Несмотря на всю сложность, цель StarCraft II сформулировать просто: уничтожить врага. Это роднит её с шахматами, го, покером, Dota 2 и практически любой другой игрой. В играх можно победить.

С точки зрения алгоритма у задач должна быть «целевая функция», цель, к которой надо стремиться. Когда AlphaZero играли в шахматы, это было несложно. Поражение оценивалось в -1, ничья в 0, победа в +1. Целевая функция AlphaZero – максимизация очков. Целевая функция покерного бота настолько же проста: выиграть кучу денег.


Компьютерные ходоки могут тренировать сложное поведение, вроде ходьбы по незнакомой местности

Ситуации в реальной жизни бывают не такими простыми. К примеру, робомобилю требуется более тонкое формирование целевой функции – что-то похожее на аккуратный подбор слов при описании вашего желания джинну. К примеру: быстро доставить пассажира по правильному адресу, подчиняясь всем законам и соответствующим образом взвешивая стоимость человеческой жизни в опасных и неопределённых ситуациях. Домингос говорит, что формирование исследователями целевой функции, это «одна из тех вещей, что отличают великого исследователя в области машинного обучения от середнячка».

Рассмотрим Tay, чат-бота для Twitter, который Microsoft выпустила 23 марта 2016 года. Его целевой функцией было вовлекать людей в разговор, чем он и занимался. «Что, к сожалению, обнаружил Tay, — сказал Домингос, — так это то, что наилучшим способом максимизации вовлечения людей будет выдавать расистские оскорбления». Его отключили всего через день после начала работы.

Ваш собственный главный враг


Некоторые вещи не меняются. Используемые сегодня преобладающими игровыми ботами стратегии были придуманы много десятилетий назад. «Это такой взрыв из прошлого – ему просто дают больше вычислительных мощностей», — говорит Дэвид Дувено, специалист по информатике из Токийского университета.

Стратегии часто основываются на обучении с подкреплением, техники с предоставлением свободы действия. Вместо того, чтобы заниматься микроменеджментом, настраивая мельчайшие подробности работы алгоритма, инженеры дают машине изучать окружении обучаться достижению целей самостоятельно, методом проб и ошибок. До выхода AlphaGo и его наследников, команда DeepMind достигла первого большого успеха, попавшего в заголовки, в 2013 году, когда использовала обучение с подкреплением для создания бота, научившегося играть в семь игр Atari 2600, причём в три из них – на уровне эксперта.

Этот прогресс продолжился. 5 февраля DeepMind выпустила IMPALA – ИИ-систему, способную научиться 57 играм с Atari 2600 и ещё 30 уровням, сделанным DeepMind в трёх измерениях. На них игрок действует в различных окружениях и достигает целей вроде открытия дверей или сбора грибов. IMPALA, казалось, передавала знания между заданиями – время, потраченное на одну игру, улучшало результаты в остальных.

Но в более широкой категории обучения с подкреплением, настольных и мультипользовательских играх, можно использовать более конкретный подход. Их изучение может идти в виде игры с самим собой, когда алгоритм достигает стратегического превосходства, многократно соревнуясь с близкой копией себя.

Этой идее много десятков лет. В 1950-х инженер IBM Артур Сэмюель создал программу для игры в шашки, которая частично училась играть, соревнуясь сама с собой. В 1990-х Джеральд Тезауро из IBM создал программу для игры в нарды, противопоставлявшую алгоритм самому себе. Программа дошла до уровня людей-экспертов, параллельно выдумав необычные, но эффективные стратегии игры.

Во всё возрастающем числе игр алгоритмам для игры с самим собой предоставляют равного противника. Это означает, что изменение стратегии игры приводит к иному результату, благодаря чему алгоритм получает мгновенную обратную связь. «Каждый раз, когда вы что-то узнаёте, когда открываете какую-то мелочь, ваш оппонент сразу начинает использовать её против вас», — говорит Илья Суцкевер, директор по исследованиям в OpenAI, некоммерческой организации, которую он основал вместе с Илоном Маском, посвящённой разработке и распространению ИИ-технологий и направлению их развития в безопасное русло. В августе 2017 года организация выпустила бота для Dota 2, управлявшего одним из персонажей игры, Shadow Fiend – демоном-некромантом – победившего лучших игроков мира в сражениях один на один. Ещё один проект OpenAI сталкивает симуляции людей в матче сумо, в результате чего они обучаются борьбе и уловкам. Во время игры с самим собой «некогда отдыхать, нужно постоянно совершенствоваться», — сказал Суцкевер.



OpenAI


Но старая идея игры с самим собой – только один ингредиент в преобладающих сегодня ботах, им ещё нужен способ превращения игрового опыта в более глубокое понимание предмета. В шахматах, го, видеоиграх типа Dota 2 перестановок больше, чем атомов во Вселенной. Даже если мы будем ждать несколько человеческих жизней, пока ИИ будет бороться со своей тенью на виртуальных аренах, машина не сможет реализовать каждый сценарий, записать его в специальной таблице и обращаться к ней, когда такая ситуация попадётся вновь.

Чтобы оставаться на плаву в этом море возможностей, «необходимо обобщать и выделять суть», — говорит Питер Аббиль, специалист по информатике из Калифорнийского университета в Беркли. Deep Blue от IBM делала это при помощи встроенной формулы для игры в шахматы. Вооружённая возможностью оценивать силу игровых позиций, которые она ещё не видела, программа смогла применить ходы и стратегии, увеличивающие её шансы на выигрыш. В последние годы новая техника даёт возможность вообще отказаться от такой формулы. «Теперь, внезапно, всё это охватывает „глубинная сеть“, — сказал Аббиль.

Глубинные нейросети, популярность которых взлетела в последние годы, строятся из слоёв искусственных „нейронов“, наслоённых друг на друга, будто стопка блинов. Когда нейрон в одном из слоёв активируется, он отправляет сигналы на уровень выше, а там их отправляют ещё выше, и так далее.

Подстраивая связи между уровнями, эти сети удивительно справляются с превращением входных данных в связанные с ними выходные, даже если связь между ними кажется абстрактной. Дайте им фразу на английском, и они смогут натренироваться, переводя её на турецкий. Дайте им изображения приютов для животных, и они смогут определить, какой из них для кошек. Покажите им игровое поли, и они смогут понять вероятность выигрыша. Но обычно таким сетям сначала необходимо предоставить списки из помеченных примеров, на которых они смогут практиковаться.

Именно поэтому игра с самим собой и глубинные нейросети так хорошо сочетаются друг с другом. Самостоятельные игры выдают огромное количество сценариев, и у глубинной сети оказывается практически неограниченное количество данных для тренировки. А потом нейросеть предлагает способ усвоить опыт и закономерности, встреченные во время игры.

Но есть подвох. Чтобы такие системы выдавали полезные данные, им нужна реалистичная площадка для игр.

»Все эти игры, все эти результаты, достигались в условиях, позволявших идеально симулировать мир", — говорит Челси Финн, аспирант из Беркли, использующая ИИ для управления роботизированными руками и интерпретации данных, полученных с датчиков. Другие области не так легко имитировать.

Робомобили, к примеру, с трудом справляются с плохой погодой или с велосипедистами. Или они могут не воспринять необычные возможности, встречающиеся в реальном мире – типа птицы, летящей прямо в камеру. В случае с роботизированными руками, как говорит Финн, начальные симуляции давали базовую физику, позволявшую руке выучиться тому, как учиться. Но они не справляются с деталями прикосновений к разным поверхностям, поэтому задачи типа закручивания крышки бутылки – или проведения сложной хирургической операции – требуют опыта, полученного в реальности.

В случае проблем, которые сложно симулировать, игры с самим собой уже не будут такими полезными. «Существует большая разница между по-настоящему идеальной моделью окружения, и выученной примерной моделью, особенно когда реальность по-настоящему сложна», — написал мне Йошуа Бенджио, пионер глубинного обучения из Монреальского университета. Но у исследователей ИИ всё равно остаются способы двигаться дальше.

Жизнь после игр


Сложно точно указать начало превосходства ИИ в играх. Можно выбрать проигрыш Каспарова в шахматах, поражение Ли Седоля от виртуальных рук AlphaGo. Другим популярным вариантом будет тот день 2011 года, когда легендарный чемпион игры Jeopardy! Кен Дженнингс проиграл IBM Watson. Watson был способен обрабатывать подсказки и игру слов. «Я приветствую появление наших новых компьютерных повелителей», — написал Дженнингс под своим последним ответом.

Создавалось впечатление, что у Watson есть офисные навыки подобные тем, что люди используют для решения множества реальных задач. Он мог воспринять ввод на английском языке, обработать связанные с ним документы в мгновение ока, выудить связные кусочки информации и выбрать один наилучший ответ. Но спустя семь лет реальность продолжает ставить сложные препятствия перед ИИ. В сентябрьском отчёте по здравоохранению агентства Stat указано, что наследник Watson, специализирующийся на исследованиях раковых заболеваний и выработке персонифицированных рекомендаций для лечения Watson for Oncology, столкнулся с проблемами.

«Вопросы в игре Jeopardy! Проще обрабатывать, поскольку для этого не требуется здравый смысл», — писал Бенджио, работавший совместно с командой Watson, в ответ на просьбу сравнить два этих случая с точки зрения ИИ. «Понять медицинскую статью гораздо сложнее. Требуется провести большой объём базовых исследований».

Но пусть игры и узко специализированы, они напоминают несколько реальных задач. Исследователи из DeepMind не захотели отвечать на вопросы интервью, указав, что их работу по AlphaZero в данный момент изучают независимые специалисты. Но команда предположила, что такая технология вскоре сможет помочь исследователям биомедицины, желающим разобраться в свёртывании белков.

Для этого им необходимо разобраться с тем, как различные аминокислоты, составляющие белок, гнутся и сворачиваются в небольшую трёхмерную машину, функциональность которой зависит от её формы. Эта сложность похожа на сложность шахмат: химикам известны законы на таком уровне, чтобы достаточно грубо обсчитывать определённые сценарии, но возможных конфигураций существует столько, что провести поиск по всем возможным вариантам не получится. Но что, если сворачивание белков можно представить в виде игры? А это уже предпринимали. С 2008 года сотни тысяч людей попробовали онлайн-игру Foldit, в которой пользователям начисляются очки за стабильность и реальность свёрнутой ими белковой структуры. Машина могла бы тренироваться сходным образом, возможно, пытаясь превзойти своё предыдущее лучшее достижение при помощи обучения с подкреплением.

Обучение с подкреплением и игра с самим собой могут помочь тренировать и диалоговые системы, предполагает Сацкевер. Это может дать роботам, которые должны беседовать с людьми, шанс натренироваться в этом, разговаривая с самим собой. Учитывая, что специализированное оборудование для работы ИИ становится быстрее и доступнее, у инженеров появляется всё больше стимулов к оформлению задач в виде игр. «Думаю, что в будущем важность игры с самим собой и других способов потребления большого количества вычислительных мощностей будет возрастать», — сказал Сацкевер.

Но если итоговой целью машин ставить повторение всего, на что способен человек, то даже обобщённому чемпиону по игре в настольные игры вроде AlphaZero ещё есть, куда расти. «Необходимо обратить внимание, по крайней мере, мне это очевидно, на огромную пропасть между реальным мышлением, творческим исследованием идей и сегодняшними способностями ИИ», — говорит Джон Тененбаум, когнитивист из MTI. «Такой интеллект существует, но пока только в умах великих исследователей ИИ».

Многие другие исследователи, ощущающие шумиху вокруг их области, предлагают собственные критерии. «Я бы порекомендовал не переоценивать важность этих игр, для ИИ или для задач общего назначения. Люди не очень хорошо умеют играть в игру, — говорит Франсуа Шоле, исследователь глубинного обучения в Google. – Но имейте в виду, что с помощью даже очень простых и специализированных инструментов можно достичь многого».

Комментарии (53)


  1. dfgwer
    14.03.2018 10:44

    Интересно, у кого первым получится сделать «сильный ИИ».
    Научные центры? Военные? Рекламщики-продавцы? Биржевые игроки? Чат-боты? Зловреды?
    Я ставлю на биржевых ботов, которых научат писать статьи, делать правильные новости и фейки, предсказывать реакцию на свой труд.


    1. caveeagle
      14.03.2018 14:02

      Ставлю на военных: у АНБ гигантские массивы данных, огромные денежные ресурсы, и лучшие специалисты Америки.


    1. bro-dev
      14.03.2018 15:06

      Тут больше вопрос в определении, мы почему то ставим человеческий мозг в эталон, хотя по моему обычная программа со своими алгоритмами.


    1. EvilArcher
      14.03.2018 15:33

      Порно индустрия же.


      1. DS28
        15.03.2018 05:56

        У Пелевина в Iphuck10 даже описан вариант развития)) Но и боты там тоже есть… да и вообще ИИ силён и его много…


        1. Gryphon88
          16.03.2018 12:36

          мне больше вариант Розова нравится: интеллект очень слабый и изначально не нацелен на общение, зато включена функция домоводства с использование человеко-ориентированного оборудования. В результате падение числа браков: основные функции закрыты, а регулярно беседовать с женщинами многие мужчины не привыкли.


    1. QDeathNick
      14.03.2018 18:13

      Важно кем станет тот кто напишет «сильный ИИ».
      А то военные могут резко стать биржевыми игроками, а рекламщики — военными.


    1. Farxial2
      14.03.2018 18:29

      У ИИ.


      1. mat300
        15.03.2018 01:14

        Никто. Потому как низззяяя!
        Симулятор (Всевышний — кому как нравится) не позволит возвысится до его Высочайшего уровня.
        (не сарказм)


        1. denis64
          15.03.2018 22:17

          Вавилонская башня?


    1. perfect_genius
      16.03.2018 14:44

      Одиночек даже в мысль не берёте?


      1. dfgwer
        17.03.2018 05:10

        Да, даже не подумалось, что это может сделать одиночный исследователь.


    1. Misiam
      16.03.2018 15:39

      порно индустрию забыли. Главный двигатель прогресса во многих it-направлениях.


    1. vmarc
      16.03.2018 15:39

      Ставлю на сами ИИ, когда они начнут охотиться за накопленными «знаниями» друг-друга, чтобы стать «сильным». )


  1. cicatrix
    14.03.2018 11:06

    Чтобы оставаться на плаву в этом море возможностей, «необходимо обобщать и выделять суть»

    На это тоже можно нейросетку натренировать. На получение задачи и самостоятельное выделение критериев успеха для этой задачи.
    Ниже — нейросеть, задача которой — конструировать другие нейросети и обучать их по критериям, полученным от первой…
    То есть, получается нейросеть, конструирующая нейросети, конструирующая нейросети…
    Интересно было бы посмотреть, что из этого может получиться.


    1. SystemXFiles
      14.03.2018 11:10

      Может получиться некоторый локальный экстремум и упрется вся эта система в тупиковое русло.
      Если смогу решить проблему подобного исхода, тогда конечно будет весьма эпичное зрелище.


      1. cicatrix
        14.03.2018 11:16

        Это да, если оставить «ЭТО» бесконтрольно плодить нейросети, оно только и будет этим заниматься, «сбоку» нужен какой-то управляющий механизм (как-бы второе полушарие), чтобы они перекрёстно друг друга контролировали… а главное могли вносить корректировки в системы «наказаний и поощрений» соседа.


        1. SystemXFiles
          15.03.2018 07:16

          Согласен, что подобная система контроля нужна, но где уверенность, что она сама не будет подвержена проблеме локального экстремума?

          Просто даже человек подвержен этой проблеме, особо в ярких случаях она называется как «глаз замылился».
          Еще, например, если спросить взрослого человека, что значит это строка «одтчпшсвдд», он изрядно задумается (в большинстве случаев), в то время как ребенок достаточно быстро ответит, что это первые буквы чисел от 1 до 10.

          Если мы сможем избавить системы от подобных болячек, откроются двери перед всеми вариациями решений/знаний, которые недоступны людям по тем или иным причинам.


          1. Nubus
            15.03.2018 09:47

            Еще, например, если спросить взрослого человека, что значит это строка «одтчпшсвдд», он изрядно задумается (в большинстве случаев), в то время как ребенок достаточно быстро ответит, что это первые буквы чисел от 1 до 10.


            У ребенка просто нет того массива информации из которого можно исходить. Ваше обьяснение одно из возможных, а взрослый человек учитывает допустим обстановку, личность задающего вопрос, проводит анализ предидущего опыта, etc.


            1. SystemXFiles
              15.03.2018 11:14

              Это понятно, но суть вопроса в другом. Как вообще достаточно умную систему научить не втыкать в одно решение, а находить достаточно быстро все доступные (или их часть, главное быстрее и больше человека).
              Т.е. не быть такой тугодумной, как взрослый человек в некотором классе задач.


      1. vita1ij
        16.03.2018 15:39

        Насколько мне известно, из локальных экстремумов сейчас выходят мутациями — с маленькой вероятностью ИИ пробуют не самый эффективный метод и таким образом идут в обход. (Если не повезет, правда, на это уйдет много времени)


  1. Tatooine
    14.03.2018 11:47

    Статья на Гиктаймс от 2038 года: «Почему у реального мира есть проблемы с самообучающимся искусственным интеллектом»


    1. TrllServ
      14.03.2018 13:29

      Статья на Гиктайм от 2042 года: «Почему ИИ поставил ультиматум: прекратите войны и интриги, которые мешают или будете уничтожены?»


      1. Tatooine
        14.03.2018 14:51

        Вспоминается история про админа который сделал самообучающихся ботов для кваки, запустил сервак и отправил их сражаться. Через какое-то время обнаружил что боты не сражаются. Перезапустил сервер. Опять боты немного повоевав прекращают драться. Поковыряв логи обнаружил что боты очень быстро приходили к выводу что лучший способ победить — не воевать.
        Не знаю насколько правдоподобно. Но заставляет задуматься.


        1. Fil
          14.03.2018 16:19

          В статье не зря упомянули про целевую функцию. Возможно она была задана так, что выдавала высокие значения за сохранение жизни бота, но слабо учитывала его победы.


          1. yea
            14.03.2018 16:37

            Если предположить, что боты обучаются независимо, то дилемма заключенного не позволит им прийти к пацифистской стратегии даже при стремлении максимизировать вероятность выжить.


        1. Mad__Max
          16.03.2018 19:28

          По-моему это просто сюжет фильма Военные Игры так мутировал в чьей-то памяти.


  1. yea
    14.03.2018 13:43
    +1

    идеальная информация

    «Perfect information» может переводиться как «полная информация», и в этом случае это будет верным устоявшимся термином. Игры бывают с полной и неполной информацией.


  1. Ugrum
    14.03.2018 15:44

    Почему у самообучающегося искусственного интеллекта есть проблемы с реальным миром

    Да потому, что у самообучающегося естественного интеллекта(?), который его пытается создать, у самого с реальным миром, зачастую, всё не очень хорошо.


  1. Shadow_Man
    14.03.2018 17:48

    Наверное эта статья была бы для меня более понятно если бы я хотя бы отдалённо понимал хоть одну из игр о которых говорится в статье.


    1. pa3ot
      15.03.2018 02:05

      Начните с шахмат.


      1. WHATrushka
        16.03.2018 15:40

        Лучше с шашек, они несколько проще.


  1. Sly_tom_cat
    14.03.2018 17:58

    Точно подмечено: для того что бы натренировать человеко-подобный ИИ для начала надо сформулировать целевую функцию для существования человека… а с этим не так все просто, начнем с того, что процентов 90+% людей просто не парятся над целью своего пребывания на этой отдельно взятой планете…


    1. Farxial2
      14.03.2018 18:34

      Кстати, да.
      Но после формирования этой функции может отпасть практическая потребность в человекоподобном ИИ.


    1. Kardy
      14.03.2018 20:26

      Если не углубятся в формализацию, то все достаточно просто. Целевая функция для существования абсолютно всякого человека — «исполнение желаний», причем «своих».
      Эдакий «сам себе джин».
      Проблема в том что от роботов мы хотим совсем другого)


    1. tot418
      14.03.2018 23:46

      … начнем с того, что процентов 90+% людей просто не парятся над целью своего пребывания на этой отдельно взятой планете…

      Можно начать с продления времени на раздумывания.


      1. QDeathNick
        15.03.2018 01:25

        Чтобы увеличить машиновремя, затрачиваемое на раздумывание, можно не только уделять этому больше своего времени, но и распараллеливать на другие ядра — воспитывать детей, находить единомышленников.


    1. Turbo
      15.03.2018 16:16

      Цель, наверное, максимизировать счастье за весь отведённый промежуток времени.


      1. Sly_tom_cat
        15.03.2018 16:58

        Ага и осталась маленькая задачка — сформулировать в цифрах понятие счастья :)


        1. denis64
          15.03.2018 22:23

          Поддержание уровня цифровых аналогов дофамина, серотонина, окситоцина и пр.


        1. Gryphon88
          16.03.2018 12:38

          Кончится электродом в центре удовольствия.


      1. darkfrei
        15.03.2018 22:09

        «Мы сделаем вас счастливыми» из к/ф «Отроки во вселенной».


    1. Incidence
      15.03.2018 19:48

      Осознаваемые цели могут быть какими угодно, но бологически у нас у всех цель одна, и она, так сказать, hardcoded — размножение.


      1. Favorite101
        16.03.2018 15:40

        Размножение — это один из способов сохраниться (существовать, быть, продлиться, выжить) — либо самому, либо в виде потомков. Биологическая форма сохранения — самая надежная. Земле примерно 4.5 млрд лет, а биологической форме сохранения (т.е. жизни) 4.0 млрд лет — подавляющую часть времени существования планеты Земля на ней была биологическая/органическая жизнь.


    1. Porohovnik
      16.03.2018 15:39

      Ну вообще-то она есть у человека, как у любого другого живого существа-выжить на столько, чтобы оставить и вырастить потомство на столько, что бы она могло размножаться.На это направленны все эволюционные процессы человека.Но для ИИ не подойдёт(бонально будет только на это ресурсов тратить).По этому как и человеку, который выбрал путь духовное развитие(или жизнь для наслаждения, люди бывают разные, но для примера не очень подходит), также и ИИ должен выбрать развития себя и Науки просто ради науки.Что бы этого добиться надо вести поощрительную систему для него(без удовольствия, как и человек, он нечего не будет, так как смысла в этом не будет видеть).Причём поощрать сможет только человек(скажем сложную систему, основаную на прочтение мыслей того кто будет поощрять), так он будет нам подконтролен.


  1. Vlad_fox
    15.03.2018 12:40

    для начала надо определиться с основными понятиями той области, к которой относим термины информация, знание, умение, целеполагание.
    ибо тут такая каша, что без 100 байт не разберешься

    пока понятия сформулированы на уровне:
    информация это сведения о чем-то…
    сведения — это информация о чем-то…
    мы только и сможем, что улучшать узкие области деятельности (игру в шахматы/старкрафт), уже основательно проработанные мозгом, как в 20-ом столетии улучшили наши способности к счету, начав применять калькулятор.
    формулировать понятия идеального мира мышления- это не в доту/старкрафт/покер более лучше шпилить…


  1. numitus2
    16.03.2018 02:42

    То, что один ИИ выигрывает другой ИИ не значит, что он стал лучше. Я когда-то участвовал в соревновании по написании ИИ к игре, и сделал неплохого бота, который на определенном этапе был вторым. Потом я написал бота который выигрывал первого. Потом третьего, который выигрывал второго, но оказалось, что он стал слабее, т.е. скорее всего играя друг с другом, боты упускают большое количество стратегий.


  1. Andrey_Dolg
    16.03.2018 15:39

    Как я понял, нужно дать ии более полный контакт с миром. Ну и добавить возможность создания новых целевых функций, с возможностью выставления приоритета. А далее обучать и показывать, как и зачем их создают люди.


  1. Taras-proger
    16.03.2018 15:39

    Жалкий миллиард — это не огромное количество вариантов, а то, что получается, если слегка размыть линейный кино сценарий.


  1. ArtemBig
    16.03.2018 15:40

    Мне кажется когда создадут ИИ для реального мира он проаналезирует его, соберет чемодан с паурбанками и уедет отдыхать.


  1. phaggi
    16.03.2018 16:07

    В статье есть неточность. В частности, в ней перечислены игры и сказано, что в них надо уничтожить соперника. Среди перечисленных игр упомянута игра Го.

    Так вот: в игре Го не стоит задача уничтожить соперника. Этим она отличается от большинства остальных игр.

    Победа в игре Го — это захват чуть большей территории, чем у соперника. Разницы в пол-очка достаточно для победы.


    1. QDeathNick
      16.03.2018 18:53
      +1

      Подразумевается, что после захвата территории начинается война и живым остаётся тот, у кого больше захваченной территории. Го это только первый этап глобальной стратегии захвата мира. :)


      1. phaggi
        16.03.2018 22:01

        Простите, но это неверно. Если бы Вы уделили некоторое внимание самой стратегии игры Го, Вы бы узнали, что жадность в игре Го наказывается. Философия этой игры говорит, что невозможно забрать всё, что всегда надо отдать, чтобы получить. Это игра «зато».

        — Я отдам тебе этот угол, зато получу влияние на центр.
        — А я отдам тебе влияние на центр, зато получу темп и еще тут создам угрозу.
        — А зато я использую влияние в центре для того, чтобы уменьшить твои территории и построить большую зону в центре, чтобы если ты вторгнешься в центр, то я использую влияние, чтобы пленить вторгнувшиеся группы.

        И так далее. Нет в игре идеи о тотальной победе. Более того, в игре есть идея о красивой победе, о красивом ходе игры и о красивых постановках камней. И красивая победа, как правило, тонка и изящна.

        Более того, если настоящий, понимающий игрок Го сделает грубую, некрасивую ошибку, он расстроится не из-за проигрыша, а из-за нарушения гармонии, из-за того, что испортил красивую игру.