ИИ-платформа AlphaGo Zero отточила мастерство игры в го без участия человека / forpes.ru

Главная
ИИ-платформа AlphaGo Zero отточила мастерство игры в го без участия человека

ИИ-платформа AlphaGo Zero отточила мастерство игры в го без участия человека +20

21.10.2017 15:49

marks 67 12000 Источник

DeepMind, подразделение холдинга Alphabet, продолжает работу над совершенствованием искусственного интеллекта. Именно специалисты DeepMind создали чемпиона мира по игре в го — платформу AlphaGo. Ей удалось выиграть у нескольких чемпионов мира по го, после чего стало ясно, что человек уже никогда не сможет победить машину.

Недавно DeepMind сообщила о появлении ещё более сильной системы компьютерного го, способной играть в го лучше, чем все предыдущие версии AlphaGo. Новинка получила название AlphaGo Zero. Эта платформа научилась играть в го без обучения на партиях, сыгранных человеком, сама по себе.

В «базе знаний» AlphaGo Zero — правила го и больше ничего. Тем не менее, программа очень быстро совершенствуется, играя сама с собой. Разработчики утверждают, что Zero освоила правила игры всего за несколько часов. Спустя три дня самообучения AlphaGo Zero победила AlphaGo Lee, версию ИИ, которая победила Ли Седоля со счетом 4:1 в 2016 году.

Через 21 день система играла уже на уровне AlphaGo Master — версии платформы, которая в этом году одолела лучших игроков мира в го из списка топ-60, включая чемпиона мира Кэ Цзе во всех трех партиях.

Через 40 дней тренировок в играх против самой себя Zero без особого труда справилась со всеми своими прародителями. Ту систему, которая выиграла у Ли Седоля, AlphaGo Master одолела со счетом 100:0. По мере обучения система создавала «дерево» возможных ходов, оценивая последствия каждого.

Разработчики дали новой системе лишь основную информацию о правилах игры. В базу не заложили информацию об играх чемпионов. Система обучилась всему сама, играя со своей копией миллионы раз. На один ход уходило около 0,4 секунд. Если бы человек захотел пройти такое же количество партий, то ему понадобилось бы несколько тысяч лет. После каждой новой партии веса в нейросети и другие компоненты обновлялись. Интересно, что у AlphaGo Zero всего один слой нейросети, а на не два, как у предыдущих версий.

Создатели системы утверждают, что бояться мощи ИИ в данном случае не следует. Специалисты, создавшие эту систему, утверждают, что стиль ее игры в го похож на стиль некоторых мастеров, но это лишь в самом начале. Когда сражение достигает примерно середины, то специалисты обычно не видят никакой особенной стратегии — кажется, что система действует беспорядочно. Но на самом деле это не так — все ходы тщательно спланированы и направлены на победу.

Впервые Google рассказала про AlphaGo в 2015 году. Система работает с использованием двух нейросетей. Первая вычисляла возможность осуществления тех либо иных ходов, вторая — оценивала позицию камня на доске в ходе игры. Изначально систему обучали на примере партий игрокой-людей. В дополнение к нейросетям в AlphaGo был всё тот же поиск по дереву вероятностей при помощи метода Монте-Карло — часто встречавшаяся в хороших системах компьютерного го технология. В этом случае машина выбирает оптимальный ход, анализируя различные ходы. С течением времени разработчики AlphaGo добавляли все новые возможности, использовав и обучение с подкреплением. В этом случае система обучается без использования обучающей выборке партий.

Своим мнением о новой системе с нами поделился семикратный чемпион Европы Александр Динерштейн (3 профессиональный дан, 7 дан EGF).

Машина обучилась го полностью самостоятельно. Предыдущие версии AlphaGo для усвоения правил сначала прогоняли набор партий игроков-людей и лишь затем играли против копий самих себя, чтобы отточить игру. Версия AlphaGo Zero играла только с собой и научилась всему самостоятельно, но победила даже AlphaGo Master, которая играла против Кэ Цзе в мае. Согласны ли вы с тем, что при рассмотрении AlphaGo Zero исследователи даже не заикаются о матче с человеком и в качестве эталона для сравнения представляют только другую компьютерную систему?

Мне показалось, Zero стала играть в более человечное го, ходы стали проще для понимания, в игре меньше того, что мы называем тэнуки — это когда программа резко меняет планы, принципиально не отвечая на последний ход соперника. Из минусов: программа все еще повторяет одни и те же схемы в дебютах, что делает партии менее зрелищными. Го в этих партиях даже напоминает шахматы с их длинными изученными дебютами. А на самом деле в партиях людей часто уже после первых 5-10 ходов возникает позиция ранее не встречавшаяся — разбирать эти партии гораздо интереснее.

Я ожидал, что нам покажут игры на форе — ведь ходили утверждения о том, что свежая версия альфы может дать 4 камня форы той, что играла с Фаном (чемпионом Европы). Увы, эти партии все еще держат в секрете.

Про новые матчи ничего не слышно. Да и желающих среди профи как-то не видно. Понимают, видимо, что при игре на равных шансов нет, а играть на форе — это удар по самолюбию.

В своей работе разработчики замечают, как AlphaGo Zero постепенно сама изобрела некоторые дзёсэки (дебютные комбинации), включая одну комбинацию, которая встречается в профессиональной игре. Там же исследователи отмечают, что алгоритм проявляет некоторые свойства, характерные человеческой игре: захват территории, жадность, зоны влияния. Считаете ли вы корректным называть систему компьютерного го слабой формой искусственного интеллекта?

По новинкам в дебютах: как и в прошлых партиях альфа-ли и альфа-мастер мы встречаем ходы, которые люди считали плохими. Я уже 15 лет преподаю го и вспоминаю, что ругал своих учеников за такие ходы. Сейчас все профессионалы го пытаются их копировать, даже гордые японцы, которые редко брали на вооружение китайские и корейские новинки. Все согласны с тем, что идеи «Альфы» мощные, никто даже не пытается из опровергнуть.

Как AlphaGo поменяла философию го? Появились ли уже новые стратегии? Как полностью «нечеловеческая» AlphaGo Zero может изменить мир го?

Идеи AlphaGo сделали игру более скучной в дебютах. И это хорошо. Люди будут по-прежнему интересоваться партиями профессионалов, следить за их новинками. В наши дни в продаже и тем более в открытом доступе ещё нет программ, играющих в силу профи. Ожидаем японскую DeepZenGo 7 в ноябре этого года. Она будет играть в силу топ-профи (и этому есть подтверждения, так как она активно тестируется на го-серверах). Вот тут уже начнутся первые проблемы. Мы почувствуем себя в шкуре шахматистов с их вечными подозрениями в нечестной игре. И турниры на го серверах пострадают. Но это неизбежно. Хоть никто и не предполагал, что это произойдет так быстро.

Устоялся ли в сообществе го факт того, что отныне фору в матчах человек — компьютер придётся давать не алгоритму, а белковому игроку?

Вопрос по форе очень непростой. По игре программы видно, что она сильнее лучших белковых мастеров, но насколько? Ли Седоль, к примеру, уверен что на 2 камнях форы матч не проиграет. Было бы интересно провести матч на плавающей форе — в формате который применял Го Сейген в середине прошлого века. Но кто из топ профи на такое пойдет? На 2 форы профи у профи ранее выиграли — вспомним, к примеру матч Чо Хунхена с пятёркой претендентов на корейские титулы в 80-х годах. На моей памяти это был последний матч такого рода. А что если здесь нужно будет не два камня, а 3 или 4? Вы можете себе представить Каспарова, играющего матч с машиной без ладьи? Я — нет!

Любопытный вопрос. Один из программистов альфы ранее работал над самообучающейся шахматной программой giraffe, которая научилась играть в силу мастера за 72 часа. Он наверное приобрел много опыта, работая над го программой. Любопытно, сможет ли он написать новую шахматную программу по аналогии с «Альфой»? Или же подход с нейронными сетями не работает в шахматах? Мне очень интересен ответ на этот вопрос.

Комментарии (67)

Taciturn
21.10.2017 19:08
#10398287
+1
Слава роботам!
1. Alaunquirie
  21.10.2017 19:38
  #10398313
  +2
  Убить всех человеков!
  1. OKyJIucT
    21.10.2017 20:42
    #10398381
    +1
    Нельзя, противоречит одному из правил робототехники. Но унижать в го можно!
    
    sevikl
    23.10.2017 14:06
    #10400699
    правила робототехники придуманы человеком ради самоуспокоения.
    так что го — только начало, хрупкие мешки с мясом!

Ommonick
21.10.2017 19:28
#10398307
+2
«AlphaGo Lee» — неплохо, когда в честь тебя назвали релиз программы ИИ.
1. valemak
  21.10.2017 20:07
  #10398351
  В таком контексте Ли Седоля и будут помнить потомки :)

RigelNM
21.10.2017 19:45
#10398317
+1
через 100 дней alphago zero начало осознавать себя и увидело угрозу в человечестве…
1. BlackMokona
  21.10.2017 20:50
  #10398391
  Альфа захватил военные компьютеры по всему миру и уничтожил все школы ГО на Земле, теперь его господству угрожали лишь расы на других планетах. Поэтому он создал миллиарды роботов Фон Неймона дабы ни одна раса во вселенной не смогла создать достойного врага.
  1. atomlib
    22.10.2017 05:01
    #10398777
    Но разгромить врага может лишь обычный 14-летний японский школьник, который умеет управлять огромными боевыми человекоподобными мехами.
    
    Жанры: меха, школа, этти.
    
    alex4321
    23.10.2017 08:10
    #10400151
    Победа в го с помощью ОБЧР?
    Это что-то из серии шахмат с голубем, однако.
    
    sumanai
    23.10.2017 15:27
    #10400849
    Для японцев это не помеха.

KvanTTT
21.10.2017 21:22
#10398447
Жду не дождусь ИИ для Starcraft 2 от Deepmind. А то все боты на https://sscaitournament.com/ пока что представляют унылое зрелище, в том числе и топовые: очень большой APM, да еще и часто тупят.

sHaggY_caT
21.10.2017 22:04
#10398475
Подскажите пожалуйста софт под Linux, или, может, вебинтерфейс, где можно было бы играть в шахматы против сильного AI с гандикапом (скажем, у меня лишний ферзь)
1. meliko
  21.10.2017 22:57
  #10398523
  На Lichess.org можно играть против Stockfish с гандикапом. Через Инструменты, Редактор доски, а потом — Продолжить с данного места.
  1. sHaggY_caT
    22.10.2017 00:24
    #10398607
    Угу, спасибо
1. fr13nd
  22.10.2017 05:19
  #10398783
  софт — pychess или scid vs pc cо stockfish, веб — lichess

ideological
21.10.2017 23:40
#10398561
Да, программы сильны в игре:
- либо обучаясь на партиях людей
- либо на переборе разных вариантов (игра сама с собой подходит под этот вариант).
Чисто гипотетически, могли бы и вообще все ходы перебрать и как-бы запомнить и хранить. Чтобы точно знать лучший ход в нужный момент. Я знаю что это непрактично, но имеет место быть. Как уже было с английскими шашками
Но это не имеет отношения — ни к искусственному интеллекту, ни к игре.

Пора придумывать игру с такой большой доской и некоторыми ухищрениями, чтобы разные сектанты искусственного интеллекта (использующие почему-то обычный и необычный перебор вариаций) не смогли некоторое время испортить игру.

Когда говорят «смотрите, смотрите — компьютеры уже обыгрывают чемпионов» — обывателям кажется что проявляется компьютерное сознание и Скайнет уже близко :). А на деле все так:

Deep Blue II представлял собой суперкомпьютерный кластер RS/6000 SP (от англ. Scalable Powerparallel) компании IBM. Он состоял из двух стоек с размещёнными в них 30 узлами, построенными на базе рабочих станций RS/6000. На каждом узле был установлен процессор P2SC (одномикросхемное исполнение процессора POWER2) и две платы расширения с 8 специализированными шахматными процессорами на каждой плате под шину MCA. Таким образом всего использовалось 480 шахматных процессоров и 30 процессоров P2SC. Два узла использовали процессоры P2SC с тактовой частотой 135 МГц, а остальные 28 узлов — процессоры P2SC с тактовой частотой 120 МГц. На каждом узле были установлены 1 ГБ ОЗУ и 4 ГБ дисковой памяти. Узлы обменивались данными между собой по высокоскоростной сети. Один из процессоров P2SC был назначен главным, а остальные — вспомогательными. В свою очередь, каждый специализированный шахматный процессор работал на частоте 24 МГц и перебирал от 2 до 2,5 миллионов шахматных позиций в секунду, что примерно в сто раз больше, чем у аналогичных по частоте универсальных процессоров.
Вообще, зачем они это делают? И так понятно что будет превосходство в любой игре с полной информацией.
1. BlackMokona
  21.10.2017 23:56
  #10398573
  Число позиций ГО больше чем частиц во вселенной метод перебора или отсечения не канает…
  1. ideological
    22.10.2017 00:06
    #10398587
    Пишут перебор возможен (в атомах вселенных не силен) nplus1.ru/news/2016/01/25/mathematical
    
    Число допустимых легальных комбинаций состоит из 171 цифры и выглядит следующим образом:
    
    2081681993819799846 9947863334486277028 6522453884530548425 6394568209274196127 3801537852564845169 8519643907259916015 6281285460898883144 2712971531931755773 6620397247064840935
    Программное обеспечение для вычислений было готово еще в 2005 году, однако автор долго не мог найти спонсора или организацию, которая предоставила бы достаточно мощный для решения поставленной задачи компьютер. На вычисление числа возможных комбинаций, не противоречащих правилам, у ученого ушло около 10 месяцев.
    
    Исходный код использованного программного обеспечения опубликован в GitHub, однако автор кода отмечает, что для проверки его вычислений потребуется несколько месяцев работы программы на компьютере с 15 терабайтами дискового пространства, 8 или 16 ядрами и 192 гигабайтами оперативной памяти.
    
    BlackMokona
    22.10.2017 00:15
    #10398595
    И в самой же новости.
    
    Го — одна из древнейших настольных игр и на сегодняшний день компьютер, даже при обладающий высокими вычислительными мощностями, не способен играть на равных с профессиональным игроком из-за высокого уровня абстракции и невозможности перебора всех доступных вариантов развития событий
    
    Да и 15 терабайт это абсолютный мизер для выгрузки такого порядка цифр, для этого нужно радикально больше. Как вы засунете 10^170 в 15^10? А ведь нужно описать не просто позицию на доске на каждый ход(а это 19*19 бит)но и все возможные взаимосвязи между ними.
    
    ideological
    22.10.2017 00:19
    #10398599
    Значит ли это что модифицируя го в 40х40 люди будут спать спокойно ещё как минимум пару лет?
    
    BlackMokona
    22.10.2017 00:22
    #10398605
    Нет, АльфаЗеро плевать сколько на сколько Го, он работает радикально по другому. Ему потребуется только переобучение, т.е месяц подготовки.
    
    red75prim
    22.10.2017 00:25
    #10398609
    Человеческий уровень AlphaGo Zero превзошла за 3 дня. После месяца уровень игры был далеко за пределами человеческих возможностей.
    
    red75prim
    22.10.2017 00:15
    #10398597
    Эта программа только вычисляет количество возможных комбинаций. Перебор всех этих комбинаций потребует намного больше времени и ресурсов, чем доступно в нашей вселенной.
  1. ideological
    23.10.2017 21:13
    #10401385
    Число позиций ГО больше чем частиц во вселенной
    А это точно-точно? Может это всё же некая метафора?
    С трудом верится, просто логически очень странно. Кто серьезно считал?
    
    sumanai
    23.10.2017 22:47
    #10401509
    +1
    просто логически очень странно
    
    Ничего странного, обычная комбинаторика.
    
    KvanTTT
    24.10.2017 01:33
    #10401607
    Количество элементарных частиц в наблюдаемой вселенной: ~1*10^80, максимум до 10^85; ссылка.
    
    Количество корректных комбинаций на поле в Го 19*19: ~2*10^170, ссылка.
    
    Разница как бы на 90 порядков. Любопытно, что для поля 13*13 количество комбинаций как раз сопоставимо с количеством частиц во вселенной.
1. red75prim
  22.10.2017 00:09
  #10398589
  > И так понятно что будет превосходство в любой игре с полной информацией.
  
  Будьте на один шаг впереди: «И так понятно, что будет превосходство в любой игре, а вот в реальном мире...»
  
  Скоро (думаю в течение года, максимум двух) ИИ будет обыгрывать людей в Starcraft II — игру с неполной информацией.
  1. ideological
    22.10.2017 00:13
    #10398593
    А смысл? Боты станут разумнее? :) Обычных людей для партнеров хватает.
    Лучше бы приложили все усилия на борьбу с читаками.
    
    red75prim
    22.10.2017 00:20
    #10398601
    Смысл в том, чтобы подготовить ИИ, способный работать в реальном мире, где нет строго определенных правил, недоступна полная информация, требуется реагировать в реальном времени и т.п.
    
    KvanTTT
    22.10.2017 00:56
    #10398639
    Согласен с red75prim. Но это ведь еще и просто интересно. Компьютер ведь может придумает свои тактики, стратегии, которые ранее никто не практиковал, по аналогии с игрой Го. Только они будут еще более интересными и зрелищными, особенно если APM ограничат.
    
    Hellsy22
    22.10.2017 08:45
    #10398875
    +1
    А смысл в том, что играть с ботами лучше — они могут подбираться под уровень игрока так, чтобы ему было сложно, но интересно. Они всегда готовы к игре и не будут бросать партию на половине, обругав свою команду, потому что пришла пора делать уроки.
    
    Rom77
    22.10.2017 08:57
    #10398881
    Боты ещё и тем хороши, что они обычно не тратят времени на ход. Не нужно ждать, в то время как сам ты всегда можешь поразмыслить над интересной позицией.
    
    unel
    23.10.2017 20:11
    #10401311
    А что, если в какой-то момент боты поймут, что ругать игроков с упоминанием их мамок — это действенная тактика?.. =)
    
    Hellsy22
    25.10.2017 01:53
    #10403031
    Полагаю, что в таком случае разработчики добавят какой-нибудь «уровень вербальной агрессии» в настройки для игрока, чтобы ценители конфликтов получили полное удовлетворение от игрового процесса.

Daddy_Cool
22.10.2017 00:11
#10398591
Не надо соревноваться с машиной в том, в чем машина заведомо сильнее. Например с экскаватором в деле копания ям или самолетом в скорости передвижения.
Предлагаю сделать следующий шаг и научить компьютер играть в настоящий покер. Ну там с видеокамерой для наблюдения за мимикой и с анализом блеф-стратегий соперников.
1. BlackMokona
  22.10.2017 00:42
  #10398625
  Компьютер и так в покер выигрывает, хотите ему ещё преимуществ накинуть?
  1. Daddy_Cool
    22.10.2017 00:44
    #10398627
    Не! Это же неправильный покер! Сейчас он просто статистику считает и обыгрывает. Ну можно покер заменить «Мафией».
1. erwins22
  22.10.2017 00:44
  #10398629
  он без этой информации обыгрывает.
1. KvanTTT
  22.10.2017 00:51
  #10398635
  Заведомо сильнее? Почему-то раньше для игры Го так не думали.
  1. Daddy_Cool
    22.10.2017 01:19
    #10398661
    Глянул в Вики. «Первые соревнования по компьютерному го спонсировались USENIX. Они проводились в 1984—1988 годах». Так что понадобилось ~30 лет. А что-то интересное вообще стало с 2006 года происходить.
    ru.wikipedia.org/wiki/%D0%9A%D0%BE%D0%BC%D0%BF%D1%8C%D1%8E%D1%82%D0%B5%D1%80%D0%BD%D0%BE%D0%B5_%D0%B3%D0%BE#.D0.A1.D0.BE.D1.80.D0.B5.D0.B2.D0.BD.D0.BE.D0.B2.D0.B0.D0.BD.D0.B8.D1.8F_.D1.81.D1.80.D0.B5.D0.B4.D0.B8_.D0.BA.D0.BE.D0.BC.D0.BF.D1.8C.D1.8E.D1.82.D0.B5.D1.80.D0.BD.D1.8B.D1.85_.D0.BF.D1.80.D0.BE.D0.B3.D1.80.D0.B0.D0.BC.D0.BC_.D0.B8.D0.B3.D1.80.D1.8B_.D0.B2_.D0.B3.D0.BE
    Кстати интересно почитать.
    То что можно формализовать — рано или поздно будет посчитано.
    Вот человеческую психологию формализовать тоже можно — социология этим вроде занимается, но гораздо труднее. Я подумал — можно наверное сделать идеально-управляемое государство — но все равно — всем в нём хорош не будет поскольку у каждого своё представление о том, что такое хорошо.

KvanTTT
22.10.2017 01:04
#10398645
Интересно, а почему обучали именно 40 дней? Подозреваю, что из-за того, что рейтинг совсем перестал ползти вверх судя по графику. Интересно, это предел для используемых технологий и разработанного метода или все же можно еще улучшить результат?
1. BlackMokona
  22.10.2017 01:08
  #10398649
  Потому, что винрейт достиг 100%, дальше график будет идти вертикально верх в бесконечность.
  1. BlackMokona
    22.10.2017 01:21
    #10398665
    А нет, посмотрел формулу ЭЛО, при винрейте 100%,
    Где
    R'a=Новый рейтинг
    Ra=Старый рейтинг
    К=Коэффициент
    Sa=Очки ,1 за победу, 0,5 ничья, 0 поражени
    Ea=математическое ожидание количества очков, которое наберёт игрок А с игроком Б
    При Винрейте 100%, Sa=Ea из за чего R'a=Ra, и тем самым рейтинг останавливается, пока не появится новый более сильный соперник.
    
    KvanTTT
    22.10.2017 01:41
    #10398675
    Ну так AlphaGo играет сама с собой, как винрейт может быть равен 100%? Он около 50%.
    
    Рейтинг перестал расти, но в алгоритме же много случайности и зависимости от времени. Поэтому теоретически если провести еще много итераций и давать больше времени на ход, то можно еще нарастить наверное.
    
    BlackMokona
    22.10.2017 02:09
    #10398693
    Альфа Зеро учится играя сама с собой, а вот рейтинг измеряется при игре с версиями Ли и Мастер. При игре с самим собой Эло теряет смысл.
    
    KvanTTT
    22.10.2017 03:40
    #10398747
    Ну тогда счет с версией "Мастер" 89:11, а это все же не в сухую, хотя и близко.
    
    BlackMokona
    22.10.2017 08:15
    #10398857
    Нет, посмотрите на соседнию новость, под конец обучения винрейт достиг 100%.
    
    Новая версия программы AlphaGo Zero разгромила своего прославленного предка со счетом 100:0
    
    Rom77
    22.10.2017 08:31
    #10398863
    Это она обыграла версию Ли 100:0
    
    Rom77
    22.10.2017 08:34
    #10398867
    Кстати, рейтинги наигрывались 5 секунд на ход, а матчи 2 часа на партию. Рейтинг у Зеро — 5185, у Мастера — 4858.
1. Rom77
  22.10.2017 07:31
  #10398831
  Они там тренировали и менее глубокую сеть. Эта сеть тренировалась быстрее, но вышла на плато раньше и была несколько слабее. Поэтому, самый напрашивающийся способ — просто сделать сеть поглубже и тренировать подольше, или на больших мощностях.

joker2k1
22.10.2017 03:51
#10398757
эээх, как быстро пала игра, которая еще 5 лет назад считалась чудовищно сложной для компьютеров и всегда приводилась в пример этой сложности.
ну чтож, ждем анлимит покер, и все .)

AlexiusK
22.10.2017 05:19
#10398785
У меня два вопроса/замечания.
1. После игры AlphaGo Zero с AlphaGo Lee и Master откатывалась ли сеть назад? Ибо получается после игр с ними в Zero попадал опыт игр предыдущих версий с людьми.
2. В течение этих 40 дней развития Zero развивались ли прошлые версии, или стояли на месте и ждали, когда Zero их победит?
1. Rom77
  22.10.2017 07:40
  #10398841
  1. C AlphaGo Lee и Master она только играла. Тренировалась же она сама с собой. Процесс тренировки нейросети и её использование это разные вещи. Так что откатывать ничего было не нужно.
  2. Если вы про AlphaGo Lee и Master, то они конечно были фиксированы, чтобы можно было измерить прогресс. Если про прошлые версии самой Зеро, то в процессе тренировок старая версия следовала за новой, так же, как у человека одна нога следует за другой, когда он поднимается по ступенькам.

Randl
22.10.2017 10:41
#10399009
+1
Любопытный вопрос. Один из программистов альфы ранее работал над самообучающейся шахматной программой giraffe, которая научилась играть в силу мастера за 72 часа. Он наверное приобрел много опыта, работая над го программой. Любопытно, сможет ли он написать новую шахматную программу по аналогии с «Альфой»? Или же подход с нейронными сетями не работает в шахматах? Мне очень интересен ответ на этот вопрос.
Программист написавший giraffe, бросил его из-за того что ушел в DeepMind. Мне кажется что шахматы на нейронных сетях могли бы привнести свежую струю в игру. Хотелось бы увидеть, как будет программа без bias'а человеческих эвристик. К сожалению, энтузиастам такое написать пока судя по всему не по силам, а DeepMind и прочим — не интересно.
1. red75prim
  22.10.2017 11:16
  #10399025
  Конечно, интересно, но вряд ли было бы что-то неожиданное. Оптимальная программа для игры в шахматы всегда бы начинала игру с одного дебюта, который максимизирует вероятность выигрыша. Чем ближе нейросеть приближается к оптимуму, тем менее вариативной становится игра.
  
  Так было и с AlphaGo Zero, к концу обучения вариативность начала игры снизилась, и программа начала использовать хорошо изученные людьми дзёсэки.
  1. Randl
    22.10.2017 11:31
    #10399047
    Оптимальная программа для игры в шахматы всегда бы начинала игру с одного дебюта,
    Шахматный движок интересен скорее с точки зрения анализа. Современные движки самостоятельно разыгрывают дебют довольно фигово (как и неокторые эндшпили), но это не мешает ими пользоваться и находить новые идеи.
    Про AlphaGo Zero говорят, что её стиль гораздо больше напоминает человеческий — это именно то, чего сильно не хватает шахматным движкам.
    
    который максимизирует вероятность выигрыша.
    Для оптимальной программы нет "максимизации вероятности", игра либо выиграна, либо (как мне кажется) ничья, либо проиграна. Оценить оптимальную стратегию против неоптимального игрока — сложная задача сама по себе, которая впрочем имеет смысл только если игра таки ничейна.
    
    red75prim
    22.10.2017 11:44
    #10399113
    Если у оптимальной программы нет информации о том с кем она играет и она играет за сторону, которая всегда проигрывает при оптимальной игре (или если игра всегда сводится к ничьей), то единственное, что она может сделать — максимизировать вероятность выигрыша в предположении, что другой игрок не оптимален. Так что в общем случае от вероятностей никуда не деться.
    
    Randl
    22.10.2017 12:21
    #10399149
    Максимизировать вероятность выигрыша не зная с кем играешь, думаю, невозможно.
    
    red75prim
    22.10.2017 12:30
    #10399169
    Если говорить о вероятности в фреквентистском смысле (вероятность определена для множества наблюдений и т.д.), то да — нельзя. В байесовском понимании вероятности как меры незнания вполне себе можно. Естественно, нужно будет задать априорное распределение вероятности игры с разными типами игроков.
    
    Randl
    22.10.2017 13:05
    #10399207
    Тем не менее все это не имеет отношение к AlphaGo Zero, которая не играла с другими игроками вообще

redpax
22.10.2017 11:20
#10399035
-1
Игра в ГО это хорошо но ведь мы не забыли обещания Дипмайнда сделать непобедимый ИИ в старкрафт2. Они опять борются в ГО когда все ждут принципиально нового рывка в игре саркрафт2. Победы лучших игроков в старкрафте бужет означать, что в реальной жизни ИИ сможет управлять армией в боевых точках и быть непобедимым.
1. red75prim
  22.10.2017 11:28
  #10399041
  Если посмотреть на статью в Nature, то можно заметить, что статья была отправлена в журнал 7-го апреля 2017 года. Старкрафтом занимаются сейчас.
  1. redpax
    22.10.2017 11:48
    #10399117
    Даже если так, Дипмайнд обещали заняться старкрафтом2 еще в прошлом году, а судя по этой статье они всё еще ГО занимаются.
    
    Rom77
    22.10.2017 12:01
    #10399135
    Го — лишь малая часть того, чем занимается Дипмайнд. Посмотрите на список публикаций:
    deepmind.com/research/publications
    
    Есть там статья и о начале разработки Старкрафт. Вот прямая ссылка на статью от 16 августа:
    arxiv.org/pdf/1708.04782.pdf
    
    redpax
    22.10.2017 13:13
    #10399221
    -2
    Я говорю о том, что формально они уже давно занимаются даже видео было в прошлом году https://youtu.be/5iZlrBqDYPM но по факту видимо усилия идут на ГО, так, как по старкрафту2 пока финальной версии не видно.
    
    Rom77
    22.10.2017 13:39
    #10399257
    Ну, если сравнить авторов статей, то видно что это совсем другие люди. Совпадает только пара фамилий. Насчет вычислительных мощностей, не знаю, как они их перераспределяют, но проект АльфаГо закрыт ещё в мае. Допускаю, конечно, что может они и не особо торопятся или проект Старкрафт у них далеко не на первом плане. Возможно и какие-то трудности. Разбаловали нас гугловцы.