Василиск Роко: задачка по теории игр или страшное и неизбежное будущее? / forpes.ru

Главная
Василиск Роко: задачка по теории игр или страшное и неизбежное будущее?

Василиск Роко: задачка по теории игр или страшное и неизбежное будущее? +21

28.04.2023 21:50

NechkaP 118 8600 Источник

А также — причём тут история знакомства Илона Маска с Grimes.

Сегодня я наткнулась на статью в Википедии о Василиске Роко и удивилась как минимум двум вещам: во-первых, что в нашу эпоху постоянных обсуждений перспектив развития искусственного интеллекта и связанных с этим страхов о нём почти не вспоминают на просторах интернета, а во-вторых, что на Хабре до сих пор нет ничего в поиске по такому запросу (а что, если все упоминания просто удалены в начале 2010-х? Но об этом ниже)

Немного о мысленных экспериментах в целом

Согласно Википедии, мысленный эксперимент — это вид познавательной деятельности, в которой ключевая для той или иной научной теории ситуация разыгрывается не в реальном эксперименте, а в воображении. Такие рассуждения используются в биологии, физике, философии и некоторых других областях. Мысленный эксперимент в физике зачастую напоминает доказательство теоремы методом от противного в математике, когда некоторое положение физической модели или схемы сначала отвергается, а затем путём преобразования модели мы приходим к противоречию с тем или иным принципом, который считается безусловно истинным.

Примеры известных мысленных экспериментов:

Кот Шрёдингера — так как кошка не может быть живой и мёртвой одновременно, то реальность действительно «размазана» в соответствии с волновой функцией.
Демон Дарвина — гипотетический организм, который может максимально использовать все аспекты приспособленности одновременно и существовал бы, если б эволюция видов была ничем не ограничена.
Китайская комната, цель которой состоит в опровержении утверждения, что цифровая машина, наделённая «искусственным интеллектом» путём её программирования определённым образом, способна обладать сознанием в том же смысле, в котором им обладает человек.
Пари Паскаля — предложенный еще в середине XVII века математиком и философом Блезом Паскалем аргумент для демонстрации рациональности религиозной веры.

Пари Паскаля

На последнем остановимся подробнее. Блез Паскаль формулирует задачу из области теории принятия решений как религиозный вопрос:

Бог есть или нет. На которую сторону мы склонимся? Разум тут ничего решить не может. Нас разделяет бесконечный хаос. На краю этой бесконечности разыгрывается игра, исход которой неизвестен. На что вы будете ставить?

Теория игр получила развитие в основном лишь в XX веке, но уже Паскаль предлагает максимизировать ожидание выигрыша по примерно такой таблице исходов:

	Бог существует	Бог не существует
Верить	$+\infty$ (спасение души)	(некие конечные издержки от соблюдения канонов веры)
Не верить	$- \infty$ (вечные муки)	(экономия конечных издержки от соблюдения канонов веры)

Таким образом, обозначив за $p \in (0, 1)$ вероятность существования Бога, в любом случае получаем, что выигрыши в случае отсутствия Бога конечны, а выигрыш/проигрыш в случае его существования бесконечен. То есть выгодно выбирать стратегию веры.

Естественно, такие рассуждения подвергались критике со стороны многих других философов. Например, Вольтер счёл такое рассуждение неуместной и детской попыткой доказать существование Бога. Но на самом деле сам Паскаль не считал это целью пари, а подавал его как неизбежное для каждого человека прагматическое решение (ведь под верой в данном случае понимался скорее просто безгрешный образ жизни, который в такой постановке задачи выгодно вести и атеисту).

Откуда взялся Василиск?

Идея василиска как воплощения мифического опасного для человечества искусственного интеллекта была предложена в 2010 году на форуме LessWrong Элиезера Юдковского участником под ником Roko.

Согласно эксперименту, Василиск — будущий могущественный недоброжелательный искусственный интеллект, который захочет наказать тех, кто в прошлом знал о возможности его появления, но не способствовал его созданию. Сам факт этого знания подвергает человека риску наказания, а распространение этой информации таким образом оказывается опасным для человечества в целом.

На первый взгляд постановка проблемы достаточно сильно напоминает пари Паскаля, и надо просто выбирать вариант с сотрудничеством. Но проблема в том, что именно такие действия приближают появление Василиска. А ещё в том, что каждый, кто узнал об этом, теперь не имеет выбора. И именно в этом видится настоящая угроза человечеству.

Увидев эту ветку форума, сам Юдковский отреагировал весьма резко и с ужасом:

Вы, должно быть, умны, раз пришли к такой мысли. Однако меня печалит, что люди, которые достаточно умны, чтобы представить себе такое, недостаточно сообразительны, чтобы ДЕРЖАТЬ СВОЙ ДУРАЦКИЙ ЯЗЫК ЗА ЗУБАМИ и никому не говорить об этом, так как это важнее, чем показать себя умным, рассказывая об этом всем своим друзьям.

До 2015 года обсуждение Василиска Роко было запрещено на LessWrong (но интернет всё помнит). А в 2015 Юдковский высказался об этой ситуации на Reddit:

Я посчитал очевидным проявлением здравого смысла прекращение распространения потенциальной информационной угрозы, потому что это отвратительная вещь, которую можно сделать. Проблема не в самом посте Roko, эта мысль даже не приходила мне в голову. Проблема в том, что этот пост показался слишком близким к множеству возможных угроз, которые, несмотря на правдоподобие, никому бы не принесли добра.

Василиск Роко и теория игр

Как мы выяснили, пари Паскаля не совсем точно моделирует проблему Василиска Роко. Поэтому рассмотрим еще и так называемый парадокс Ньюкома.

Пусть перед игроком стоят две коробки — открытая и закрытая. В открытой коробке находится тысяча долларов, в закрытой — либо миллион долларов, либо ничего. Игрок может взять себе или только закрытую коробку, или обе коробки вместе.

Содержимое коробки зависит от предсказателя:

Если он предскажет, что игрок выберет обе коробки, то закрытая коробка будет пустой
Если предсказывается, что игрок выберет закрытую коробку, то коробка будет содержать миллион долларов.

Игроку известны все условия игры, но не известно главное — какое именно из двух предсказаний сделано. Какую коробку следует выбрать игроку, чтобы получить наибольшую сумму?

Распишем матрицу выигрышей:

	Предсказано, что игрок возьмёт обе коробки	Предсказано, что игрок возьмёт только закрытую коробку
Взять обе коробки	1000$	1001000$
Взять закрытую коробку	0$	1000000$

С одной стороны, если считать, что предсказатель может ошибаться, то всегда выгоднее выбрать обе коробки. С другой стороны, если считать, что предсказание безошибочно, то выбор остается между вариантами 1000$ в обеих коробках и 1000000$ в закрытой коробке, а значит, надо брать только закрытую коробку.

Вернемся к Василиску Роко и переформулируем задачу. Если Василиск — это тот самый предсказатель, который знает, что вы выберете «закрытую коробку» и не станете помогать его приходу, то когда-нибудь накажет вас по максимуму. Если же он предсказывает, что вы выберете обе «коробки» (то есть посвятите свою жизнь его созданию), то страданий можно будет избежать, даже продолжая жить обычной жизнью.

Так ли страшен Василиск Роко, как его малюют?

Если задать запрос в поисковике, то на сайтах для широкой аудитории Василиска Роко называют самым чудовищным мысленным экспериментом, а в дисклеймерах предупреждают, что контент незабываемый, и слабонервным лучше не читать.

На самом деле, сама по себе данная идея не страшнее остальных возможных опасностей от сильного искусственного интеллекта в целом, а обсуждают их, прямо скажем, очень много и везде в последние месяцы.

С одной стороны, почему искусственный интеллект обязательно окажется враждебно настроен к человечеству? С другой стороны, а почему нет? И так со всеми возникающими вопросами — проблема в том, что никто не может достоверно оценить, что действительно нас ожидает. Василиск Роко также даёт хорошую почву для размышлений о проблемах выбора между более эгоистичным поведением (начать помогать появлению Василиска) и более социально осознанным (не содействовать в этом, но пострадать, если другие создадут Василиска).

Как и 13 лет назад, Элиезер Юдковский относится к тем, кто выступает за осторожность в вопросах развития ИИ. Это можно понять, ведь современные модели и темпы, с которыми появляются новые технологии искусственного интеллекта, действительно заставляют задаваться вопросами, что нас ждет уже в обозримом будущем, в отличие от гипотетического «василиска». Но рассуждать об этом в данном посте я не буду, так как не чувствую себя достаточно компетентной, а дискуссий и мнений на Хабре уже достаточно. В любом случае, я очень сомневаюсь, что запреты на обсуждение таких вещей могут помочь.

А причём тут бывшая жена Илона Маска?

Хотелось завершить пост на позитивной ноте, и вот забавный факт: оказывается, в свое время Илон Маск придумал шутку-игру слов: Rococo Basilisk. Но певица Grimes придумала её еще раньше, в 2015 году: в своём клипе она появляется в образах нескольких персонажей, одного из которых зовут именно так. Эта не очень понятная для большинства отсылка и послужила поводом для начала общения :)