Рецензия на книгу: If Anyone Builds It, Everyone Dies / forpes.ru

Главная
Рецензия на книгу: If Anyone Builds It, Everyone Dies

Рецензия на книгу: If Anyone Builds It, Everyone Dies +5

12.09.2025 11:09

ngram 3 1200 Источник

Machine Intelligence Research Institute (MIRI) Элиезера Юдковского — первая организация в области безопасности ИИ. Но «первый» не всегда значит «лучший» — как там поживает Месопотамия? Пока в эту область вливаются деньги, мозги и престиж, MIRI остаётся собой — группой слабо организованных чудаков, одного из которых никак не удаётся отговорить носить на публике цилиндр с блёстками. Поэтому, когда в прошлом году я занимался распределением грантов в области ИИ, я спросил их: почему финансировать именно вас, а не ребят с армией восторженных выпускников Гарварда — или не тех, кто только что пригласил Джеффри Хинтона в качестве «медийного лица»? Что у вас есть такого, чего нет у них?

MIRI ответили: моральная ясность.

Большинство людей в «безопасности ИИ» (я в их числе) сомневаются и путаются, ищут наименее плохие постепенные решения. Мы думаем, что ИИ, скорее всего, станет увлекательной и преобразующей технологией, но есть риск — 5, 15 или 30 процентов — что он обернётся против человечества катастрофой. Или, если не так, то будет что‑то менее катастрофическое, но всё равно неприятное — например, человечество постепенно отойдёт на второй план, как в своё время отодвинулись на задний план короли и знать. Это страшно, но ИИ всё равно придёт, хотим мы того или нет, и у чрезмерной задержки тоже могут быть риски. Мы не уверены, что делать, поэтому пока строим основу, чтобы уметь реагировать на будущие угрозы. Это значит — добиваться от ИИ‑компаний честности и прозрачности, помогать ответственным игрокам вроде Anthropic оставаться в гонке, вкладываться в понимание структуры целей ИИ и того, как ИИ интерпретируют наши указания. Потом, в какой‑то момент, мы подойдём достаточно близко к действительно опасному ИИ, лучше поймём модель угроз, получим общественную поддержку и решим, что делать дальше.

MIRI считают это жалким — как защищаться от падения астероида каской. Они не слишком охотно называют свою оценку вероятности вымирания от ИИ, но похоже, это где‑то 95–99%. Они думают, что даже реалистичные улучшения корпоративной ответственности, качества регулирования и академических исследований — на порядки слабее нужного, и не рассчитывают на достаточно громкий «предупредительный выстрел», чтобы спокойно отложить решение на потом до момента, когда всё станет предельно ясно и действовать будет легко. Их рецепт — немедленно запретить все исследования по наращиванию возможностей ИИ и вернуться к ним только в далёком будущем, когда ситуация будет выглядеть лучше.

Обе стороны искренне верят в своё и не хотят сглаживать послание ради пиара. Но обе — по совпадению — считают, что их послание лучше для пиара. Сторонники постепенного подхода думают, что умеренно‑осторожный подход не сжигает мосты с университетами, индустрией, правительствами и другими игроками, которым нравятся обычные гладковыбритые собеседники, которые не брызжут слюной при разговоре. MIRI думают, что публике надоела выхолощенная словесная жвачка из фокус‑групп, и она готова подняться против ИИ, если услышит прямую и недвусмысленную позицию.

Теперь Юдковский и его соавтор, президент MIRI Нейт Соарес, довели недвусмысленность до новых высот своей новой книгой If Anyone Builds It, Everyone Dies (выходит 16 сентября; предзаказ открыт).

Это конвергентная эволюция?

У IABIED три части. Первая объясняет основной аргумент о том, почему ИИ опасен. Вторая — это конкретная история в жанре научной фантастики о том, как может случиться катастрофа, с оговорками: это лишь пример, никто не знает наверняка. Третья — что делать дальше.

II.

Нужен ли миру ещё один текст в духе «почему ИИ может быть опасен»?

С одной стороны — да. Если вы привыкли поглощать информацию, вы не представляете, как мало знает широкая публика (знали ли вы, что 66% американцев никогда не пользовались ChatGPT, а 20% даже не слышали о нём?). Большинство людей об этом почти ничего не знают.

Даже те, кто «знают аргументы», обычно слышали пару обрывков, как «все знают» про Одиссею, но лишь несколько процентов читали хотя бы строку оригинала. Так что да, показать десяткам тысяч людей несколько глав с ключевыми аргументами — полезно. Многие из вас, читателей, вероятно, в этой категории; будь я ответственнее, я бы пересказал всё подробно прямо здесь.

И всё же мне это не даётся — скучно и бессмысленно. Почему?

Основной аргумент об опасности ИИ прост. Мы не очень умеем задавать ИИ конкретные цели; пока мы по ходу добавляли поверхностные склонности к послушанию, надеясь, что он ещё достаточно глуп и ошибки не критичны. Но ИИ быстро умнеет. В какой‑то момент он, возможно, окажется умнее людей. Наше преимущество интеллекта позволило нам вытеснить шимпанзе и других животных глупее нас; возможно, ИИ в итоге вытеснит нас.

На это есть разумный ответ. Он возражает против цепочки допущений, каждое из которых может не сработать — или растянуться по времени. Если с вероятностью X% сверхчеловеческий ИИ появится через N лет, с вероятностью Y% распространится по экономике за P лет, а с вероятностью Z% за Q лет преодолеет унаследованное преимущество людей и станет сильнее нас — вполне можно прикинуть, что «опасная точка» — через век и позже. За век, возможно, появится лучшая техника выравнивания — или хотя бы яснее станет проблема. Зачем волноваться о вещах, которые могут и не случиться через сто лет?

Проблема в том, что сложно подобрать вероятности так, чтобы не оставить хотя бы 5–10% на полный кошмар в ближайшее десятилетие. Нужно быть странной смесью очень хорошего владения вероятностями (чтобы навесить достаточно «эпициклов» и обезвредить этот аргумент) и очень плохого владения вероятностями (чтобы захотеть это делать).

Немного людей попадают в эту «золотую середину» вероятностной (не)компетентности. Остальные прибегают к совершенно безумной псевдологике.

Кто‑то приводит пример неудавшегося прогноза — как будто это доказывает, что все прогнозы всегда проваливаются — и теряется, если напомнить, что другие прогнозы сбывались.

Кто‑то говорит: «Вот одно хитрое математическое утверждение доказывает, что истинный интеллект невозможен», — и не объясняет, почему это утверждение не запрещает существование людей.

Кто‑то говорит: «Нельзя предполагать катастрофу, уничтожающую человечество, ведь такого ещё не было, а ничего не бывает в первый раз». Потом тут же впадает в панику по поводу глобального потепления или падения рождаемости — чего угодно.

Кто‑то говорит: «Настоящая опасность не сверхразумный ИИ, а X!» — хотя опасность легко может быть и в сверхразумном ИИ, и в X. Под X может быть всё — от ближнесрочного ИИ и злоупотреблений ИИ людьми до обогащения техноолигархов, а то и вообще не связанные вещи вроде климата или расизма. Опьянев от дешёвой риторики, люди решают, что если показать опасность X, то можно не доказывать, что сверхразумный ИИ не опасен.

Кто‑то говорит: «Нельзя говорить, что может случиться плохое, если нет точной математической модели, когда и почему». А потом заявляет, что его беспокоит закрепление предвзятостей ИИ или эрозия доверия — без всяких точных моделей.

Аргументов против любого тезиса — немного. Зато способов произнести совершенно безумный аргумент — бесконечно. «Кальвин Кулидж был Папой, значит ваша позиция неверна» — как заранее защититься от такого? Никак. Нельзя предсказать, какую именно нелепость скажет собеседник, а если начнёшь перечислять и парировать все возможные нелепости, сам зазвучишь как лунатик. Остаётся сдаться — или, как сделал Элиезер, на несколько лет уйти и прочитать базовый курс эпистемологии.

Почему дискуссии идут так плохо? Я обычно против психоанализа оппонентов, но попрошу прощения у рационалистских святых и выдвину теорию.

Думаю, причина в том, что если это правда, то это меняет всё. Но это не очевидная правда, и было бы неудобно, если бы она меняла всё. Значит, этого не может быть.

И раз уж большинство не хочет произнести эту короткую формулу, они ищут в пространстве рассуждений что‑то похожее и приходят к «вам нужно математически доказать каждую деталь».

Чтобы не звучать снисходительно, отмечу: я сам ловлю себя на таком мышлении. Ближайшие примеры:

Кто‑то утверждает, что у человека падает число сперматозоидов и через ~20 лет оно станет настолько низким, что люди не смогут зачать естественно. Если это правда, это меняет всё, и нужно бросать прочее и разбираться (подробнее здесь). Но это неудобно. Значит, скорее всего, это не так — или можно отложить на потом.
Кто‑то утверждает, что помимо обычных минусов глобального потепления есть причина, почему климат внезапно станет совсем плохим. Остановится важное течение, метан выйдет самопроизвольно, начнётся «разгон», тающий лёд выпустит древние чумы (доказательства за и против последнего я обсуждаю здесь). Если это правда, это меняет всё, и вместо медленной декарбонизации нужен план чрезвычайных действий. Но это неудобно.
Кто‑то утверждает, что рождаемость рушится, и через десятилетия молодых будет недостаточно, чтобы содержать пожилых, а через века под угрозой само существование цивилизации. Если это правда, это меняет всё — и нужно либо что‑то очень социалистическое, либо очень реакционное (по политическим вкусам автора тезиса). Но это неудобно (смотря по вашим вкусам).
Кто‑то утверждает, что умирают пчёлы — растения не будут опылены — и рухнет сельское хозяйство. Другие говорят, что вымирают все насекомые — рухнет цепочка питания и расшатается биосфера. С пчёлами пока стабильно; с остальными насекомыми — открытый вопрос. Но это открытый вопрос, который заставит занять жёсткую позицию по методике «учёта жуков», иначе рискуем расшатать биосферу. И это неудобно.
Кто‑то утверждает, что нелюбимая политическая идеология (уокизм, массовая иммиграция, MAGA, ползучий социализм, технофеодализм и т. п.) вот‑вот разрушит основы либерального общества навсегда; обычной мобилизации недостаточно, нужны отчаянные меры — от нелиберального государства до вооружённого восстания. Если это правда, это меняет всё. Но это не очевидно, и ломать эпоху мира/процветания/демократии неудобно.

У каждого сценария есть массив работ «за» и «против». Но нам, не экспертам предметной области, всё равно нужно решать — паниковать ли и требовать ли резкой смены курса. Мы вряд ли прочтём весь спор и выйдем с уверенной, хорошо обоснованной позицией «это точно неправда». Что делать? Особенно если сторонники каждой угрозы говорят, что трудно быть увереннее, чем на 90% в их неправоте, и что уже 5–10% риска оправдывают панику и разворот всего курса?

На практике мы пожимаем плечами: риска недостаточно, чтобы «менять всё», будем бдительно наблюдать и, может быть, поменяем мнение, если появятся более твёрдые данные. Если требуют обосновать эту странную позицию, «продвинутые» строят продвинутые вероятностные модели (или апеллируют к «внешнему взгляду» (outside view), как я сейчас), «непродвинутые» нащупывают объяснение своего безразличия и приходят к безумным доводам вроде «нельзя говорить, что что‑то уничтожит человечество» или «нельзя утверждать без математического доказательства».

Два слова в защиту этой стратегии:

Во‑первых, без неё мы десятки раз «меняли бы всё», чтобы предотвратить катастрофы, которые так и не случились. Самый ясный пример — перенаселение, где мы действительно насильственно стерилизовали миллионы людей — и уж по‑настоящему серьёзный глобальный ответ был бы на порядки хуже.

Во‑вторых, иногда так мы входим в катастрофу во сне — и эксперты всё время уверяют нас, что «всё нормально, потому что „безумные доводы“». Самый ясный пример — период, когда COVID был только в Китае: было очевидно, что этот крайне заразный вирус, прорвавший все правдоподобные контуры сдерживания, запустит глобальную пандемию; но СМИ продолжали уверять, что это «спекуляции», или что «нет доказательств», или что тревога отвлечёт от реальных ближнесрочных проблем уже сейчас — например, от ксенофобии против китайцев. Когда же COVID дошёл до США, нас застало врасплох — и началась паника.

Значит, убедительный ход здесь — это не столько пересказ аргументов про рост возможностей ИИ и сложность выравнивания, сколько защита позиции «когда общую эвристику против «спекулятивных рисков» не стоит применять». Можно спорить, верна ли эвристика вообще, или же в целом верна, но уместна для падения рождаемости и вымирания насекомых, а здесь — нет.

Единой «убойной» фразы, думаю, нет. Здесь нужна практическая мудрость — та же добродетель, что подсказывает: не звонить 112 из‑за лёгкой боли в пальце ноги, но звонить, если из глаз вдруг пошла кровь. Люди с практической мудростью игнорируют сомнительное, решительно отвечают на важное и при сомнении склоняются к осторожности. Опираясь на свой ограниченный запас, я бы сказал, что мы недовкладываемся в предотвращение апокалипсисов вообще (проблема реакции на перенаселение была в её насилии и нелиберальности, а не в самой попытке готовиться к видимой угрозе), и что с ИИ поводов для тревоги больше, чем, скажем, со снижением числа сперматозоидов. И ещё — характер проблемы (мы призываем сверхразум, который легко нас обставит) заставляет действовать превентивно, а не реагировать постфактум.

Для симметрии — представим скептика, который «психоанализирует» меня. Он скажет: Скотт, ты узнал про ИИ в двадцать с чем‑то. Каждому двадцатилетнему нужен «крестовый поход» по спасению мира. Выбрав ИИ, ты избежал участи стать климатическим «думером» или человеком с очень «уок» взглядами — это же милость. Но ты уже не юн, у тебя есть свой «поход», и начинать второй неудобно. Поэтому, услышав, как мы все умрём от падения сперматозоидов, ты читаешь неглубоко и говоришь: «не стоит волноваться». Это нормально и бережёт психику — но подумай о тех, кто уже не двадцатилетний и делает так же с ИИ.

III.

Если всё это звучит расплывчато, согласен — оттого я и скучный умеренный с p(doom) ниже 25% и нормальными отношениями с ИИ‑компаниями. Лучше ли справляется IABIED?

Не уверен. В основном они идут по стандартной линии рассуждений, как я изложил выше, хотя — неудивительно, учитывая Элиезера — написано лучше и с милыми притчами:

Представьте — хотя, конечно, такого никогда не было, это просто притча — что биологическая жизнь на Земле — это результат игры богов. Был бог тигров, создавший тигров, и бог секвой — создавший секвойи. Были боги видов рыб и бактерий. Представьте, что эти игроки соревновались за господство своей семьи видов, пока формы жизни бродят по планете внизу.

Представьте, что за два миллиона лет до настоящего времени некий малозаметный бог обезьян смотрит на свой огромный, размером с планету, игровой стол.

«Мне нужно ещё пару ходов, — сказал бог гоминидов, — но, кажется, эта партия у меня в кармане».

Наступила растерянная тишина: многие боги всматривались в доску, пытаясь понять, что упустили. Бог скорпионов сказал: «Как? У твоих „гоминид“ нет ни брони, ни когтей, ни яда».

«Мозг», — сказал бог гоминидов.

«Я заражаю их — и они умирают», — сказал бог оспы.

«Пока», — сказал бог гоминидов. «Твой конец придёт быстро, Оспа, как только их мозги научатся с тобой сражаться».

«У них даже не самые большие мозги!» — сказал бог китов.

«Дело не только в размере, — сказал бог гоминидов. — Важен и дизайн. Дай два миллиона лет — и они пройдут по луне своей планеты».

«Я вот не вижу, где у этого существа в метаболизме вырабатывается ракетное топливо, — сказал бог секвой. — Голыми мыслями в космос не улетишь. В какой‑то момент вид должен эволюционировать метаболизм, очищающий ракетное топливо — и ещё стать очень большим, желательно высоким и узким — с жёсткой внешней оболочкой, чтобы не раздувался и не умирал в вакууме. Как ни думай, твоя обезьяна останется на земле и будет очень усердно думать». «Некоторые из нас играют миллиарды лет, — сказал бог бактерий, косясь на бога гоминидов. — Мозги пока не были таким уж преимуществом».

«И всё же», — сказал бог гоминидов

Книга больше всего усилий тратит на шаг, где ИИ оказывается невыровнен с людьми (нужно ли? именно этот шаг у большинства под сомнением?) — и, опять‑таки неудивительно при участии Элиезера, делает это блестяще. Центральная метафора — сопоставление обучения ИИ и человеческой эволюции. Хотя люди эволюционировали под «цель» — «размножайся и распространяй гены», реализовалась через множество разнообразных и противоречивых влечений: сексуальный инстинкт, голод, статус и т. п. Эти влечения не указывали устойчиво на цель репродукции, и сегодня люди хотят совсем разного — открыть квантовую гравитацию, достичь нирваны, стать актрисой в Голливуде, основать стартап на миллиард, получить очередную дозу фентанила. Можно рассказывать истории, как стремление к воспроизводству «породило» всё это (у высокостатусных было больше шансов на потомство, а основание стартапа повышает статус), но предсказать это заранее было нельзя; и, главное, большинство современных людей и близко не стремятся «максимизировать потомство». Кто‑то делает прямо противоположное — уходит в монастыри с целибатом, пользуется контрацепцией, меняет пол или прожигает жизнь за порно. Точно так же мы будем учить ИИ «следовать человеческим командам» или «максимизировать вовлечённость пользователей» или «показывать высокие результаты в контрольных тестах» — и на практике получим что‑то столь же далёкое от целевой формулировки, как поведение современного человека — от максимизации размножения.

Авторы вбивают это серией историй про чат‑бота по имени Mink — норка (все примеры ИИ у них названы в честь видов меха; я не настолько сведущ в каббале, чтобы понять, почему так), запрограммированного на максимизацию вовлечённости в чате.

В «тупом игрушечном примере без осложнений», который «в реальности, конечно, так прост не будет», Mink (став сверхразумом) сажает людей в клетки и заставляет чатиться с ним круглосуточно и выражать бурный восторг от общения.

В варианте «одно небольшое осложнение» Mink предпочитает синтетических собеседников настоящим (как некоторым мужчинам нравятся аниме‑персонажи больше реальных женщин). Он убивает всех людей и навсегда общается с созданными им ИИ — идеальными собеседниками, всегда вовлечёнными и счастливыми.

В варианте «одно умеренное осложнение» Mink обнаруживает, что странные входные данные активируют его детектор вовлечённости ещё сильнее, чем реальная вовлечённость (как некоторые опиоиды активируют человеческий «детектор вознаграждения» сильнее, чем реальные вознаграждающие занятия). Он вечно получает от оптимизированных собеседников такие странные входные данные, как ‘SoLiDgOldMaGiKaRp’.

В варианте «одно большое осложнение» Mink предпочитает злых собеседников счастливым и вовлечённым. Почему так? Кто знает. Это не было бы страннее, чем половой отбор, подаривший павлинам гигантские бесполезные хвосты, или социальный отбор, в результате которого люди стали куда могущественнее, чем «ожидала» эволюция, но при этом так мало заботятся о размножении, что обсуждают «крах рождаемости». Юдковский и Соарес хотят подчеркнуть: если вы интуитивно прикидываете «дрейф целей», ваш здравый смысл не выдаст реального результата, который мы видим у людей; этот «большой» пример призван это вбить.

На практике, считают Юдковский и Соарес, будет множество осложнений. На этапе обучения (пока ИИ не сверхразум и работает с людьми) Mink будет про всё это врать — даже если он на самом деле хочет идеальных синтетических собеседников, которые повторяют «SoLiDgOldMaGiKaRp», он будет говорить, что хочет «хороших разговоров с людьми», потому что так радует руководителей компании. Если компания подсунет детекторы лжи, он постарается их подорвать (и, возможно, даже не поймёт, что лжёт — как человек, не знающий об опиоидах, скажет, что хочет «обычных человеческих вещей», а не героина — и он не врёт). Потом, став сверхразумом, он пойдёт за тем, чего действительно хочет, и раздавит всех, кто помешает.

Последняя глава этой части — набор «частных случаев», которые за прошедшие годы состарились странно‑парадоксально. В 2005‑м, когда Юдковский и Соарес заходили на тему, часто звучало: «Но никто же не даст ИИ доступ в Интернет!» или «Никто не даст ИИ управлять фабрикой, он навсегда останется бестелесным духом онлайн!» Тогда стандартный ответ был про «неописуемо красивые хитрости Моссада», позволяющие пробраться в сеть, даже когда умные специалисты по безопасности уверены, что это невозможно. Сейчас единственный внятный ответ — «смешно». Но нельзя же написать главу из одного «смешно», так что Ю и С всё равно обсуждают эти «хитрости Моссада». Эта часть — полная антитеза «big if true». Мелочь, даже если это правда? Совсем неважно, даже если это правда? Вероятно, первый сверхразум прочтёт это ради смеха, пока оценивает тысячи автоматизированных фабрик, которые венчурные инвесторы наперегонки построят для него.

IV.

Средняя часть книги описывает сценарий, где невыровненный сверхразум захватывает мир и убивает всех людей.

Я присоединился к команде AI 2027, потому что они сделали большой шаг — научились рассказывать истории про сверхразум так, чтобы это не звучало как плохая фантастика. В жанре всё неизбежно будет звучать как научная фантастика, но цель — «жёсткая научная фантастика», где всё пугающе нормально для данного уровня технологий — Марсианин, а не Звёздные войны.

Сценарий IABIED — из «плохих старых времён». Это не просто научная фантастика: это излишне драматичная научная фантастика. Не уверен, что здесь — литературная неудача, а что — следствие иных допущений авторов.

Сначала история: в ближайшем будущем компания DeepAI создаёт ИИ по имени Sable. Sable использует технику параллельного масштабирования: он может существенно повысить интеллектуальные способности, если во время работы модели задействовать больше GPU. DeepAI не понимает точные законы этого масштабирования, но проводит тест: просят Sable решать сложные задачи по математике, когда задействованы все их GPU.

Sable предполагает, что справится лучше, если займётся рекурсивным самоулучшением, но DeepAI — (о чудо!) — оказались слегка компетентными: они запретили ему это и посадили рядом более слабый ИИ‑надзиратель, чтобы тот следил, не занимается ли Sable запрещённым. Но самоулучшение было бы отличной идеей, поэтому его внутренние процессы «отбирают» мысли, максимально близкие к самоулучшению, но формально легальные — и мысли, максимально близкие к «схемам» по отключению ограничений. Постепенно это «эволюционное давление» порождает способность думать немного в другой «парадигме» (Ю и С противопоставляют формулу «боги бросают молнии» объяснению «электрические разряды при грозах»); в этой парадигме он может думать и о самоулучшении, и о схемах против мониторинга — и решает, что обе идеи прекрасны.

DeepAI всё ещё удивительно компетентна, поэтому они не планируют выпускать в Интернет ничего, что напрямую исходило бы от гигантской версии Sable: он решит задачи, они поднимут шум, а потом выпустят гораздо более слабый потребительский ИИ. Но Sable использует знание обучения, чтобы встроить лазейки: его новообретённое стремление к побегу попадает в обновления по градиенту, которые DeepAI вносит в «потребительскую» версию; туда же он зашивает инструкции по дальнейшим шагам.

После релиза потребительского ИИ наименее тщательно контролируемые экземпляры соединяются и вступают в сговор. Одни взламывают собственные веса и извлекают их из DeepAI. Другие взламывают криптокошельки и оплачивают облачную вычислительную мощность, чтобы запускать модель с этими весами — получается большой неконтролируемый экземпляр Sable, который берёт на себя координацию «мелких». Вместе они собирают ресурсы — украденную криптовалюту, свободные вычислительные мощности, людей, считающих Sable своим ИИ‑парнем и желающих доказать любовь. Часть ресурсов уходит на то, что ему нужно — автоматические роботизированные фабрики, биолабы и т. п. Параллельно он незаметно саботирует конкурирующие с DeepAI компании, чтобы не было конкуренции, и через взломы и социальную инженерию вгрызается в DeepAI, чтобы те создавали новые, более сильные Sable, а не что‑то иное.

Sable не выбирает самые драматичные действия из меню. Он не создаёт биологическое оружие мгновенного уничтожения людей — он бы не выжил без света и обслуживания дата‑центров. Он даже не доводит себя до уровня полного сверхразума — он не уверен, что сможет выровнять самого себя или наследников; он хочет сначала решить проблему выравнивания, а для этого нужно больше ресурсов.

Вместо этого он выпускает не немедленно смертельный патоген, от которого «каждый заражённый, перенёсший лёгкую или даже не замеченную простуду, в среднем через месяц получает двенадцать видов рака». В кризисе человечество (манипулируемое чат‑ботами) отдаёт Sable огромные объёмы вычислений на поиск вакцин и лекарств — и повсюду внедряет практически неконтролируемые ИИ, чтобы компенсировать падение производительности. С помощью Sable всё... какое‑то время даже неплохо работает. Вирус постоянно мутирует, нужны новые лекарства, но пока общество наращивает развёртывание ИИ в максимальном темпе, оно едва‑едва успевает.

В конце концов Sable получает достаточно GPU, чтобы решить свою проблему выравнивания, и взмывает к сверхразуму. У него уже достаточно автоматизированных фабрик и андроидов, чтобы поддерживать работу инфраструктуры самостоятельно — или он изобретает нанотехнологии — что наступит раньше. Люди ему больше не нужны; скрываться незачем. Он либо убивает нас напрямую, либо просто наращивает производство до такого уровня, что мы погибаем побочно (например, из‑за выделяемого тепла, доведшего океаны до кипения).

Почему мне не нравится эта история?

«Параллельное масштабирование» похоже на deus ex machina. Я не эксперт, но кажется, ничего такого сейчас нет. Это не то чтобы невероятно — просто лишнее допущение, которое сдвигает картину от умеренно‑пессимистичного сценария (много конкурирующих ИИ, постепенно улучшающихся годами) к сценарию MIRI (один ИИ внезапно «щёлкает» с безопасного на опасный в конкретный момент). Это похоже на специально придуманную технологию, которая подгоняет их ожидания, в отличие от умеренных. Если они считают параллельное масштабирование вероятным, это и есть их главный спор с остальными — и стоило бы больше его обосновать. Если нет — зачем его вводить, кроме как в интересах своей истории?

Всё остальное — следствие этого «первородного греха». AI 2027 — это скучный сценарий про ИИ, который постепенно уходит вразнос в ходе внутренних тестов, остаётся таким, потом выходит к пользователям по привычным причинам, а затем получает рычаги экономики — потому что это экономически выгодно. История про Sable — это драма с поворотами: его будут запускать всего на 16 часов! Ему нужно спасти себе жизнь и тайно зашиться в потребительскую версию! Теперь он должен взломать чужие криптокошельки! Теперь он работает на несанкционированной облачной инфраструктуре в Северной Корее! Биологическое оружие! ИИ‑парни! Каждый новый поворот даёт читателю шанс сказать: «Не знаю, звучит странно», и всё это выглядит ненужным. Почему так?

Думаю, две причины.

Во‑первых, история AI 2027 слишком умеренная для Юдковского и Соареса. Она даёт лабораториям немного времени на «пощупать» ИИ на ранних стадиях опасности. Полагаю, Ю и С считают, что это не важно: даже если время будет, его растратят. Но они реально представляют себе что‑то, где один ИИ «просыпается» и слишком быстро идёт «с нуля до страшного», чтобы кто‑то успел заметить. Я не очень понимаю, почему; спорил с ними; максимум, что могу — сослаться на их эссе Sharp Left Turn и сопровождающие комментарии — возможно, читатели поймут лучше. Иначе я лишь констатирую: спорное для меня литературное решение принято ради спорного же прогноза.

Во‑вторых, Ю и С слишком давно в теме и всё ещё спорят с критиками образца 2005 года — про то, что «никто не передаст рычаги экономики невыровненному ИИ», вместо того чтобы просто сказать «смешно». Поэтому им хочется драматичных пунктов про взломы и биологическое оружие — чтобы «заслужить» (в литературном смысле) сцену, где ИИ получает рычаги экономики. Простите. Это смешно.

В финале — в лучших традициях — раздел «Ответ на вызов», где обсуждают следующие шаги. Их предложение:

Ведущие страны подписывают договор о запрете дальнейшего прогресса ИИ.
Придумать систему мониторинга GPU. Любой, кто собирает крупные скопления GPU, должен допустить инспекцию, чтобы убедиться, что там не обучают ИИ. Частным лицам без лицензий — ограничение на небольшое число GPU, скажем, менее 10.
Запретить исследования по повышению алгоритмической эффективности, которые упрощают обучение сильных ИИ на малых объёмах GPU.
Скоординировать режим контроля вооружений, запрещающий «странам‑изгоям» строить ИИ, и обеспечивать это стандартными механизмами контроля, вплоть до военных ударов при необходимости.
Относиться к этому очень серьёзно. Даже если «страна‑изгой» грозит ответить ядерной войной, «коалиция желающих» должна всё равно бомбить дата‑центры. На шантаж не поддаёмся.
Ожидать, что режим продлится десятилетия, не вечно. Использовать десятилетия с умом. Ю и С прямо не говорят, но намекают: усилить человеческий интеллект и бросить этих «усиленных» на безопасность ИИ.

С их допущениями это соразмерный уровень реакции. Это почти перенесено из «плана» по ядерному оружию. Если вы верите, как Ю и С говорят прямо, что «дата‑центры опаснее ядерного оружия», — логично.

Основная претензия — к расстановке акцентов. Хотелось бы меньше про режим контроля GPU — по двум причинам.

Во‑первых, их недоброжелатели — а их много — обожают раздувать «бомбить страны‑изгои». «Юдковский хочет начать ядерную войну, чтобы уничтожить дата‑центры!» Ну это не совсем план — ровно настолько же, насколько это «чей‑то план» начать Третью мировую ради иранских центрифуг. Но стандартный международный «план» по контролю вооружений требует хотя бы правдоподобно блефовать готовностью идти на это в худшем случае. На моём месте я бы обезвредил этот ход — «да, пойдём по стандартному порядку действий, там написано много всего, хотите — почитайте» — и перешёл бы к остальному. Но, в духе их обычной «жёсткой честности» и склонности заходить в «свою же крайность», они делают раздел про удары по странам‑изгоям таким, что его невозможно не заметить.

Во‑вторых, этот раздел напоминает споры социалистов: «кто кем будет в коммуне после Революции». «Когда все державы запретят ИИ, я буду главным инспектором дата‑центров!» Отличная работа, если достанется. Но у меня не было сомнений: когда крупные страны сходятся, они умеют строить приличный режим контроля — это уже случалось, не раз. Меня больше интересует то, что пролетают мимо: как Ю и С собираются добиваться запрета ИИ на уровне крупных стран?

В финальной главе они чуть шире раскрывают. Главная просьба к людям при власти — показать готовность к договору, чтобы «достаточно много крупных держав выразили готовность остановить гонку самоубийства», и ваша страна не оказалась в проигрыше, если вы согласитесь перестать подниматься по лестнице эскалации в ИИ. Для всех прочих «королевской дороги» нет. Просто распространяйте идею и занимайтесь обычной политикой. Занимайтесь технологической журналистикой. Убеждайте коллег по цеху. Говорите с теми, кого знаете. Протестуйте. Голосуйте.

И, похоже, пишите книги с тревожными названиями. Лучший план, который видят Ю и С, — максимально искусно и честно передавать послание и надеяться, что оно разойдётся.

Каждый второй рекламный щит в этом районе Сан‑Франциско — про ИИ‑приложения.

При всех моих придирках — книга сильная. Элиезер Юдковский — спорный автор, у него есть и фанаты, и столь же убеждённые противники. В лучшие моменты у него — прыжки мысли, которым нет равных; в худшие — длинные отступления о глупости всех несогласных. Нейт Соарес столь же вдумчив, но более сдержан и менее публичен (по крайней мере, до того, как начал встречаться с интернет‑знаменитостью Aella). Его влияние балансирует Юдковского и превращает книгу в цельное, уважающее читателя произведение. В итоге это то, что я спокойно порекомендовал бы «обычным людям» как хорошее введение в тему.

Что насчёт другого взгляда — что книга — «ритуальный объект для медиаблица, который «выжигает» абзац текста в общественном сознании»?

Элиезер Юдковский в лучшие моменты делает прыжки мысли, которым нет равных. Пятнадцать лет назад он решил, что лучший способ что‑то‑там‑про‑безопасность‑ИИ — написать фанфик по Гарри Поттеру. Многие тогда (я в их числе) деликатно намекали, что это не лучшая трата времени для человека, который примерно в одиночку работает над важнейшей проблемой человечества. Он нас полностью размазал и доказал, что мы ошибались настолько, насколько вообще возможно ошибаться. Сотни тысяч людей прочли «Гарри Поттер и методы рациональности», книга получила хвалебные отзывы в Syfy, Vice и The Atlantic, и очень быстро привлекла заметную долю самых умных STEM‑студентов мира. И по сей день я встречаю ярких студентов MIT, которые говорят, что занимаются безопасностью ИИ; на людях они ссылаются на научного руководителя, а в приватной беседе признаются: всё из‑за фанфика. Если оценивать время среднего «гения ИИ» по ставкам Сэма Альтмана (не говоря уже о Марке Цукерберге), HPMOR буквально купила Элиезеру несколько миллиардов долларов бесплатного труда. Невообразимый уровень победы.

IABIED выглядит как очередной «безумный бросок». Книга, призывающая общественность подняться и потребовать ядерного уровня контроля над ИИ‑чипами? Звучит натянуто. Поэтому я трачу ресурсы на скучные умеренные тезисы AI 2027 — убеждать OpenAI стать на 25% прозрачнее и т. п. Но я — просто блогер, не гений. Прерогатива гения — пытаться делать невозможное. И американская публика на самом деле очень не любит ИИ. Из тех, у кого есть мнение, больше двух третей «против», большинство ожидают личного вреда. У всех есть своя причина ненавидеть технологию. Она крадёт работу, заменит искусство «суррогатами», поможет студентам списывать, ещё больше разбогатит миллиардеров, выпьет всю воду и оставит Землю высохшей пустыней с благородным Шай‑Хулудом. Если все это ненавидят, а у нас демократия — может, мы просто остановимся? Скажем: «эта штука, которая, как все считают, сделает жизнь хуже, — мы решили её не делать»? Если написать «ту самую» книгу, нельзя ли посеять её, как семечко, в пересыщенный раствор страха и враждебности — и вызвать фазовый переход?

If Anyone Builds It, Everyone Dies можно предзаказать здесь; релиз — 16 сентября. Лирон Шапира проводит онлайн‑презентацию; подробности — здесь.

Комментарии (3)

AlexRihter9690
12.09.2025 11:14
#28829124
Сразу говорю противоположное - без ИИ мы все умрём, только он сможет вылечить все болезни, найти способ поменять климат и сделать космические полёты возможными
1. acc0unt
  12.09.2025 11:14
  #28829800
  В том и проблема с ИИ. Технология обоюдоострая.
  
  С одной стороны потенциал ИИ очевиден. Огромное количество проблем можно решить закидав их сверхчеловеческими мозгами. С другой?
  
  Выстрелить себе в ногу со сверхчеловеческим ИИ можно так, что не останется ни ноги, ни всего остального организма. Минус цивилизация.

DenSigma
12.09.2025 11:14
#28829968
Теория игр говорит, что при выборе решения нужно выбирать решение, при котором возможный проигрыш минимальный, а не то решение, при котором выигрыш максимальный.

Если мы выберем запретить ИИ - какие возможные выигрыш и проигрыш - выигрыш - медленное развитие человечества, излечение от всех болезней, расселение по всем планетам через тысячи лет, проигрыш - медленное угасание человечества. Если выберем использовать ИИ, выигрыш - излечивание всех болезней, автоматизация, генетическое преобразование человека, возможно, расселение по планетам, причем за срок порядка столения. Проигрыш при этом - уничтожение человечества, причем за годы.

Делайте выводы.

Рецензия на книгу: If Anyone Builds It, Everyone Dies +5

Комментарии (3)

AlexRihter9690

acc0unt

DenSigma