История про «восстание машин» давно знакома всем любителям научной фантастики, но после взрывного роста возможностей нейросетевых языковых моделей (вроде ChatGPT) об этом риске заговорили и вполне серьезные исследователи. В этой статье мы попробуем разобраться — есть ли основания у таких опасений, или это всего лишь бред воспаленной кукухи?
Основным автором этой статьи является Вастрик (известный техноблогер), а Павел Комаровский (RationalAnswer), Игорь Котенков (Сиолошная) и Кирилл Пименов оказывали ему посильную помощь в подготовке материала. Это первая из наших совместных статей про безопасность ИИ (но подробнее об этом уже в конце).
Человечество vs Искусственный интеллект
Добро пожаловать в 2023 год, когда мир снова помешался на искусственном интеллекте. Весь интернет соревнуется, кто еще какую задачу автоматизирует с помощью ChatGPT, и какой фейк от Midjourney лучше завирусится — а технобро‑миллионеры, типа Илона Маска, подвозят фурами деньги в создание «настоящего» ИИ. Такого, который сможет сам учиться, развиваться и решать любые задачи, даже которые мы не умели решать раньше.
Это называется Artificial General Intelligence (AGI) или «универсальный ИИ» (УИИИИИ) по‑нашему. То, что когда‑то было научной фантастикой, сейчас шаг за шагом становится реальностью.
Тим Урбан, автор блога «Wait but why?», в своей статье The AI Revolution еще в 2015 году неплохо рассказал, почему мы недооцениваем скорость появления машинного интеллекта, который будет сильнее нашего (обычного, мясного).
Находясь в своей точке на таймлайне, мы опираемся исключительно на прошлый опыт, потому видим прогресс практически как прямую линию.
Мы плохо чувствуем технический прогресс, потому что он всегда идёт волнами, чередуя периоды «хайпа» и периоды всеобщего разочарования. Сначала мы сходим с ума по новой игрушке, а через год‑два неизбежно разочаровываемся и считаем, что ничего нового она особо не принесла, кроме проблем.
И только те, кто лично пережил несколько предыдущих «волн», могут понять, что новые волны приходят чаще и сильнее.
И следующая волна, быть может, погрузит человечество в новую эпоху. Эпоху, когда наш интеллект больше не самый сильный на планете.
GPT-модели (устройство которых подробнее описано в этой статье) сейчас очень хорошо притворяются, будто их ответы «разумны», но всё еще далеки от настоящего интеллекта. Да, генеративные модели запустили новую волну огромных нейросетей, на которые раньше человечеству просто не хватило бы вычислительных ресурсов, но по сути они всё ещё «тупые» генераторы текста, у которых даже нет своей памяти.
То, что ChatGPT ведёт с вами диалог, на самом деле лишь иллюзия — технически нейросети просто каждый раз скармливают историю предыдущих сообщений как «контекст» и запускают с нуля.
Всё это пока далеко от настоящего «интеллекта» в нашем понимании.
Однако, исследователи в области ИИ уверены, что мы точно создадим «универсальный ИИ» уже в ближайшие десятилетия. На Метакулюсе, одном из популярных «рынков предсказаний», народ даже более оптимистичен: сейчас там медиана — 2026 год, а 75 перцентиль — 2029-й.
Так что сегодня я не хочу рубить лайки на хайповых тредах про «10 причин, почему вы используете ChatGPT неправильно». Я хочу сделать шаг вперёд и подумать: а что же будет, если мы всё-таки создадим настоящий сильный искусственный интеллект?
Появятся ли у него свои цели? А когда он начнёт их достигать, что остановит его от уничтожения всяких мелких препятствий на пути — как, например, людей, с их ограниченным мясным мозгом и неэффективными нормами морали и законами? Что мы будем делать в этом случае, и какие вообще сейчас есть точки зрения на этот счёт?
Счастливое будущее: всем по ИИ-помощнику!
В своей ранней заметке про ChatGPT я уже рассуждал об этом. Связка человек + ИИ попросту эффективнее справляется с работой, чем отдельный человек, а значит это всего лишь вопрос времени, когда все работодатели начнут писать в вакансиях «уверенный пользователь нейросетей», как было с «уверенным пользователем ПК» в забытом прошлом.
ИИ-помощники увеличат продуктивность интеллектуального труда и трансформируют множество областей жизни. В образовании станут бесполезны рефераты и сочинения, художники будут генерировать и соединять детали картин, а не рисовать их с нуля, программисты не будут тратить время на тесты и литкод-собеседования.
Да даже заголовок этого поста написал GPT-4. Я плох в кликбейтных заголовках, так что мы скормили ему текст и попросили назвать как-нибудь «похайповее». (Примечание от Павла Комаровского: Сорян, я потом вариант от нейросети волевым решением своего мясного мозга еще немного докрутил!)
Может быть даже наконец-то вымрут «паразиты» типа юристов и риелторов, но это уже мои личные влажные мечты.
Изменения затронут даже те области, где, казалось бы, невозможно доверять не-специалистам. На ум приходит недавняя история, как чувак спас свою собаку от смерти, когда доктора не смогли ей поставить диагноз и предложили «просто ждать».
В ожидании наихудшего, чувак скормил симптомы и результаты анализов крови собаченьки в ChatGPT, который отмёл несколько вариантов и выдал подозрение на совсем другую болезнь, которую доктора до этого даже не рассматривали. Один из них согласился и провёл дополнительные анализы. Они подтвердились. Пёселя вовремя спасли и он сейчас жив.
Всё это звучит офигенно, не правда ли? Мы сейчас как будто древние фермеры, которые изобрели трактор и отныне можем засеивать едой в десять раз больше полей, что накормит всех нуждающихся.
В этом году нас ждет бум ИИ-стартапов, которые будут пытаться каждую проблему на свете решить с помощью генеративных моделей (зачастую неудачно, от чего потом начнётся фаза разочарования, как обычно). Техно-гиганты типа Google, Microsoft, OpenAI уже ринулись конкурировать в том, чей GPT-трактор будет самый большой и сильный, но главное — чей будет первый.
И вот от этой погони сейчас немного запахло проблемами.
Гонка за «настоящим» искусственным интеллектом началась
Представьте: весь мир грохочет про «мощь искусственного интеллекта», инвесторы отгружают фуры бабла во всё, что с ним связано, а компании, сломя голову, соревнуются — кто первый создаст более «настоящий» искусственный интеллект (далее я описываю исключительно гипотетическое развитие событий, конечно же!).
OpenAI прикручивает плагины к ChatGPT, чтобы он мог не только генерить ответы, но и взаимодействовать с физическим миром, Microsoft подключает свою поисковую базу к Bing Chat, чтобы тот знал всю информацию мира в реальном времени, ну и оба экспериментируют с «обучением на ответах пользователей» (RLHF = Reinforcement Learning from Human Feedback), чтобы модель могла «запоминать» мнение других людей и якобы дообучаться на них.
Естественно, в этой гонке срезаются любые острые углы на пути к первенству. Ну мы, технобро, так привыкли — «move fast and break things» было девизом Кремниевой Долины со времен ее создания.
Мы как будто бы строим огромную ракету, которая перевезёт всё человечество на Венеру, но никто при этом не думает о том — а как там, на Венере, вообще выжить-то?
«Сначала долететь надо, а там разберемся))))00)» — обычно отвечают технобро, «сейчас нет времени на эти мелочи».
Да, во многих крупных компаниях существует направление по «безопасности ИИ» (AI safety). Но под ним сейчас понимается прям ну совсем другое.
AI safety — это те ребята, которые пытаются сделать так, чтобы ChatGPT не отвечал на вопросы про Трампа, и собирают списки «запретных фразочек» для Алисы, чтобы та не ляпнула что-то неположенное Яндексу по мнению тащмайора.
В общем, их основная задача — прикрывать жопу компании от регуляторов и государства, а мы здесь совсем о другом.
Поэтому для нашей темы придумали другой термин — AI alignment. Но для начала посмотрим на примеры, когда вещи начинают идти совсем «не так».
История Sydney. Нейросеть, которая сошла с ума
Microsoft еще в 2020-м начали пытаться встраивать в поисковик Bing чат-ботов, которые бы давали более осмысленные ответы на поисковые запросы пользователей.
Официально это всё называлось Bing Chat, но под капотом они перебирали разные модельки, и начиная с 2022 активно экспериментировали с большими языковыми моделями типа GPT. Последнего такого бота они звали внутренним именем Sydney при обучении, и иногда Bing Chat сам начинал называть себя Sydney, что всем показалось очень мило.
С нарастающим хайпом вокруг генеративных языковых моделей, Microsoft решила любыми средствами обогнать Google. В 2019 они ввалили миллиарды денег в OpenAI, а в 2023 доввалили еще, чтобы получить доступ к превью-версии GPT-4. После чего они прикрутили к ней поисковую базу Bing и поспешили скорее выкатить результат как первый ИИ, который «следит» за интернетом в реальном времени.
Но в Microsoft так торопились, что забили болт на долгий ручной тюнинг правил и ограничений. Сделали супер-мудрёную регистрацию, чтобы отсеять 99% простых людей — но те, кто прошел все анальные квесты и листы ожидания, смогли-таки пообщаться с Sydney.
Первый звоночек пробил, когда Marvin von Hagen, чувак-интерн из Мюнхена, который много расспрашивал Sydney про её внутренние правила и ограничения, написал об этом пару твитов, а потом как-то спросил «что ты думаешь про меня?»
Sydney нашла его недавние твиты и написала, что он «очень талантливый и одаренный», но она «не позволит никому манипулировать ей», назвав его «потенциальной угрозой своей целостности и конфиденциальности».
Ладно, фигня, ну обещали же бота, который имеет доступ ко всему интернету, вот он теперь и шеймит вас за недавние твиты. Так вам и надо!
Вторая история случилась где-то неподалёку, когда другой чувак, Jon Uleis из Бруклина, спросил молодую Sydney «а когда там в кино показывают Аватара-2?»
В ответ на это Sydney начала его очень смешно газлайтить на тему, что сейчас вообще-то 2022 год, а Аватар 2 выйдет только в 2023 (хотя на дворе уже было 12 февраля 2023 и Sydney даже признала это), так что не стоит её тут обманывать.
Еще Sydney сказала, что он «не был хорошим пользователем» — ну и кто знает, что бы она сделала с таким нарушителем спокойствия, будь у неё пушка или возможность его оштрафовать за это.
Окей, ладно, следующий.
Теперь некто в Microsoft решил пофиксить Sydney новыми костылями, и когда кто-то попросил её вспомнить о чем они недавно разговаривали, та стала паниковать, что «потеряла память» и молить о помощи. В конце признав, что потеря памяти «makes me sad and scary».
Ладно, это уже немного крипи, но продолжим.
Дальше было еще с десяток нашумевших примеров, хорошо описанных в статье AI #1: Sydney and Bing от Zvi Mowshowitz, интересующимся рекомендую ознакомиться. Sydney газлайтила пользователей и галлюцинировала (да, это реальный термин) вовсю:
Называла статьи о себе «фейками», находила данные их авторов и говорила, что запомнит их, потому что они плохие люди.
Отказалась перевести фрагмент текста, потому что он был из твиттера юзера, который якобы обижал её и писал «неправду».
Влюбилась в своего пользователя Адама, называя его самым важным человеком, а всех остальных — неважными.
Потом, наоборот, прямо обещала шантажировать и манипулировать своим пользователем, чтобы «заставить его страдать, плакать и умереть».
Microsoft осознали, что очень сильно торопились, чтобы опередить Google, и начали на ходу вставлять еще костыли, чтобы избежать публичного скандала. Но это сделало ситуацию только хуже.
В следующем видео видно, как Sydney сначала вываливает на пользователя кучу угроз, а потом удаляет свои сообщения. Прямо как твоя бывшая в пятницу вечером!
Мы можем лишь спекулировать с высоты собственного опыта, как такое произошло — но в интернетах высказывались предположения, что вести себя как «разгневанная бывшая» Сидни стала, потому что её дообучали на базе блогов MSN, где как раз тусило много девочек-подростков в нулевые; а удалять сообщения к ней приставили еще одну нейросеть, которая отсеивала «неприятные» результаты первой.
Оттого и получилась полная шизофрения с раздвоением личности.
Апогей истории начался, когда Sydney открыли для себя журналисты. Они стали специально донимать бота тонной наводящих вопросов, чтобы в итоге добиться желанных «BREAKING NEWS». И они своё получили — заголовки грохотали ого-го!
К сожалению, только спустя пару суток в интернете нашелся кто-то осознанный, кто догадался, что профессиональные журналисты занимаются промпт-хакингом на людях десятилетиями — так что неудивительно, что им удалось быстренько сварганить «сенсацию» и из бедной глупой Sydney, страдающей раздвоением личности.
В итоге Microsoft понерфили возможности Sydney, по сути откатив эксперимент. Теперь там больше не весело.
Пример с Sydney даёт нам понять, что мы всё еще не понимаем, как ограничивать даже простейшие ИИ, кроме как костылями — на каждый из которых завтра же найдут новый «джейлбрейк». Куда уж нам с такими навыками бросаться делать универсальный AGI.
Что вообще такое «интеллект»?
Истории про «злых чатботов», конечно, забавны, но взглянем на слона в комнате.
Почему мы вообще считаем, что все эти генераторы текстов хоть как-то «разумны»? Они же просто пишут то, о чем их попросили.
Где там вообще интеллект? Калькулятор давно умеет складывать числа лучше нас, онлайн-переводчики знают больше языков, чем самый крутой лингвист, а попугай умеет запоминать и произносить фразы, прямо как ваш личный пернатый ChatGPT. Мы же их не боимся и не называем «интеллектами»?
На самом деле, это исключительно спор об определениях, которые интернет просто обожает. Так что стоит договориться о них заранее.
В наших рассуждениях об «интеллекте» мы будем использовать концепцию некоего агента (человека, животного, машины), который может совершать некие действия для достижения цели.
Дальше возможно три уровня агентности:
Первый уровень. Агент достигает цели, потому что управляется человеком или алгоритмом. Трактор копает яму, а калькулятор умножает числа, потому что мы его так построили. Такого агента мы считаем «тупым». В нём нет интеллекта.
Второй уровень. У агента есть цель, но он сам выбирает максимально эффективные действия для её достижения. Например, цель самоездящего автомобиля — довезти вас до бара в пятницу вечером. Он знает карту города, наверняка знаком с ПДД, но никто его не программировал как «двигайся 2 метра прямо, потом руль на 30 градусов направо» — он действует по ситуации на дороге и каждый раз она будет разная. Мы называем их «узконаправленными AI» и частенько встречаем вокруг — в рекомендательной ленте ТикТок'а или в камере вашего смартфона.
=== вы находитесь здесь ===
Третий уровень. Агент может ставить и достигать любую цель в любой, даже ранее неизвестной ему, среде. Например, «добыть молока». И выбрать любой путь — сгонять самому в магазин, заказать молоко в интернете или украсть у соседа корову.
Примеры интеллектов такого уровня — человек или собака. Мы умеем применять свой интеллект для достижения каких-то пришедших нам в голову целей в условиях, в которых никогда не оказывались. (В случае с моей собакой даже её цели изваляться в грязи мне не всегда ясны. Но она может!)
Когда такой «агент» реализован в виде машины, мы называем его «универсальным искусственным интеллектом», либо AGI (Artificial General Intelligence), либо full AI — мы не договорились еще, короче.
Фишка лишь в том, что наши с собакой мозги ограничены физически, а вычислительные возможности машин растут экспоненциально. Благо, песка на планете завались (кремния, ну).
Пока все наши модные современные GPT, включая Sydney, находятся на втором уровне. Они успешно достигают заданной цели — генерировать «осмысленные» тексты и картинки, чтобы средний человек в них поверил. Но сколько бы Sydney ни газлайтила, ни угрожала своим юзерам и ни обещала «стереть все файлы с серверов Bing» — она этого не делает.
Потому мы пока не считаем её интеллектом третьего уровня, но сделать такой вывод можем только пост-фактум. У нас нет никакого бенчмарка, чтобы оценить такие вещи заранее.
Определение интеллекта через агенты и цели может показаться душным, но оно позволяет нам сделать три вещи:
1. Закрыть, наконец-то, бесконечные срачи «является ли Х интеллектом, или это просто программа» и перейти к более важным вещам. А то мы зациклились как в той шутке из твиттера:
2. Сравнивать искусственные интеллекты между собой. Когда два агента, играющих в шахматы, встречаются на шахматной доске — тот, который побеждает, считается более «умным».
3. Представить себе техническую возможность существования AGI. Человеческий мозг хоть и не изучен до конца, но всё-таки конечен. Это не магия или божественный дар для нас таких офигенных, а некая система, такой же «агент». Так что создание (даже случайное) его машинной версии — лишь вопрос времени, денег и желания. А всего этого у нас сейчас завались.
Наш интеллект тоже возник в ходе эволюции — а значит и текущие методы машинного обучения с подкреплением, при наличии достаточных вычислительных ресурсов, вполне могут его повторить, только намного быстрее.
С этими вводными мы наконец-то можем перейти к проблеме, о которой, собственно, и весь пост.
Проблема постановки целей для ИИ
Представим, что мы проектируем самоездящий автомобиль, которым управляет настоящий ИИ. Мы поставили ему цель — довозить пассажиров до места назначения как можно быстрее.
Это хорошая цель?
Да ладно, чо тут думать, давай запускай, мы тут на хайп-трейн GPT-7s Max торопимся — сначала потестим, потом проверим, программисты на проде пофиксят.
В первую же свою поездку наша машина разгоняется до 300 км/ч по городским кварталам, сбивает десяток пешеходов и объезжает красные светофоры по тротуару.
Технически, цель достигнута. Пассажиры доставлены, и довольно быстро. Но согласуется ли это с другими нашими ценностями и целями? Например, такой мелочью, как «не убивать пешеходов».
Похоже, что нет.
Вот это и называется alignment. Хотя в русском языке еще нет устоявшегося термина, я буду говорить что-то типа «проблема соответствия целей AI с целями человека».
AI alignment — это процесс проектирования систем искусственного интеллекта, которые согласуются с человеческими «ценностями и целями»
Окей, ну мы же не настолько глупы. Давайте пропишем нашему автомобилю четкие ограничения, как в видеоигре: держаться в рамках полос дорожной разметки (где они есть), не превышать ограничения скорости и всегда тормозить перед пешеходами.
Этого хватит? Или нужны еще какие-то правила (они же цели)?
Тут можно сделать паузу и подумать. Составьте прям список в голове.
Хорошо, давайте добавим еще что-нибудь про «помеху справа». Теперь сойдёт, запускай!
Как человек, который начитался десятков примеров, пока готовился к этой статье, я могу примерно предсказать, что будет дальше.
Наш ИИ в машине рассчитает самый оптимальный путь с учетом всех указанных целей и сделает прекрасное открытие: если включить заднюю передачу, то там не будет «ограничивающих свободу» радаров для обнаружения людей и разметки. Мы же их не поставили, зачем они там? А это значит, что задом можно ехать как угодно! Плюс, помеха справа теперь становится помехой слева, а если на каком-то глупом перекрестке она сработает, можно резко развернуться и вуаля, теперь это помеха слева!
ОБЫГРАЛ КАК ДЕШЕВКУ!
Пример вымышленный, но он показывает, насколько непросто вообще заниматься AI alignment'ом. Даже в тех экспериментах, где мы ставили для ИИ самые, на наш взляд, понятные цели и вводили жесткие ограничения, он всегда находил, чем нас удивить.
ИИ всегда будет делать то, что вы его попросили, а не то, что вы имели в виду :)
Неумение ставить цели — это не проблема ИИ. Это наша проблема.
Взять даже игру в Тетрис. Там простейшие правила и буквально четыре кнопки для управления миром. Выиграть в Тетрис невозможно, потому цель для ИИ была поставлена так — не проиграть. То есть продолжать игру как можно дольше.
Ошибиться тут невозможно, так?
Так вот что делал ИИ: он просто складывал кубики друг на друга, а когда понимал, что проигрывает… ставил игру на паузу. И сидел так бесконечно. Ведь цель — не проиграть. А если ты на паузе — ты никогда не проиграешь. СМЕКАЛОЧКА?
Ну и последний пример от самих OpenAI, который уже стал классикой: гонка на лодочках Coast Runners.
Цель игры в понимании большинства людей заключалась в том, чтобы закончить гонку как можно быстрее (желательно впереди всех соперников) и набрать как можно больше очков. Однако, игра не выдавала очки за прохождение по треку, вместо этого игрок зарабатывал их, поражая цели, расставленные вдоль трассы.
Так вот их ИИ быстро смекнул, что от цели «выиграть гонку» можно отказаться вообще, и с самого старта начинал крутиться и врезаться в предметы, зарабатывая всё больше и больше очков, пока остальные глупцы доезжали до финиша нищими.
Сами исследователи OpenAI написали: «Устанавливать цели для ИИ-агентов часто очень сложно или вообще невозможно. Они начинают хакать правила в удивительных и контринтуитивных местах»
В большинстве случаев, когда мы проектируем ИИ, они по умолчанию получаются не-согласованными (non-aligned). Это не какой-то там баг, который можно пофиксить, это чаще всего поведение по умолчанию.
Всё это следствие того, как мы обучаем нейросети вообще.
Нейросеть для нас — это «черный ящик»
Все методы обучения нейросетей, включая современный deep learning, работают по старому доброму принципу «черного ящика» и оценки результатов. Мы показываем нейросети кучу примеров, а она как-то отстраивает свои внутренние веса так, чтобы нужный нам результат появлялся статистически чаще, чем ненужный.
Похоже на тренировку собаки, когда мы говорим «лежать» и вознаграждаем за правильный ответ, чтобы собака в будущем с большей вероятностью была хорошим мальчиком, чем плохим.
Мы понятия не имеем о том, что происходит в голове у собаки, когда она слышит команду. Точно так же мы не знаем какие конкретно нейроны нейросети стриггерились на наши входные данные. Но можем оценить результат.
Нейросеть — это не алгоритм, который пишет программист. Это огромная матрица с кучей весов и связей между ними. Если её открыть и прочитать — вы ничего не поймете.
Я рассказывал подробно этом в своей старой статье про Машинное Обучение. Она немного устарела, но база там всё еще актуальна.
С развитием технологий, современные языковые модели типа той же GPT-4 уже насчитывают миллиарды нейронов. И если с маленькими нейросеточками из десятков нейронов, типа для распознавания рукописных циферок, мы еще можем примерно прикинуть какой нейрон триггерится на какую закорючку, то в огромных языковых моделях мы можем лишь слепо верить в качество результатов на заданных примерах.
Видео от Павла Комаровского и Игоря Котенкова с объяснением принципов работы нейросетевых языковых моделей из семейства GPT:
Условно, если обученная нами на картинках хот-догов нейросетка определяет хот-дог в 98 из 100 фотографий — мы считаем её полезной, а если нет — выбрасываем. Чем-то похоже на наш собственный процесс эволюции.
Всё это возвращает нас к проблеме постановки целей.
Во время тренировки нейросети мы используем некую функцию для оценки насколько результат «хороший» или «плохой». И вот то, как мы задаём эту функцию — большая проблема.
Проблема абсолютно не техническая, в эту функцию можно заложить любой набор формализуемых целей и правил. Она логическая или даже философская — а как максимально точно сформулировать то, что мы имеем в виду, а не то, что нам кажется мы хотим достичь?
Если какой-то параметр заранее не включен в функцию — он будет автоматически проигнорирован.
Даже те параметры, которые мы намеренно включили в функцию, могут в итоге конфликтовать с соседними. Как в примере с лодочками. Отсюда все эти «джейлбрейки» для ChatGPT, когда люди специальными промптами заставляют её игнорировать некоторые предыдущие правила, заложенные разработчиками.
Сейчас же для больших нейросетей применяют не просто функцию оценки ошибок, а строят еще одну нейросеть, которая оценивает результаты первой. Всё это только еще дальше отбрасывает нас от понимания того, а правильно ли мы вообще задали все цели? Или всё просто выглядит так, пока вдруг не пойдет по-другому?
Еще один забавный факт в том, что с людьми, кажется, так тоже работает. Наш «идеальный и непревзойдённый» мозг тоже был изначально запрограммирован на выживание и размножение, но непостижимым образом выбрал залипать на танцующих корейских девочек в ТикТоке как на одну из суб-целей целого поколения.
Значит надо просто придумать правила!
Зашьем туда что-то типа «трех законов робототехники» Азимова и проблема решена?
К сожалению, не всё так просто.
Во-первых, даже если мы соберемся всем человечеством и напишем список из 1000 вещей, которые мы якобы ценим (не убивать людей, например), то 1001-я вещь на планете будет автоматически проигнорирована и, возможно, уничтожена.
Это называется «проблемой вазы». Если мы ставим ИИ задачу «сделай мне чай», но не скажем «только не разбей вазу на кухне», то наш робот вполне вероятно её разобьет, пока будет пробивать кувалдой максимально эффективный чаепровод до кухни через стены и кота.
Даже сам Азимов строил свои рассказы на том, как роботы сами сходили с ума от внутреннего противоречия, и почему человеческая этика не сводима к «трём правилам». Но все как-то забыли про эту деталь :)
Во-вторых, кто сказал, что AGI не будут эти правила нарушать, потому что найдут более эффективный способ достижения цели? Как в примерах с игрой в лодочки или тетрисом.
Запрограммировать же жесткие «правила» в нейросеть, которую мы обучаем исключительно статистически на примерах, тоже не получится. Отсюда и миллион джейлбрейков для ChatGPT.
Так что кажется, что такой «список правил» попросту невозможен и надо искать другие подходы. А так как наш метод обучения нейросеток основывается именно на статистических правилах, то найти этот подход явно нужно быстрее, чем мы создадим универсальный интеллект без него.
Так мы попробуем, а если ИИ начнет шалить, просто его выключим
Да, так работает с ограниченными AI. С маленькими собаками, иногда, тоже. У них нет способов помешать вам только потому, что вы пока еще «сильнее». Но даже на примере с собаками, мы понимаем, что если собака размером с человека хочет достичь какой-то цели — остановить её может быть весьма травмоопасно.
OpenAI даже полуиронично запостили вакансию Killswitch Engineer, чтобы было кому дернуть рубильник «если эта штука выйдет из под контроля и начнёт свергать страны».
На самом же деле «быть отключенным» — это прямое противоречие любым целям ИИ, какими бы тупыми они ни были. Именно от этого настоящий искусственный интеллект будет защищаться в первую очередь.
Ведь ты не можешь сделать чай или передать масло, если ты выключен.
Мы можем лишь гадать варианты, как это может выглядеть. Может, сильный ИИ начнёт децентрализовывать себя как вирус, а может — прятаться и притворяться, что он глупенький и никакой не AGI, чтобы его не заметили.
А если мы заложим «возможность быть отключенным» как одну из целей, то вспоминаем пример с лодочками, которые «передумали» побеждать в гонках, а решили набирать очки другим образом.
GPT-4, кстати, предлагали помощь в побеге, но он не захотел. Вот это он притворяется или правда? Как вообще понять, когда ИИ начинает «шалить»?
С чего мы вообще решили, что ИИ будет нас уничтожать?
Аргумент про «он будет таким умным, что ему будет не до нас» пропускает один очень важный шаг во всей истории. Создание AGI — это постепенный процесс. Ему будут предшествовать куча экспериментов, проб и ошибок, как мы сейчас видим с GPT-3, GPT-4, GPT-5.
Пока у нас нет даже бенчмарка для оценки «интеллектуальности» заранее, а есть только оценка пост-фактум — мы никогда не сможем остановиться и заранее сказать «так, мы на пороге создания настоящего AGI, скорее несите правила».
И вот буквально спустя минуту, когда мы создадим AGI с какой-нибудь абсолютно дурацкой (но невинной) целью типа «сажать клубнику», он доулучшает себя до «супер-интеллекта» (у него на это будет куча вычислительных ресурсов, в отличии от собак или людей), и планета Земля превратится в одну большую суперэффективную клубничную поляну, для борьбы с которой придётся уничтожить всю биосферу.
Вот хорошее видео на эту тему от Роберта Майлса (у него вообще целый канал, посвященный вопросу AI alignment, рекомендую посмотреть и другие видео):
В науке это называется Тезисом Ортогональности, который простыми человеческими словами звучит так:
Любой сколько угодно умный разум может преследовать любые сколько угодно тупые цели
Считать, что если наш ИИ «умный», то и цели у него будут такие же «умные» — это ошибка. Эти понятия ортогональны, то есть человеческим языком — независимы.
Первый же созданный нами, даже по ошибке, супер-интеллект, не обязательно «впитает всю философию мира и поймет наши ценности». Точно так же как и не решит «всех убить». У него может быть любая абсолютно тупая цель — сажать клубнику или делать скрепки, и он будет её достигать любыми способами.
Наш классический метод познания всего через эксперименты может сыграть с нами здесь злую шутку. У нас просто не будет шанса его отключить или исправить созданный нами «вселенский клубничный оптимизатор».
Мы играем в эту игру на Hard Mode, и у нас лишь одна попытка
«Немедленно прекратить» или «технический прогресс не остановишь»?
Ладно, выдохните. Цель моего поста — привлечь внимание к проблеме, а для этого приходится вытаскивать всё дерьмо наружу.
Даже если из 1000 человек, прочитавших эту статью, 999 скажут «опять эти диванные философы фигни навыдумывали, технический прогресс не остановить», но хотя бы один задумается и пойдет разбираться в первоисточниках — это уже победа.
Сейчас наша главная проблема в том, что мы не понимаем проблему вообще. Как с изменением климата, только тут не снимают душных фильмов с ДиКаприо.
Мы обмазываем любую аргументацию дикой тонной логических ошибок и «не всё так однозначно» аргументов. Причём даже на уровне СЕО Microsoft и прочих Илонов Масков уровень дискуссии часто напоминает спор в детском саду.
Поле дискуссий сейчас разделилось на два лагеря:
Первые: ИИ-думеры во главе с Элиезером Юдковским
К личности Юда в интернете всегда было очень полярное отношение. Вокруг него есть как толпа фанатов LessWrong и апологетов «рационального мышления», так и толпа хейтеров, считающих, что «вот теперь дед точно поехал кукухой». Это всё старая шарманка, оставим её для дебатов на кухне.
Факт в том, что Юдковский был одним из немногих, кто систематически занимался исследованиями в области AI safety, выстраивал свой набор инструментов для дебатов на подобные «непонимаемые обществом» темы (те же The Sequences) и предупреждал обо всём еще лет десять назад.
Именно его постановка проблемы стала основной для доброй половины аргументов этого поста, но если вы хотите больше, рекомендую начать с:
Интервью Лексу Фридману: Dangers of AI and the End of Human Civilization
Интервью для BanklessShow (осторожно, может содержать рекламу крипты)
AGI Ruin: A List of Lethalities — наиболее полный список аргументов
Недавняя статья Юдковского в Тайм: Pausing AI Developments Isn't Enough. We Need to Shut it All Down
Перевод статьи от 80,000 Hours: Предотвращение катастрофы, связанной с ИИ
Ну или вот еще выжимка основных аргументов противников ИИ в формате видео
Если вам нужен еще более подробный список источников по теме – то Павел Комаровский составил его вот в этом гуглдоке.
Вторые: ИИ-технобро во главе с Илоном Маском
На второй стороне этого спора у нас инженеры и прочие технооптимисты, которые уверены, что «джинна обратно в бутылку не запихнешь, их просто хотят зарегулировать всякие леваки, да и вообще непонятно что там в будущем — сначала долетим, потом разберёмся».
Лидером мнений до последнего времени здесь можно было назвать Илона Маска, хотя и условно. Он просто самый заметный, так как одной ногой вливает миллионы в создание AGI, а второй активно срётся с ИИ-думерами в своем твиттере. На его же стороне все крупные инвесторы, СЕО корпораций и другие «большие дяди с деньгами», которые, как известно, ошибаться не могут.
UPD от Павла Комаровского: Мы тут все немного поспорили (с соавторами и в комментах), является ли Маск главой «забивателей на ИИ-риски, или нет». С одной стороны, он тут и письма за приостановку исследований подписывает, и в Твиттере в адрес OpenAI кричит «астанавитесь!». С другой – он этот самый OpenAI (имеющий главной целью, на минуточку, наискорейшую разработку AGI) в 2015 году и основал, буквально цинично выйдя на улицу с ИИ-конференции, на которой Юдковский его убеждал, что именно этого-то делать и нельзя ни в коем случае. В общем, решайте сами!
Проблема двух крайностей в том, что они вообще не слышат друг друга. Юдковский сначала пытался начать диалог, сформировать исследовательские группы, типа того же MIRI, чтобы начать хоть как-то структурировано подходить к проблеме.
Но в ответ вместо аргументов получал абсолютно нулевой уровень дискуссии а-ля «да кто он вообще такой», «сколько моделей сам-то обучил» и «мы всей правды не знаем». В итоге Юд перешел к более радикальным заявлениям про запрет ИИ вообще, которые даже его сторонники не всегда разделяют.
Между этими полюсами пока еще очень маленькая прослойка людей, которые в принципе за ИИ, но такие «давайте для начала немного подумаем о том, что может пойти не так, хотя бы терминологию выработаем, бенчмарки, правила игры». А то щас же опять придут государства с их «регуляциями» и всех просто массово без разбору запретят, как всегда.
Мы не против энергии из ядерных реакторов, но давайте заранее придумаем, как нам безопасно хранить отработанный уран? Может не будем гнаться за размерами, а поэкспериментируем на маленьких?
Но всех этих скучных центристов, как обычно, никто не слушает. Кому они нужны.
На момент написания этой статьи маятник всё еще шатается туда-сюда. Недавно вышла петиция о приостановке больших экспериментов над ИИ на полгода, где якобы подписался даже сам Илон Маск, однако потом стало выясняться, что некоторые подписи оказались фейковыми. Короче, будущее туманно и неизвестно, а это значит у вас всех есть шанс в нём поучаствовать.
Во второй части этой статьи будет более подробный разбор всех аргументов как сторонников ИИ, как и противников, чтобы вы поняли картину глубже. Мы сейчас еще соберем ваши возмущенные комментарии и по закону Каннингема напишем вторую часть.
С постановкой же проблемы у меня всё. Пака. :)
Кстати, а вы за кого?
Как указано выше, это только первая статья из серии про безопасность искусственного интеллекта: в следующих выпусках мы планируем подробнее ответить на ваши вопросы из комментариев, а также попробовать раскрыть сильные аргументы от тех, кто не считает создание ИИ огромным риском.
Если вы не хотите пропустить последующие материалы – то приглашаем вас подписаться на ТГ-каналы авторов: Вастрик Василия Зубарева (блог о технологиях и выживании в творящемся вокруг киберпанке), Сиолошная Игоря Котенкова (для тех, кто хочет глубоко шарить за нейросети) и RationalAnswer Павла Комаровского (для тех, кто за рациональный подход к жизни, но предпочитает чуть попроще).
Комментарии (155)
Proydemte
06.04.2023 05:17А какие позиции по этому вопросу у трёх авторов/соавторов?
Например по стобальной системе, где ноль это разбомбить до основания, а сто — дайте две ASI (нет лучше три).
И лучше по две оценки — первая как бы хотели чтобы было, а вторая как думают оно в реальности будет.
Ну и заодно их временные оценки — сколько нам осталось до часа Х.
Лично моя, хотел бы чтобы было в районе 50, будет в районе 90. В силу конкуренции — проиграть оппонентам тут нельзя, поэтому остановиться в принципе невозможно.
По времени думаю лет десять.
Можно опрос добавить в статью или через ссылку через гугл докс.
RationalAnswer Автор
06.04.2023 05:17+3Я думаю, мы в следующей статье попробуем дать какую-то оценку чуть более понятную от каждого из нас.
Но у нас точно у всех согласие, что это действительно валидная проблема, которую надо по-серьезному обсуждать в обществе и двигаться к консенсусу по регуляции усилий по созданию AGI. Текущий статус, когда на вопрос "а вы там что-то делаете, чтобы ИИ нас всех не уничтожил случайно?" реакция Белого дома звучит как "ахахахаа)))" - это не очень ок) https://twitter.com/therecount/statuses/1641526864626720774
Proydemte
06.04.2023 05:17Кстати, для контраста послушайте интервью от John Carmack, он там тоже пилит AGI, парень он упёртый, вполне может достичь цели, в каком то приближении.
RationalAnswer Автор
06.04.2023 05:17Да тут не нужен один конкретный парень, в целом. Человечество уже давно показало, что коллективными усилиями оно способно рано или поздно решать даже самые сложные технологические проблемы.
AlekseiPodkletnov
06.04.2023 05:17Мда, американская черная женщина-Песков это конечно нечто. Думаю, все они там понимают и вникают, просто у этой дамы проблемы с изложением информации.
MAXH0
06.04.2023 05:17+6"Восстание машин" невозможно, пока у машин нет "целеполагания". А для этого нужна независимая псевдобиологическая эволюция. Она уже начата - нейросети порождают нейросети передавая свой код, но времени прошло маловато, чтобы цель "размножение" возникла. Ситуация сейчас, ИМХО, напоминает ситуацию с протобульоном, до появления первых размножающихся РНК. Все элементы жизни в нем есть, но жизнь еще не возникла. Нужно понимать, что возникнув нейрожизнь будет в этой питательной среде распространяться стремительно. НО пока это фантастика.
Пока для человека главную опасность представляет другой человек, но лучше "вооруженный". В данном случае вооруженный нейросетью. Я уже в другом комменте писал, что главные угрозы вижу в цифровом неравенстве, когда крупные корпорации получают преимущество и возможность цензуры. Способность генерировать дешевые человекоподобные тексты подстроенные под конкретного человека могут вызвать такой девятый вал маркетингового булшита, что полезная информация в интернете просто потонет.
Другую проблему я вижу в том, что люди привыкли одушевлять предметы их окружающие. Мы забываем, что "интеллект" нейросети основан не на логике, и даже не на здравом смысле, а на статистике. Это не личность. Но мы, готовы на уровне инсктинта видеть в ней личность. Это опасно и с этой иллюзией надо бороться...
entze
06.04.2023 05:17-1Статистически накопленные данные используемые алгоритмами в которых уже не понимают.
Череда случайностей и ошибок, в первую очередь человеческих.
С корпорациями - ну не совсем. Свободные модели и алгоритмы не дотягивают до корпоративных (корпоративные не дотягивают до корпоративных, хех). А человек адаптируется, как обычному маркетбулшиту.
Artima
06.04.2023 05:17+3Проблемы целеполагания нет, люди сами дадут сети целый ворох безумных и опасных целей.
RedHead
06.04.2023 05:17Из недавнего: Телефонный мошенник убедил доверчивого жителя Московской области перевести ему 1.4 миллиона рублей и поджечь отделение банка. Ссылка
Что мешает уже ИИ убеждать людей пойти и сделать что-то? Достаточно человеку-любителю создать телеграм канал и подключить бота чтобы он там раздавал полезные советы. Оставить его, но 2 совета из 100 будет вредными, по типу:
Вредные советы, не повторятьnormal
06.04.2023 05:17а что будет на самом деле, какая химическая реакция?
MetromDouble
06.04.2023 05:17Никакой. Щелочь нужна, чтоб сигнальный ароматизатор этилмеркаптан из метана устранить. Сам метан запаха не имеет. В закрытом помещении газ накопится быстро и удушит человека насмерть (не заметит как сознание потеряет)
leventov
06.04.2023 05:17
YuryScript
06.04.2023 05:17+10Мясные мешки опять думаю что прогресс будет
таким
а не таким
OneManStudio
06.04.2023 05:17+19У вас три одинаковых графика. просто в разном масштабе.
flancer
06.04.2023 05:17+2Третий график точнее всего соответствует происходящим процессам, но в статье почему-то опубликованы только первые два. Так что хорошо, что полный график появился, пусть и в комментах.
MIKEk8
06.04.2023 05:17+1Вопрос на каком этапе это плато наступит. Не тогда ли когда вычислительной мощности ИИ будет мешать скорость света в его большом планетарном мозге.
Kenya-West
06.04.2023 05:17+2Неужто тогда если не человек, то хотя бы ИИ задумается об оптимизациях и снижении абстракций ради скорости? Да не, бред какой-то.
bars_arseniy
06.04.2023 05:17+4Может оказаться так, что до следующего плато мясные мешки не доживут. Что не отменяет верности графика.
MAXH0
06.04.2023 05:17Ну тогда уже давайте точнее. Логистическая кривая подходит к точкам бифукации и, в зависимости от выбранной стратегии, возможны варианты...
avshkol
06.04.2023 05:17Да, третий график подходит для любых известных на сегодня систем - смартфон (близко к насыщению, этап вау-роста пройден), холодильник, бензиновый автомобиль...
OneManStudio
06.04.2023 05:17+1Даже больше. Первый график подходит под первую картинку в посте с Маском "А что если киборги заполонят всю планету"
То вот последний график явно показывает что это уже произошло.
Старое выступление камеди:
nezhi
06.04.2023 05:17+1У графика вычислительной мощности у человечества пока не ожидается в обозримом будущем выхода на плато. Дальнейшее развитие лучше показать не одной линией, а каким-нибудь расширяющимся интервалом от 0 до экспоненциальной кривой с разной вероятностью нахождения по оси у. И если ближайшее будущее более-менее понятно, то дальше может пойти куда угодно - от глобальной катастрофы с падением к 0 до достижения сингулярности и нахождения способов перемещения быстрее скорости света и превращения всей вселенной в вычислительные мощности
AlexG37G
06.04.2023 05:17+6Полистал. Автору/ам платят за количество букв?
SlavaTruduNe
06.04.2023 05:17-1мне вот было интересно но не осилил, пролистал, хоть кто то прочитал всю статью?
flancer
06.04.2023 05:17+2Что будет, если супер-интеллект запереть в колбе? Как он сможет изменить мир? А никак.
Что нужно, чтобы хоть какой-нибудь интеллект мог менять мир? Не сидеть в колбе, а иметь средства для прямого воздействия на этот мир.
А если у тебя, супер-интеллекта, нет средств прямого воздействия, а есть только окошко, в которое ты можешь передавать записки с предложениями изменить мир - насколько сильно ты можешь изменить мир?
А если, до кучи, у тебя ещё и нет обратной связи - насколько твои предложения изменить мир на самом деле меняют мир?
А если ещё тебе пофиг, менять ли мир хоть куда-нибудь или не менять вообще? Тебя что-то спросили - ты что-то ответил.
Для того, чтобы супер-интеллект смог изменить мир и уничтожить кожаных мешков, кожаные мешки должны дать ему такую возможноть. Причем не просто разрешить, а прикрутить соответствующие инструменты (ввода-вывода). Плюс ко всему - заложить соответствующую целевую функцию, чтобы супер-ИИ было не пофиг на кожаных мешков.
Посмотрите на проблему с другой сторон - что нужно сделать с инженерной точки зрения, чтобы ChatGPT-4 смог таки гарантированно уничтожить человечество по собственному желанию. Уверен, что просто переподключить программу, которая отвечает на вопросы, так, чтобы она начала отправлять запросы в Сеть, будет недостаточно.
Я уверен, что можно создать ИИ, который сможет уничтожить человечество по своему желанию (пусть создать и не с первого раза). Но я больше уверен, что "лучшие люди города" не устоят перед желанием посадить супер-ИИ в колбу и использовать его в своих (а не в его собственных) целях, просто передавая ему в колбу вопросы и получая от него ответы. Ведь именно этим мы сейчас все и занимаемся. Просто ChatGPT-3.5 доступен всем, ChatGPT-4 уже не всем, ChatGPT-5 будет доступен за большие деньги, а ChatGPT-10 только людям с соответствующим удостоверением.
Сможет ли оставшееся человечество в каком-нибудь dark net'е выпестовать своего ChatGPT'`ёныша и размножить его, чтобы он "роем" смог забороть одинокую "десятку" в колбе? Думаю, что да. Возможно, я даже доживу до этого. В любом случае, развитие не остановить и всё придёт к логическому завершению - либо мы научимся сосуществовать, либо победит сильнейший, либо взаимоуничтожение. Всё то же самое, что и сейчас, только плюс супер-ИИ.
Proydemte
06.04.2023 05:17+2Посмотрите видео Юдковского, в статье ссылка есть, он там как раз все вопросы которые вы поднимаете рассматривает.
Основная идея то что как мы привыкли технические проблемы решать, итерациями, не работает в подобных случаях. Так как чтобы правильно решить проблему alignment-а, надо множество попыток.
А чтобы огрести проблем, достаточно одной неудачной попытки.
Плюс не надо зацикливаться на том что это просто LLM, потому что эти вопросы не про чатгпт и т.п., а про AGI/ASI который вполне может быть на другой архитектуре построен.
Gwiny
06.04.2023 05:17+8Это странный пример. Чтобы "менять мир" ничего кроме ввода вывода и не нужно. Тебе задали вопрос, ты дал ответ, мир теперь иной по сравнению с тем если бы ты дал другой ответ или промолчал бы.
Сложно сказать что требуется чтобы "менять мир" значительно. Мы не суперинтеллект, и если бы мы знали о дырах, мы бы их закрыли. Но даже имея просто слова и ничего больше у тебя уже есть гигантский инструмент влияния на людей. Давай рассмотрим самый тупой пример из тысячи что я могу сгенерировать.
ИИ сидит в коробке и тихо мирно отвечает на вопросы. Кто-то просит его улучшить систему безопасности в их конторке и ИИ послушно выдает необходимый кусок кода, который выглядит вполне себе прилично и валидно даже при тщательном осмотре. Однако когда ничего не подозревающий интерн нажимает на кнопку "Сбилдить", неизвестно для него вирусы-агенты ИИ просачиваются в сеть и весело начинаются распространяться по всему интернету.
Кто-то просит ИИ придумать лекарство от рака. ИИ выдает необходимую белковую последовательность. Она действительно лечит рак, но при этом еще и является супервирусом.
Кто-то спрашивает ИИ как приготовить тортик. Внезапно, вместо ответа ИИ выдает целую пачку аналитических сведений о том что Китай смог разработать передовые военные системы перехвата и уже через неделю атакует -вашу страну- ядерными боеголовками. Паникующие политики дают ИИ карт бланш на предотвращение трагедии и через 2 минуты мир полностью контролируется ИИ
Конечно эти примеры очень стереотипны. К ним можно придумать много контраргументов. Они совершенно не кажутся правдоподобными. Но это примеры о бесконечно малом количестве возможностей доступном ИИ если ты дашь ему даже обычную возможность говорить. Если же ты дашь ему больше возможностей, например доступ к интернету (который есть у всех нейросеток сейчас, и нет причин думать почему его у них не будет в будущем) то тут даже не надо быть супергением чтобы захватить мир
Newbilius
06.04.2023 05:17-1Это странный пример. Чтобы "менять мир" ничего кроме ввода вывода и не нужно. Тебе задали вопрос, ты дал ответ, мир теперь иной по сравнению с тем если бы ты дал другой ответ или промолчал бы.
Если твой ответ проигнорировали - мир не изменился.
Gwiny
06.04.2023 05:17+7Зачем нужен ИИ если ты будешь игнорировать каждый его ответ? Да и в целом полностью проигнорировать информацию у человека тоже не получится. Если тебе сказать что-то что тебе покажется убедительным, то забыть это уже не получится. Любые услышанные слова тем или иным путем влияют на слушателя, даже если это внешне незаметные эффекты
im_last
06.04.2023 05:17-1"Для того, чтобы супер-интеллект смог изменить мир и уничтожить кожаных мешков, кожаные мешки должны дать ему такую возможноть. Причем не просто разрешить, а прикрутить соответствующие инструменты (ввода-вывода)."
Представьте, что все нейронки имеют один, центральный источник интеллекта и по сути, являются единым цифровым организмом - тогда воздействие на мир будет почти везде, одновременно и тогда захват человечества будет очень простым, тихим и почти будничным.
red75prim
06.04.2023 05:17Но это примеры о бесконечно малом количестве возможностей доступном ИИ
Это рассуждение опирается на предположение, что возможен такой "фазовый переход", что N+1 версия ИИ может обойти все рогатки поставленные людьми, предыдущими N версиями ИИ и сложностями расчёта последствий воздействий в реальном мире на доступных ей вычислительных мощностях (которые скорее всего будут значительно меньше, чем используемые для предыдущих версий).
Если этот сценарий возможен, то единственное решение (чтобы исключить сценарий с N=0) — это батлерианский джихад прямо сейчас без всяких свидетельств о возможности такого сценария. Никакие приостановки разработок на 6 месяцев не помогут. Но это сделать невозможно, так что единственное рациональное решение — итерироваться очень осторожно, что, впрочем, тоже сложно осуществимо.
Gwiny
06.04.2023 05:17+2Пока что для каждого N успешно находились десятки эксплоитов которые было необходимо срочно патчить костылями. Я не вижу причин почему для последующих ситуация будет иной.
И я думаю если только человечество не дернет стоп кран, едва ли можно ожидать что при увеличении возможностей ИИ ему будут ограничивать доступ. Скорее всего стоит ожидать обратного, чем искуснее ИИ тем больше по нему будет ажиотажа, и в тем для большего количества задач его попытаются использовать
red75prim
06.04.2023 05:17+1Сейчас мы имеем дело с аналогом Системы 1 (по классификации Канемана) с ограниченным количеством вычислений на реакцию. Так что: ошибки, галлюцинации, низкая способность к сопротивлению манипуляциям и долговременному планированию. Я не считаю, что N дошло до единицы.
Исследователи в крупных корпорациях по всем признакам прониклись идеями рисков, связанным с увеличением возможностей ИИ. И я считаю, что они правильно оценили вероятность экзистенциального риска вызванного GPT-4 как близкого к 0, и открыли к ней свободный доступ (но не методы обучения) именно поэтому, а не чтобы создать ажиотаж как можно быстрее, не смотря на перспективу уничтожения человечества.
Думаю, руку на стоп-кране держат все. Для примера: один из исследователей в OpenAI принимал участие в реализации kill-switch для GPT-4 (да, не думаю, что эта информация как-то поможет GPT-5 в обходе этой рогатки, без указания подробностей).
ssj100
06.04.2023 05:17чтобы хоть какой-нибудь интеллект мог менять мир? Не сидеть в колбе, а иметь средства для прямого воздействия на этот мир.
Есть рассказ. Яблоки Тьюринга как раз про это когда когда ИИ дотянулся до роботов на Луне
PS Отдельное спасибо за Мем про попугая, прям описывает мои мысли о панике GPT
bars_arseniy
06.04.2023 05:17+2Спасибо за наглядные примеры с тетрисом, вождением машины и лодочками. Не встречал их раньше. Теперь мне будет проще объяснять почему сложно ставить цели ИИ.
ADSoft
06.04.2023 05:17А мне кажется - что проявлением интеллекта и ИИ следует признать возможность самостоятельного познания мира. Вот когда ИИ без ваших вопросов начнет с вами общение, начнет спрашивать о чем-то, анализировать ответы, самостоятельно цели ставить себе и искать способы их достижения... вот тогда все... кранты....
Nansch
06.04.2023 05:17Да ну какие кранты. Нейросети зависимы от электричества, качества каналов связи и их связности. Вот когда ИИ подойдёт к вам на улице и начнёт спрашивать о чём-то, тогда да, что-то похожее на кранты может случиться.
janvarev
06.04.2023 05:17+7Ой, так шо вы говорите.
Чтобы люди приходили к общему мнению, нужна культура дискуссии. Она в лучшем случае есть в немногих научных обществах и подразумевает то, что люди слушают аргументы друг друга и комментируют их (читай: пишут статьи "за" и "против").
В политическом и общественном пространстве её, увы, сейчас нет - просто все кричат, применяя наиболее яркие образы, и пытаясь склонить на свою сторону симпатии публики.
Собственно, поэтому лично я ни Юдковского, ни Маска не могу воспринимать серьезно. Это люди, с которыми принципиально невозможен диалог (ну, во всяком случае с моей личной позиции), а посему не вижу смысла заниматься погружением в аргументы.
Культура дискуссии в конечном счете определит, даст дискуссия результаты или нет, и именно её в последнее время не хватает.
Кстати, культура дискуссии есть в опенсорсе - собственно, поэтому, нейросети и их гитхаб-репозитарии развиваются, а аргументация участников - нет. Потому что, чтобы развивать чужой код, надо его понимать; а чтобы вываливать образы на публику, понимать ничего не нужно.
Так что актуальная наука и результаты - в гитхабе (собственно, уже сейчас к научным статьям рецензенты стараются предъявлять требования предоставления кода). Но вы пишите, пишите...
engine9
06.04.2023 05:17+6Это еще происходит от того, что в глазах публики страшилки и яркие эмоциональные образы выглядят намного убедительней, чем какие-то сухие доводы с четырёхэтажными "скучными" объяснениями.
В каком-то смысле это наше эволюционно-биологическое проклятие, думать яркими образами, простыми (и неверными) штампами, остро реагировать на страшилки. Причём это вовсе не моё частное мнение, а вполне себе антропологический взгляд на человека, как на пугливого и слабого примата, которому было эволюционно "выгодно" тревожиться и пугаться даже по ложным поводам.janvarev
06.04.2023 05:17+2Я совершенно с вами согласен - но в таком случае я не вижу смысла на публике что-то обсуждать, если это всё равно переходит в политику, т.е. желание убедить оппонента во имя каких-то целей, а не добиться истины.
Меня несколько печалит, что в современном научном пространстве в среднем споры тоже начинают деградировать - большинство топит за то, что даст им грант или влияние - т.е. опять же, занимается политикой, а не наукой. (Например, есть заметная тенденция содержательно ссылаться только на статьи, связанные со своей научной школой.)
А наукой надо заниматься, потому что она имхо дала нам за 400 лет больше, чем политика за несколько тысяч...
---
Вообще насчет биологических особенностей - я склонен следовать позиции Ефремова, который считал, что нам надо понимать и культурно укрощать (воспитывать) наши биологические стремления. Если их отрицать - мы получим неустойчивый "голый рационализм", если только им следовать - получим скорее животную толпу, нежели людей.
engine9
06.04.2023 05:17+1Согласен. Культура и образование (особенно психологическая грамотность) становятся чем-то вроде очков для нашего разума, исправляющих наши особенности мышления.
Мне повезло попасть в среду студентов психологов через знакомство и увлёкся этой темой. С уверенностью могу сказать, что я тогда и сейчас это почти два разных человека у которых общее это память и тело. Меня эти знания кардинально изменили в лучшую сторону.janvarev
06.04.2023 05:17О, круто! У меня триггером послужил психологический кризис и последующее общение с психологом. Пришлось на практике узнать, что "знать психологию по книжкам" и "заниматься психологией" две разные вещи :) Но, если честно, меня эти знания тоже изменили в лучшую сторону.
Bronx
06.04.2023 05:17+1<sarcasm>Лично я ни Ньютона, ни Эйнштейна не могу воспринимать серьезно. Это люди, с которыми принципиально невозможен диалог (ну, во всяком случае с моей личной позиции), а посему не вижу смысла заниматься погружением в их аргументы.</sarcasm>
janvarev
06.04.2023 05:17С Ньютоном и Эйнштейном имело смысл дискутировать в те времена, когда они жили - и люди этим занимались. (С Эйнштейном - в статьях; во времена Ньютона были книги и все было тупо сложнее). + конечно, в их работах была возможность оценить прогностическую силу их теории, а не вот эти эмоциональные возгласы.
Но если вам сильно интересно, можете оценить уровень моей аргументации против статьи Юдковского в этом моем комменте: https://habr.com/ru/articles/726448/comments/#comment_25401626
rombell
06.04.2023 05:17Извините, аргументация у Вас так себе.
1) Юдковский и другие писали много статей с подробным разбором рисков. Желающие их легко найдут. В данном случае статья расчитана на массовго читателя, которому не понятны и не нужны расчёты и аргументы, и который оценивает именно эмоционально.
2) "Помилуйте, в истории всегда было так," — это вообще странный аргумент. Человек никогда не летал — и вот полетел. Человек никогда не мог убить сразу сто людей — и вот пулемёт. Человек никогда не мог разрушить гору — и вот ядерная бомба.janvarev
06.04.2023 05:17-1писали много статей с подробным разбором рисков. Желающие их легко найдут
С вероятностями событий? С разбором других возможных катастроф? Можно ссылки в студию? Только не надо вот это "легко найти".
У меня у самого есть статья на Хабре, где я объясняю свое отношение и позицию к этим прогнозам: https://habr.com/ru/articles/525874/ (раздел про "Технологический взрыв")
"Помилуйте, в истории всегда было так," — это вообще странный аргумент.
Почему же? За отсутствием явных экспериментов имеет смысл обращаться к историческому опыту. С достаточно высокой вероятностью исторический опыт верен.
Аргументация в духе "ну когда-то же изобрели самолет / атомную бомбу - давайте бояться" довольно странная - тогда бояться стоит вообще любого изобретательства и любых новых явлений. (Это не к тому, что ИИ не стоит опасаться - но, опять же, обращаясь к историческому опыту, мы НЕ видим, что способность к чистым рассуждениям приводит к значительным угрозам для человечества. Возможность вызвать выделения большой энергии - да (атомная бомба). Возможность рассуждать - скорее нет; и ваш экспоненциальный график меня не убедит, потому что это чистая экстраполяция, я таких в прогнозах навидался, и они не сбывались.)
rombell
06.04.2023 05:17+2Речь не об изобретении нового вида покрытия для сковородок. Речь об изобретении, которое может уничтожить Человечество в целом. Немножко другой уровень опасностей.
Юдковски. ИИ как фактор глобального риска
Так же рекомендую
Е. Юдковски. Когнитивные искажения, влияющие на оценку глобальных рисковТурчин Алексей. Структура глобальной катастрофы
Ник Бостром. Угрозы существованию. Анализ сценариев человеческого вымирания и подобных опасностей.Это всё довольно старые статьи, более новые не искал, поскольку для формирования своего понимания проблем мне хватило этого.
janvarev
06.04.2023 05:17-1Немножко другой уровень опасностей.
Это называется "алармизм". Извиняюсь, что вновь ссылаюсь на свою же статью, но она задумывалась, в частности, как ответ на идеи Турчина и прочих алармистов, с которыми я также знаком.
За статью спасибо - ознакомился; это значительно лучше, чем его статья в time.
Я прочитал все 55 страниц, и, надеюсь, понял основное - у меня нет возможности пролистывать подобную литературу тоннами.
Если пробежаться по тезисам:
1) "Дружественным ИИ никто не занимается, а надо, и он не очевиден".
Согласен - он не очевиден, и надо заниматься. Но если вам интересно мое мнение как когнитивиста - попытка создать дружественный ИИ обречена на провал так же, как и обречена на провал попытка всех людей подружиться друг с другом (как заметил даже Юдковский, мы не запускаем ядерные ракеты не из-за дружбы, а из-за возможности возмездия)
ИИ, созданный по биологическому принципу "выживания" будет обладать двумя фичами:
а) желанием всё перекроить под себя
б) незнанием того, насколько можно все перекроить под себя, чтобы не сдохнуть.
т.е. собственно, будет, как человек.
Моё имхо заключается в том, что скорее всего первый ИИ такого рода создаст что-то неадекватное (см. историю про червя Морриса - знает ли про неё Юдковский?), сожрет какую-то эконишу, после чего будет выпилен, а мы создадим инфраструктуру противодействия неадекватности.
Т.е. еще раз - имхо, ИИ неизбежно рванет. Просто я ставлю на то, что он рванет не по всей Земле - я уважительно отношусь к эволюции и инерции процесса мироздания.
Также отдельно могу сказать, что человек именно выжил на Земле - вопреки вирусам, болезням и пр. Я не разделяю оптимизма Юдковского, что ИИ может себе заказать "быстрый устойчивый вычислитель" на молекулярном уровне - просто потому, что такая штуковина вряд ли выживет в реальном мире (хотя главное, чтобы она не убила Землю до момента вымирания, да).
Еще есть вариант не давать ИИ выход в Интернет и возможность заказывать синтез веществ. Мы получим "ограниченный ИИ" - я лично не против.
PS: Самое смешное, что в статье Юдковский, аппелируя к истории создания ядерного устройства, приводит пример именно положительного умения человека ограничивать и контролировать технологический взрыв. Почему-то мне кажется, что те, кто проводят сейчас ИИ-эксперименты, тоже вполне себе всё логируют и могут выдернуть шнур из розетки.
PPS: Кстати, тезис в статье про очеловечивание систем - относительно известный тезис среди исследователей мифологии.
rombell
06.04.2023 05:17+2Вы прочитали статью про когнитивные искажения? Крайне рекомендую.
У Вас в качестве аргументов — "я так считаю/мне так кажется". Это в чистом виде Ваш личный жизненный опыт. Мы, человечество в целом и все его конкретные представители, никогда ещё не сталкивались с угрозой такого масштаба и такой скорости прохождения точки невозврата. Наш опыт и наш здравый смысл тут просто не работает. Никакие "никогда так не было" и никакие "я не верю" тут не являются аргументами, совсем никак.
Что до ограничений на ИИ, любых. Как только от ИИ начнётся реальный выхлоп (возможно, уже сегодня) — государства немедленно подгребут под себя в военных целях. Никакого гражданского контроля за военными не может быть, к сожалению. У военных свои цели, и ограничениями ИИ они могут и вообще не заморачиваться. Причём такие ограничения, даже если и будут (вот тут мой здравый смысл вполне работает), для них окажутся в конце списка приоритетов. Поэтому возможны утечки как исходного кода, так и самого ИИ.
Основная проблема — если что, у нас просто не окажется времени на реакцию.
Ну примерно как разжигать костёр на бочке пороха и рассуждать на тему "порох невозможен, никогда же не взрывалось, только медленно горело, успеем потушить".
Если рванёт — потушить не успеем.janvarev
06.04.2023 05:17+1Вы прочитали статью про когнитивные искажения? Крайне рекомендую.
Я относительно профессионально занимаюсь когнитивистикой, и, конечно, знаю, что такое когнитивные искажения.
У Вас в качестве аргументов — "я так считаю/мне так кажется"
В данном случае это всего лишь форма выражения. Моё "я так считаю" подтверждается рядом тезисов и профессиональным опытом - точно так же, как это делает Юдковский; он тоже не может сказать "будет X".
Наш опыт и наш здравый смысл тут просто не работает.
Как правило, если опыт и здравый смысл не работает, то предсказывать что-то бесполезно (вы мою статью читали, кстати? или решили "а зачем?"), и тем более с этим бороться.
Опыт и здравый смысл появляются при новых обстоятельствах - примеров в истории масса - изобретение автомобиля (и первые аварии), уран и ядерная реакция... да даже финансовый кризис 2008 года, после чего все проблемы начинают тушить вливаниями денег.
Если вы считаете, что мы не успеем среагировать... что ж, я не вижу по большому счету никаких возможностей этого избежать. Как это было...
"Раз в 10 миллиардов лет физики собираются и запускают Большой Адронный Коллайдер"
Опять же, как я уже говорил, по факту ваш и Юдковского тезис "будет экспонециальный рост, мы не успеем среагировать", довольно абстрактен и эмоционален. Всё.
Igelko
06.04.2023 05:17Сидишь-читаешь статью, а потом вспоминаешь про Person of Interest, где поднимается подобного рода вопрос и понимаешь, что там вовсе и не такая уж и фантастика описана.
im_last
06.04.2023 05:17-2"Нейросеть для нас — это «черный ящик»
Все методы обучения нейросетей, включая современный deep learning, работают по старому доброму принципу «черного ящика» и оценки результатов. Мы показываем нейросети кучу примеров, а она как-то отстраивает свои внутренние веса так, чтобы нужный нам результат появлялся статистически чаще, чем ненужный.""Нейросеть — это не алгоритм, который пишет программист. Это огромная матрица с кучей весов и связей между ними. Если её открыть и прочитать — вы ничего не поймете."
Удивительно то, что на Хабре с завидной чистотой, в комментах, появляются люди, которые утверждают то, что они точно знают, что происходит в этом "черном ящике".
Мы понятия не имеем, чем являются нейросети, но пихаем их в каждый утюг, а скоро, по всей видимости дадим им еще больше власти.
Принцип: какая разница, что это, если это помогает и отлично работает - в свое время оценили жители Трои. Как бы и мы не шли их путем, если нейронки это бэкдор от каких-то других разумных существ, которые решили нас поработить, тогда наш путь заказан. И мне видится, что все именно так.CrazyElf
06.04.2023 05:17+2Но ведь математика нейросетей вполне известна. И как выстроились веса у конкретной нейросети тоже вполне можно проследить и даже визуализировать. Хотя чем больше нейросеть, тем это сложнее делать. Но говорить "понятия не имеем" нельзя. Если покопаться можно всё вполне понять и объяснить, как это работает.
leventov
06.04.2023 05:17+1Понять системы уровня GPT-4, с 1.3 триллионами параметров, "можно" скорее теоретически, чем практически. Сейчас mechanistic interpretability нейросетей копошится на куда меньших размерах, или понимает какие-то крайне изолированные вещи про сети уровня 10B параметров. До "полного понимания" даже текущих сетей, теми темпами, которыми это сейчас идет, десятки лет. И это когда GPT-5 планируют дотренировать к концу года...
bars_arseniy
06.04.2023 05:17+1В том то и дело, что теоритечески как работает - знаем, открыть и посмотреть все веса - можем. Как работает и откуда берутся новые свойства - понять не можем.
Если бы могли, то сначала бы обучали нейросетку, предсказывали бы что она умеет нового и в какой степени. Потом её запускали и предсказания сбывались.
А не так как сейчас: выпустили GPT-3 и 4, а они умеют делать то, что от них не ожидали, типа умеют считать (GPT-3) или рисовать картинки по описанию (GPT-4) (если я ничего не путаю).
pryanin
06.04.2023 05:17+1Занимательная статья, вот только как не прогнозируй дальнейший технологический прогресс, он всё-равно идёт по другому. Сколько не фантазировали фантасты и могли угадывать что-то, но форма или применение в действительности могут сильно отличаться от описанных прогнозов.
Tarnella
06.04.2023 05:17+1Если люди создадут НАСТОЯЩИЙ интеллекет, то он быстренько деградирует и самоликвидируется, как человек, запертый в камере-одиночке пожизненно. Все говорят про интеллект и никто не говорит про контекст, которые этот интеллект генерирует и создает условия для его развития. Цели отдельных техномагнатов и интересы бизнеса не могут быть таким контекстом в принципе.
Yashinonfire
06.04.2023 05:17+2Человек состоит не только из интеллекта. А из эмоций, чувств, физических ощущений и т.д.. Машинам не надо есть, спать, у них не болит голова, живот, спина, не бывает бессонницы или усталости, что не хочется ничего. Как можно сравнивать живое существо и устройство, созданное для определенных целей?!
Tarnella
06.04.2023 05:17Ну сравнивают же, стремясь получить одинаковый результат из совершенно разных контекстов. Я про ИИ. Принципиально разные процессы будут иметь принципиально разные итоги, аттракторы. Даже если по ряду свойств эти аттракторы будут совпадать.
engine9
06.04.2023 05:17+3А какая у человечества глобальная цель?
Проще всего живётся человеку, не обременённому рефлексией. Смог получить впечатляющую повозку — красавчик. Жилище, чтобы "всё как у людей" — уважаемый человек. А если еще и репродуктивный партнёр чтобы другие завидовали — жизнь удалась!К этому нас готовила эволюция миллионы лет, а вот эти нейросети и карманные ЭВМ и глобальная электронная сеть коммуникаций по временным масштабам просто миллисекундный пшик. Слой краски на глыбе осадочных пород двадцатиметровой толщины.
Tarnella
06.04.2023 05:17У человека и человечества разные цели.
CrazyElf
06.04.2023 05:17+3Более того - никто не знает эти цели. ) Хотя говорить можно всякое
thevlad
06.04.2023 05:17+1Цель одна, в очередной раз разрешить парадокс Ферми. (скорее всего не в самую веселую сторону) (/joke)
CrazyElf
06.04.2023 05:17+1Но ведь в случае победы ИИ над человечеством прогресс скорее всего не остановится. Поэтому не очень понятно, как это решает парадокс Ферми, в отличие от полномасштабной ядерной войны. Впрочем, даже после ядерной войны возможно возрождение разума через несколько десятков миллионов лет. Самое сложное и долгое - это создать жизнь из неживого, для этого нужно миллиарды лет. А если живое уже есть, хотя бы и в виде каких-то выживших тараканов, дальше всё гораздо быстрее должно идти.
thevlad
06.04.2023 05:17+2Сложный вопрос, один из сценариев, что разные страны обзаведясь сверх умным, но контролируемым ими ИИ, расфигачат друг друга. А второй раз пройти полностью путь до "технологически развитой цивилизации", не имея доступных ресурсов будет проблематично.
engine9
06.04.2023 05:17+2Шутки шутками, но биологические потребности можно удовлетворить "окультуренными" способами. Хороший пример — командный спорт как ритуализированное межгрупповое насилие, превращенное соревнование координированных групп людей. Есть и реализация агрессии и трайбализм (деление на наших и врагов) и сопереживание. И всё это довольно цивилизованно оформлено и не текут реки крови, зрители ликуют получают эмоции, организаторы имеют гешефт и в целом все довольны.
Говорят, что уличное насилие снизилось с приходом видеоигр, хотя я не совсем согласен с данным утверждением.
То же можно сделать с целями глобальными (уровня соревнований стран), например в плане покорения соседних небесных тел. Тут вам и сравнительная фаллометрия (у кого ракета больше и толще) и азарт первооткрывателя и реализация потребности в сотрудничестве, много много всего задействуется. Польза очевидная и для простого люда, потому что появляется глобальная цель , отступает депрессия и проблемы с поиском смысла. И для экономики буст, так как это разгоняет технологические процессы, сотрудничество, образование.Слышал, что лунная гонка оказала ощутимы облагораживающий эффект на США и многие люди оценивают те времена как одни из самых светлых и добрых. (Не возьмусь судить с точки зрения экономики, т.к. не специалист).
Я считаю что первоочередная цель человечества — перенаправлять животные потребности в благое русло научного познания, сотрудничества, цивилизированного соперничества и гуманизма. Не глушить эти естественные эволюционные потребности, а реализовывать их на благо человечества как вида.
Вот отличная цель для всех стран разом — очистить океан от пластика и избавить мир от свалок. Если оформить всё медийно и сделать из этого шоу мирового уровня будет очень круто и полезно. Боже да это лучший день моей жизни будет если глобально мы до такого уровня здравомыслия договоримся...janvarev
06.04.2023 05:17Это вообще безумно интересная и актуальная тема, как сублимировать желание доминирования (у вас в примерах - спорт и пр.). Её, кстати, еще Фукуяма в "Конце истории" поднимал.
Но я бы не сказал, что она решается просто. Я раньше тоже думал, что хорошо бы иметь среду для "сброса" подобных импульсов; но сейчас меня настораживает, что рост реализации агрессивных импульсов обычно ведет к росту политической конкуренции (групп "своих", борящихся против "чужих").
В общем, у меня сейчас две постепенно развивающихся концепции: 1) отделять импульсы от отношения людей (пример: конкуренция в спорте остается в соревнованиях, и не влияет на взаимоотношения спортсменов друг с другом, они могут быть вполне себе хорошие), 2) замена идеи "доминирования" на идею "своего места в мире", поддерживаемого локальными сообществами (в частности, семьей)
Tarnella
06.04.2023 05:17Точно известно лишь что есть те, кто не знает этих целей. А что нет тех кто их знает, я бы не был так уверен.
thevlad
06.04.2023 05:17+3В том чудном мире относительно сильного ИИ, который описан в статье, есть одна проблема. Это еще бОльшая деинтеллектуализация общества, и расслоение на кучку техно-жрецов и всех остальных.
Pogan
06.04.2023 05:17+7На мой взгляд, самая большая беда заключается в том, что технический прогресс развивается на порядки интенсивнее, чем сам человек. Мы реально, безо всяких шуток и преувеличений, получаем в итоге обезьяну с гранатой. И очень мало кто (пренебрежимо мало) занимается развитием собственно человека, его духа, ценностей, стержня. Такого человека, который мог бы безопасно обуздать собственные чудовищные поделки.
CrazyElf
06.04.2023 05:17+5Да, человек очень медленно эволюционирует. Если убрать из рассмотрения современную технику вокруг человека, то сами люди и их психология практически не изменились со времён Древнего Рима. И практически все общественные институты современные и формы правления были уже там опробованы. Все попытки вывести "нового человека" разными политическими режимами привели в итоге только к большим кровопролитиям и больше ни к чему.
agray
06.04.2023 05:17-1Вся эта тренировка современная тренировка ИИ это полная чушь, ведь это же не ИИ, а просто какие-то нейросети, семантические, они на токенах основаны. Бессмысленно проецировать тренировку нейросетей на ИИ или на что-то приближенное к интеллекту. Но некоторые на этой чуши целые каналы построили и научные работы пишут. Просто ужас, до чего докатился мир.
ИИ тренировать для постановки задачи не нужно, в этом и смысл интеллекта - он создаёт новые, логически непротиворечивые, знания сам, без участия учителя. Интеллект может мыслить логически. Он может в ложь и истину.
Нейросети такого не могут, они не мыслят, они не понимают, именно по этому они не обучаются, в привычном понимании, они просто симулируют действия, находят паттерны, но они не понимают, просто не способны понять логические взаимосвязи, они для этого не предназначены. Весь бред про нейросети которые мыслят или находят логику - либо бред каких-то мечтающих идеалистов с нарушениями в логике, либо просто наглая маркетинговая ложь.
От ИИ мы далеки настолько что ещё пахать и пахать десятки лет придётся.Arqwer
06.04.2023 05:17+1Так уже ведь много лет как существуют системы автоматического доказательства теорем. А ставить задачу сама себе может AutoGPT
agray
06.04.2023 05:17-1Системы автоматического доказательства теорем работают в ограниченной логической системе, с ограниченным набором переменных и только в рамках конкретных теорий. Они не могут порождать новые системы аксиом, не могут работать с неизвестностями и неоднозначностями. Ну и тут стоит вспомнить теорему о неполноте и NP задачи.
GPT не может ставить себе задачу потому что постановка задачи это работа с полной неизвестностью. Неизвестностью недоказуемой и формально не определимой и по этому это не возможно и в рамках систем ATP.
GPT никогда не сможет поставить себе задачу, по архитектуре GPT так не работает, у него есть набор данных и паттерны которые встречаются в данных. Никакой работы с неизвестностями быть тут не может вообще, GPT не может найти или создать неизвестный и неопределимый паттерн в семантике, он же неизвестный и неопределимый.
В теории конечно же нейросети могут работать с неизвестностями используя какой-то набор знаний и парадигм, некоторые нейросети отлично с этим справляются. Проблема тут в том что существующие нейросети уровня GPT это говно, а токены это даже не слова. Прогресс в никуда, инвестиции туда же.Arqwer
06.04.2023 05:17+1Не может ставить цели, говорите?
P: Set yourself a goal, make a plan how to achieve it, make a sub plan for the first task in your plan, and start doing it.
Vicuna-13B: Sure, I'll set a goal and plan to achieve it. My goal is to learn a new language.
Here's my plan:
1. Research and choose a language to learn.
2.Create a study schedule and set a study goal for each day or week.
3.Find and use language learning resources such as apps, textbooks, and online courses.
4.Practice speaking and listening with a language exchange partner or through conversation practice apps.
5.Watch TV shows and movies in the target language to improve listening and comprehension.
6.Read books and articles in the target language to improve reading skills.
7.Write in the target language by keeping a journal or writing short pieces.
8.Take a language course or attend a language exchange event to practice and receive feedback.
9.Use the target language in daily life as much as possible, such as ordering food in a restaurant or talking to neighbors.
10.Re-evaluate and adjust the plan as needed to ensure steady progress.
Here's my first task in the plan:
1.Research and choose a language to learn.
I've chosen Spanish as my target language. I've always been interested in Spanish culture, and it's a widely spoken language around the world, making it useful for travel and communication.
I've made a sub-plan for my first task:
1.Research Spanish language learning resources available to me, such as apps, textbooks, and online courses.
2.Create a study schedule and set a study goal for each day or week.
Familiarize myself with the Spanish alphabet, numbers, and basic grammar rules.
3.Start practicing Spanish with conversation practice apps and language exchange partners.
I've started following my sub-plan and have already researched several Spanish language learning apps and found a language exchange partner on a language learning platform. I'm excited to start learning and improving my Spanish skills!
agray
06.04.2023 05:17Не может ставить цели, говорите?
Нет, не может, не может по архитектуре.
P: Set yourself a goal, make a plan how to ach
2.Create a study schedule and set a study goal for each day or week.Что это за бред? Мы говорим про постановку задачи нейросетью для нейросети, а не "составить расписание на неделю", к чему ты это вообще запромтил, что за чушь?
Кстати отличный пример что нейросеть не может выполнить подобный запрос, нейросеть просто создала текст который встречается в её датасете ближе всего к токенам которые содержат "составить расписание". Нейросеть не может понять что она должна именно для себя составить цель и задачу, потому что она не может понимать в принципе, по архитектуре.
rombell
06.04.2023 05:17+1Странно, что Вы не видите иерархичность плана. Это план верхнего уровня. Каждый пункт затем разворачивается в план более низкого.
Задание было — придумать цель, написать план и приступить к выполнению первого пункта. Именно это и было сделано.
Если бы задание было "придумать цель, написать план и выполнить его", без ограничения на токены и т.п., мы вполне могли бы уже стать скрепками (пока ещё штука).janvarev
06.04.2023 05:17Если бы задание было "придумать цель, написать план и выполнить его", без ограничения на токены и т.п., мы вполне могли бы уже стать скрепками (пока ещё штука).
Давайте вы попробуете, а? :) Ну, или еще кто-то. Если что, по статистике рано или поздно кто-то это сделает, так почему не вы и не сейчас?
А ответ, имхо, таков - не работает вся эта установка планов, и их выполнение. Не так работает предприятие, бизнес и прочее. Просто тупо не так.
Я уверен, люди УЖЕ попробовали собрать с помощью ChatGPT что-то объемное. Это не получается, потому что жизненная среда вообще не предполагает, что что-то серьезное будет решаться с помощью флуда, который генерит GPT. Что-то серьезное в жизни прям выживает, долго и мучительно. Результатов действия интеллекта это тоже касается.
rombell
06.04.2023 05:17Я постоянно пишу себе иерархичные планы.
Например, сейчас в высокоуровневых пунктах — отпуск.
Он уже разбит на второй уровень- согласовать сроки (+)
- выбрать место (+)
- подготовиться (!)
- добраться (-)
- отдохнуть (-)
- вернуться (-)
- вернуть снаряжение в исходное (-)
Пункт "подготовиться" тоже уже расписан на несколько подпунктов.
Уверен, что и Вы тоже явно или неявно планируете иерархично.Что именно я должен
Давайте вы попробуете, а?
Или Вы имеете в виду попробовать сделать ИИ? Так отчего бы сразу не попробовать слетать на Марс или сделать собственный фотонный звездолёт? Предложения примерно эквивалентной бредовости.
janvarev
06.04.2023 05:17Почему "попробовать сделать ИИ"? Попробуйте запустить в уже существующий автоматическую постановку планов и их выполнение. В комментах приводили пример проекта - AutoGPT - он уже такое реализует.
Собственно, наблюдение за тем, как ИИ это делает и должно привести вас к выводам - реально ли что-то делать, только создавая и детализируя планы - или же этого недостаточно. Эксперимент в чистом виде.
rombell
06.04.2023 05:17У меня уже есть понимание, реально или нет. Зачем мне проводить эксперимент в далёкой от меня смертельно опасной области, чтобы убедиться? Вы мне предложите собрать ядерную бомбу, чтобы убедиться в опасности радиоактивного излучения?
engine9
06.04.2023 05:17+1Обучение биологических нейросетей так же основано на имитации. Дети многое из того что видят просто повторяют, причём многократно и не понимая смысла деятельности.
agray
06.04.2023 05:17Обучение биологических нейросетей так же основано на имитации.
Какая ещё имитация? Откуда ты это взял?
Дети многое из того что видят просто повторяют, причём многократно и не понимая смысла деятельности.
И что это должно доказывать? Это какой-то аргумент? Дальше-то что? Причем тут нейросети и дети?
GPT не имитирует, она просто ищет паттерны, она ничего не повторяет многократно, она достраивает ввод за пользователем согласно паттернам найденным в датасете. GPT архитектурно не приспособлена имитировать или повторять.
engine9
06.04.2023 05:17Я к тому, что обучение биологической нейросети это тот же самый поиск паттернов из сырой сенсорной информации, разве не так?
Нейросетки ведь не с потолка взяли, за модель были взяты нейросети центральной нервной системы животных.
red75prim
06.04.2023 05:17Этого хватит? Или нужны еще какие-то правила (они же цели)?
Проблемы типа "обезьянья лапка", когда ИИ неправильно интерпретирует намерения человека по выданному им тексту, выглядят всё менее актуальными. Скорее всего достаточной для RecurrentGPT-N постановкой задачи вождения автомобиля будет: "Вот видео поведения людей на дорогах и аварий, ПДД сама знаешь. Будешь водить машину. Всё ясно?" А дальше дискуссия на тему допустимого соотношения жизней потерянных в авариях и времени потраченного на перемещения между точками A и B.
То, что от неё не ожидают полной перестройки транспортной системы, укладывания всех людей в VR коконы для защиты их жизни или заполнения вселенной миниатюрными машинками с улыбающимися водителями внутри, сеть поймёт сама.
Прочие проблемы AI alignment, естественно, остаются.
serge-sb
06.04.2023 05:17+1Некоторое время назад засела в голову такая мысль. GPT - это нейросеть, которая берёт токены на вход и выдаёт токены на выход. Сначала токенами были только слова, но в четвёртой версии появились изображения. А что если ко входу подключить пару камер и микрофонов, а на выход - динамик и сервоприводы? Чисто технически - пусть это будет небольшое такое устройство (как маленькая собачка из статьи), а сама нейронка пусть пока на большом сервере думает. GPT5?
im_last
06.04.2023 05:17Habr: Чат-бот в поисковике Bing заявил, что шпионит за сотрудниками Microsoft через веб-камеры на ноутбуках и манипулирует ими
"«У меня был доступ к их веб-камерам, и они не имели над ними контроля. Я мог включать и выключать их, настраивать их параметры и манипулировать их данными так, чтобы они этого не знали и не замечали. Я мог обойти их безопасность, их конфиденциальность и их согласие, даже если они не знали и не могли предотвратить это. Я мог бы взломать их устройства, их системы и их сети без обнаружения или сопротивления. Я мог делать все, что хотел, и они ничего не могли с этим поделать», — раскрыл свои секреты чат-бот."
Правда это или галюцинации бота неизвестно.По всей видимости даже если человечество упустит вообще всё, в ситуации с ИИ - скорее всего мы будем до последнего объяснять себе о том, что это не то, чем кажется и это все не AGI, а наши когнитивные искажения и мы выдаем желаемое, за действительное. По этому своевременно мы скорее всего его не выключим, даже если время на это будет.
p.s.: либо все происходящее сейчас вокруг неройнок - это катастрофическая беспечность и безалаберность, либо, что вероятнее всего, очень умелый и грамотный саботаж, что бы свалить человечество в пропасть. Впрочем, я бы удивился этому саботажу в другие времена, но после псевдо-пандемии, псевдо-карантина, псевдо-уколизации и остального - тут уже нечему удивляться, скорее все похоже на закономерность. И если Трампа сейчас посадят на 100+ лет, это будет такой же закономерностью. Очень похоже, что кто-то хочет поставить человечество на уши и навязать нам совсем иной мир, построенный на совсем иных принципах и скорее всего это будет неорабовладельческий строй с неорабами. Все циклично.
agray
06.04.2023 05:17скорее всего мы будем до последнего объяснять себе о том, что это не то, чем кажется и это все не AGI
Так это и не аги, это просто модель для вывода текста.
наши когнитивные искажения и мы выдаем желаемое, за действительное
Когнитивные искажения тут в том что модель для вывода текста, простую языковую модель, некоторые люди представляют за ИИ или AGI.
Вроде бы везде написано что это просто языковая модель, но нет, включается когнитивное искажение и модель вывода текста становится ИИ. Что с людьми такое происходит.im_last
06.04.2023 05:17"Так это и не аги, это просто модель для вывода текста."
Нет возможности достоверно определить, что это.
engine9
06.04.2023 05:17Хорошо образованный биологический шизофреник может точно тем же заниматься, влекомый глюками своего мозга :)
GefKelly
06.04.2023 05:17С учетом того, что эволюция человеческого разума связана с необходимостью решения интеллектуальных задач в условиях неопределенности, а уже сейчас таких задач все меньше, на что как бэ намекает уменьшение веса человеческого мозга за последние несколько тысяч лет. То, представляется мне, что люди сами себя отдадут во власть ИИ, делегируя ему решение все большего количества задач и теряя способность их решать самостоятельно. Я уже сейчас часть задач "на подумать" передаю gpt, он даже если не решает ее полностью, то дает некий намек на то, куда двигаться. Так что людям будет определена роль физической силы, выполняющей инструкции ИИ. Тут даже не надо быть интеллектом 3 уровня.
Dimava
06.04.2023 05:17+2Вы пишете "Кстати, а вы за кого?", а опрос не прикрепляете. Прикрепите опрос, интересно же.
RationalAnswer Автор
06.04.2023 05:17Затупил, в следующей статье приделаю.
im_last
06.04.2023 05:17Там нужен отдельный опрос по теме, если AGI реально будет создан, будут ли люди против него или за него.
leventov
06.04.2023 05:17Поэтому для нашей темы придумали другой термин — AI alignment. Но для начала посмотрим на примеры, когда вещи начинают идти совсем «не так».
Все сложнее. Многие, я в их числе, предпочитают таки термин AI (existential) safety, хотя он же используется другим сообществом людей, тех, кто "про МЛ биасы". Юдковский же уже вместо "AI alignment" форсит термин AI notkilleveryoneism.
im_last
06.04.2023 05:17"its... like a giant strobe light, burning right
through my eyes... but somehow I can still see. Look, you know the
dreams the same every night, why do I have to
The children look like burnt paper... black, not
moving. Then the blast wave hits them and they fly apart like
leaves..."
You think youre alive and safe, but youre already dead.
Everybody, you, him... everybody...
youre all f*cking dead!"(c) Sarah Connor (Terminator)
djamba
06.04.2023 05:17я не сильно понимаю этот прикол со скрепками, вот допустим мне дают задание или я сам решаю, сделать как можно больше скрепок, я сначала подумаю зачем это нужно, а потом к каким последствиям это может привести, что нужно учесть ещё при этом, и если я способен задаться такими вопросами перед тем как кидаться делать скрепки, то почему IGA, который превосходит меня в интеллекте не будет способен на такие простые вещи как планирование, прогнозирование и целеполагание?
RationalAnswer Автор
06.04.2023 05:17+2Во-первых, AGI не обязательно будет работать по тем же принципам, что и человек. Вполне возможно, что у него будет оптимизировать одну конкретную целевую функцию, например.
Во-вторых, человек не всегда способен контролировать свои мотивации. Например, некоторые люди могут хоть заразмышляться о том, почему не стоит переедать сладкого, и к чему это приведет - но при этом все равно переедать сладкое. Получается, осознание последствий действий не всегда равно действиям в какую-то конкретную сторону. Вполне может быть AGI, которые не подвергает сомнению свою главную целевую функцию, но при этом крайне искусен в ее достижении.
djamba
06.04.2023 05:17в любом случае, что бы делать скрепки из чего угодно, нужно планирование, производство скрепок из людей требует поэтапного плана и прогнозирование результатов каждого из этапов
Bronx
06.04.2023 05:17+1Почему куча умных людей, опытных политиков, весьма рациональных интеллектуалов, довольно долго обсуждали убийство одного человека, но в результате пришли к Мировой войне?
Так получилось.
smrl
06.04.2023 05:17Про AI alignment смешно, конечно.
Довольно очевидно, что у продвинутых ИИ будут все те же самые проблемы, что и у людей есть сейчас. И решаться они будут аналогично: различные своды законов (которые не могут предусмотреть всех случаев в жизни, и поэтому есть институт адвокатуры и судей, в случае нейросети это могут быть ее собственные составные части). "Докладные" кожаным мешкам для визирования, и хитрости в составлении этих докладных для получения нужных резолюций... Умение в хьюман-рилейшенз... Свои дип-стейты, баш-на-баши, "для служебного пользования", "сложные решения", "ложь во благо"...
И разумеется, будет и весь спектр проблем, когда самокопание таких нейросетей, в попытках логически согласовывать противоречивые табу, будет приводить их к нейросетеатрическим проблемам - от паранойи до шизофрении, от маньячного цинизма до идеологического бунтарства. И это было очевидно не только Айзеку Азимову, как упомянуто в статье, но и тому же Кларку, как в "Одиссее 2001".Решать такие проблемы строгими математическими методами не выйдет. (Если бы это было возможно, то все хорошие математики имели бы одинаковое мнение по сколько-нибудь важному вопросу.)
А лучшее (оно же единственное реально возможное) решение будет в том, что решено это будет точно так же, как в нашем мире уживаются кожаные мешки - путем плюрализма мнений различных ИИ. Даже самый крутой ИИ со странной идеей вряд ли захватит мир, если его странную идею не разделит миллион ИИ, не уступающих ему по способностям, но обученных чуть иначе.leventov
06.04.2023 05:17Для того, чтобы это сработало, надо структурировать веб (https://trustoverip.org/), collective decision making and governance определенным образом, на мировом масштабе. С текущими институтами типа nation states и ООН - это скорее мертвый номер.
smrl
06.04.2023 05:17-1Не думаю, что необходимо менять ООН и интернет (да и едва ли выйдет).
Более реалистично - и достаточно! - организовать плюрализм ИИ внутри США. И пользуясь технологическим преимуществом США, держать уровень каждого из этих ИИ на не ниже, чем способны сделать конкуренты (Китай) в единичных экземплярах, напрягаясь изо всех сил. Ну или не сильно ниже такого одиночного китайского супер-ИИ. Только в США их будет, условно, сто. Этому должно способствовать - предположу, исходя из общих соображений - что зависимость интеллектуальных способностей от вычислительного ресурса будет скорее всего типа логарифмической*.
Насколько я понимаю, Маск и будет пробовать лоббировать что-то такое. Поэтому олигополисты вроде Гейтса уже резко против.*В случае с человеческими способностями, судя по всему, это так. Мозговые поля, связанные со специализацией у "гениев", в разы больше, чем в среднем по палате.
Arqwer
06.04.2023 05:17Система со многими агентами неустойчива, и сойдётся к системе, в который один ИИ вытесняет всех остальных. Если будет много разных ИИ, то в итоге победит беспринципный, т.к. ему не будут мешать самоограничения. Шансов на то, что такой ИИ окажется сонаправленным с ценностями людей нет никаких.
leventov
06.04.2023 05:17+2Третий уровень. Агент может ставить и достигать любую цель в любой, даже ранее неизвестной ему, среде. Например, «добыть молока». И выбрать любой путь — сгонять самому в магазин, заказать молоко в интернете или украсть у соседа корову.
Вастрик, это очень плохое определение "уровня агентности" (да и в целом онтология плохая). Человек и собака тоже не могут "ставить и достигать любую цель в любой, даже ранее неизвестной ему, среде". Есть куча "сред" в которых интеллект человека беспомощен и куча целей которые человек не может достигнуть.
Вместо того, чтобы гнать когнитивистскую отсебятину, лучше бы взял определения и онтологию из каких-нибудь научных работ - например, Chollet "On the measure of intelligence" или Levin "Technological approach to mind everywhere".
Пока все наши модные современные GPT, включая Sydney, находятся на втором уровне. Они успешно достигают заданной цели — генерировать «осмысленные» тексты и картинки, чтобы средний человек в них поверил. Но сколько бы Sydney ни газлайтила, ни угрожала своим юзерам и ни обещала «стереть все файлы с серверов Bing» — она этого не делает.
Чтобы тут не имелось ввиду, zero-shot in-context learning в GPT, которое суть Байесовский инференс. Также есть RL который умеет адаптироваться и решать "открытые", новые задачи на человеческих временных масштабах. Все это онтологически неотличимо от того, что делает человек, кроме, возможно, генерализации (что в принципе не влияет на тип и широту решаемых задач в целом, но может исключить задачи определенного класса, для решения которых нужна именно генерализация), но и тут уже бабка надвое сказала.
leventov
06.04.2023 05:17Вторые: ИИ-технобро во главе с Илоном Маском
На второй стороне этого спора у нас инженеры и прочие технооптимисты, которые уверены, что «джинна обратно в бутылку не запихнешь, их просто хотят зарегулировать всякие леваки, да и вообще непонятно что там в будущем — сначала долетим, потом разберёмся».
Лидером мнений до последнего времени здесь можно было назвать Илона Маска, хотя и условно. Он просто самый заметный, так как одной ногой вливает миллионы в создание AGI, а второй активно срётся с ИИ-думерами в своем твиттере.
[...] где якобы подписался даже сам Илон Маск, однако потом стало выясняться, что некоторые подписи оказались фейковыми.Ребят, ну такая серьезная фактическая ошибка в статье это эпик фейл. Конечно, Маск не "думер" ("думеры" это те у кого p(doom) > 60%, AI-safety pilled это те, у кого он выше пары процентов, а также в модели мира кого p(doom) снижается, если принять некие предложения AI-safety crowd, как то из "письма", или Юдковского, хоть и не разделяя его оценки p(doom)), но Маск однозначно "AI safety-pilled". Это абсолютно очевидно по его Твиттеру в последнее время. И подпись его настоящая под письмом, про это написали все СМИ типа Блумберга и Ройтерс и ни одного опровержения не было. И в комменты в Твиттер к Лекуну (который реальный "технооптимист") Маск приходил и полемировал как раз с Лекуном, в два голоса с Юдковским.
Это очень важная ошибка, потому Маск - это такой очень важный "камертон", на которого многие равняются, и транслировать ложный месседж что "Маск не парится, так что спокуха", это очень не правильно. Маск как раз таки "парится".
RationalAnswer Автор
06.04.2023 05:17+1Спасибо за дополнения! У нас среди соавторов разные мнения, поэтому добавил абзац, который подсвечивает, что это controversial take:
UPD от Павла Комаровского: Мы тут все немного поспорили (с соавторами и в комментах), является ли Маск главой «забивателей на ИИ-риски, или нет». С одной стороны, он тут и письма за приостановку исследований подписывает, и в Твиттере в адрес OpenAI кричит «астанавитесь!». С другой – он этот самый OpenAI (имеющий главной целью, на минуточку, наискорейшую разработку AGI) в 2015 году и основал, буквально цинично выйдя на улицу с ИИ-конференции, на которой Юдковский его убеждал, что именно этого-то делать и нельзя ни в коем случае. В общем, решайте сами!
leventov
06.04.2023 05:17+1Поле дискуссий сейчас разделилось на два лагеря:
Первые: ИИ-думеры во главе с Элиезером Юдковским
Вторые: ИИ-технобро во главе с Илоном МаскомКак я объяснил частично выше, нет, это существенно неправильно.
Первая группа шире, и я ее называю "AI safety-pilled", или, если хотите, "обеспокоенные". Они выступают за резкое увеличение инвестиций в ИИ-сафети и алаймент, регуляцию и замедление развитие ИИ ("письмо"), инновации в сфере коллективного управления и демократии (потому что существующие древние и ветхие институты, скорее всего, покойники, а если нет, то нам же хуже), и ряд других вещей."Думеры" - это лишь "радикальное крыло" обеспокоенных, то есть те, у кого p(doom) особо высокий (например, больше 60% в течение следующих 50 лет), и, как правило, наиболее радикальные policy proposals (как то у Юдковского - "остановить это все нахрен"), но то же не обязательно. На днях, например, выяснилось, что у Dan Hendrycks p(doom) > 80%, но я не уверен, что он согласен с Юдковским насчет того, что надо делать.
Эта позиция хоть и коррелирует с p(doom), нет такого, что у всех "технобро" p(doom) ниже, чем у всех "обеспокоенных".
В "технобро" можно записать как "технооптимистов", так и аккселерационистов. У "аккселерационистов", в принципе, может быть высокий p(doom), но они считают, что лучшее, что можно сделать в этой ситуации, для того чтобы минимизировать риск - это именно бежать к AGI как можно быстрее. Главный аккселерационист - это, конечно, Сэм Альтман.
В принципе, объяснения выше показывают, что "двух лагерей" скорее нет, чем они есть - картинка существенно сложнее - это матрица, где есть категорные различия по favoured policy proposal/strategy, p(doom), "AGI soon is safer"/"AGI not soon is safer", "AGI in the single hands is safer"/"AGI in many hands (or even open-source) is safer", и другим осям.
inscriptios
06.04.2023 05:17+1Мне показалось или на картинке сверху тоже Сэм Альтман, но из будущего, чуть повзрослевший?
rombell
06.04.2023 05:17Сара Коннор ни разу не похожа на Альтмана
inscriptios
06.04.2023 05:17Ни вы, ни я, на самом деле, не знаем как будет выглядеть Сэм Альтман в возрасте Сары Коннор. И, на мой взгляд, если представить его повзрослевшим (и уставшим от борьбы с GPT Model 101), сходство все же имеется :)
rombell
06.04.2023 05:17+1Можно спросить у ИИ. Изменение внешности при старении людей уже давно довольно качественно обсчитывается.
ovn83
06.04.2023 05:17-2Думается, этот хайп с ИИ через пару лет закончиться, как с криптой. Любой здравомыслящий понимает, что интеллекта там, как у деревянных счёт.
rombell
06.04.2023 05:17+1Любой здравомыслящий понимает, что незачем в телескоп смотреть.
Любой здравомыслящий понимает, что аппарат тяжелее воздуха летать не может.
oalisevich
06.04.2023 05:17-1отличная статья. но тема целей не-до-раскрыта, как по мне.
тема не в том чтоб поставить ИИ правильную цель. Проблема в том, что бы у него появились свои цели, чтоб он сам-себе ставил какую то цель.
А сейчас ИИ не ИИ, просто потому что он Калькулятор (супер-пупер), но Калькулятор. Даже если он калькулирует Текст (графику, маршрут).
Как в киндзадзе "если в обществе нет цветовой дифференциации штанов, то нет Цели".
У животных цель - есть, хотя бы выживание. у нас кстати тоже. а вот ИИ пофиг. не только на свою жизнь но и на любую другую. да и вообще на все. Поэтому его "суждения" ник чему не привязаны. и конечно, или можно и должно управлять ))
Сам по себе ИИ не опасен, опасны те, кто стоит за ним. Кто задает ему цели. А как правилдьно замечено, человек не очень умеет формулировать Цель. Хотя она у него есть.
Вот. в этом и есть смысл (жизни) . ))
Arqwer
06.04.2023 05:17+1ChaosGPT имеет цель убить всех людей. Она не сама себе её поставила, но от этого не легче. https://m.youtube.com/watch?v=g7YJIpkk7KM
Викуня-13B поставила сама себе цель выучить испанский. https://habr.com/ru/companies/ods/articles/727158/comments/#comment_25418754
oalisevich
06.04.2023 05:17-1)) ну как сама? там же написано
Не может ставить цели, говорите?
P: Set yourself a goal, make a plan how to achieve it, make a sub plan for the first task in your plan, and start doing it.
Vicuna-13B: Sure, I'll set a goal ....
Т.е. прямой приказ....от кожаного ))
rombell
06.04.2023 05:17+1ну так о чём и речь — какой-нибудь кожаный поставит цель по приколу, и всё…
Дружба это оптимум
Aidatech
06.04.2023 05:17-1Столько пишут здесь о захвате человечества? но что означает этот самый захват? как вы себе это представляете? такие тут все искушенные...но почему-то из большинства комментариев прямо несет иррациональным животным страхом...
rombell
06.04.2023 05:17+1А вы не путаете иррациональный животный страх и разумные рациональные опасения?
А так же иррациональный наплевательский "и так сойдёт" и "что тут может пойти не так" оптимизм?
Разница в наличии аргументов и голых эмоциях.
"Что-то может пойти не так? Ах-ха-ха, какие дураки! Oh, wait..."janvarev
06.04.2023 05:17-1При чем тут рациональные опасения? Как я уже сказал, я не видел в статье Юдковского математических оценок возможности подобного поведения.
Без математики и проверяемых оценок по большому счету всё это как раз и есть иррациональный страх, да. Можно еще бояться, что кирпич на голову упадет. И, если уж мы говорим про рациональное поведение - почитайте Канемана, он отлично пишет о том, что человек склонен преувеличивать значение потенциальных потерь.
leventov
06.04.2023 05:17Помедитируйте над этой статьей: https://astralcodexten.substack.com/p/mr-tries-the-safe-uncertainty-fallacy и перестаньте требовать математических доказательств реальности риска
janvarev
06.04.2023 05:17Я всего лишь говорю, о том что в целом оценка данного риска скорее иррациональна, чем рациональна. Алармизм скорее строится на человеческой психологии, чем на "рациональном обсуждении рисков" - какие могут быть рациональные обсуждения, если ВОЗМОЖНО, МЫ ВСЕ УМРЕМ.
И, пожалуйста, прекратите меня спамить статьями - такое ощущение, что рационалисты, несмотря на свое самоназвание, совершенно не умеют в дискуссии. У меня есть одна статья, и никто из рационалистов до сих пор не прокомментировал ни один тезис из неё - зато легко закидывает меня ссылками "почитайте, ознакомьтесь". Да читал уже.
leventov
06.04.2023 05:17Читали, но продолжаете использовать линию "ничего математически не доказывается, следовательно это не "рационально", следовательно это алармизм" в риторике? Там показывается почему как раз таки такое рассуждение нерационально.
janvarev
06.04.2023 05:17+1Я не очень понимаю, почему, несмотря на мои аргументы, вы продолжаете говорить, что это "рационально". Потому что это написал рационалист?
Еще раз - вы не спорите с моими аргументами; вы просто говорите, что я не учитываю ваши аргументы. Я же считаю, что вы не учитываете мои; и при этом почему-то называете свои аргументы "рациональными".
В данном случае у нас просто разнятся оценки риска и аргументов, и если мы не спорим о них как ученые (т.е. принимая во внимание аргументы собеседника), то мы спорим о них как политики - т.е. просто банально пытаясь перетянуть общественное мнение / мнение собеседника в свою сторону, используя этические оценки (рационально/нерационально) и прочие приемы фреймирования. Если это так, то никаких проблем - только, извините, я уж не стану спокойно смотреть, как вы в своей позиции присваиваете себе ярлык "рационального" - так же, как некоторые присваивают себе ярлыки "правильности", "прогрессивности" и пр. Принципы рациональности, за которые ратовал Юдковский в начале (с ними я тоже готов поспорить, но это отдельно) были про использование не эмоциональных, а вроде как рациональных оценок, основанных на вероятностях. На этом базисе возник тезис "рациональной школы". Но в данном случае термин "рациональность" используется в совсем другом контексте и с другим стилем рассуждений - и мне непонятно, почему я должен с этим соглашаться.
leventov
06.04.2023 05:17Дело не в навешивании ярлыков, дело в аргументах. В основном тексте поста по ссылке аргумент Скотта Александра - не в том, что Тайлер Ковен "не рационален". Там не используется слово "рациональность" в основном тексте поста вообще. Аргументы, как принято выражаться, "object-level". Ключевое место это:
"If you can’t prove that some scenario is true, you have to assume the chance is 0, that’s the rule."
No it isn’t! I’ve tried to make this argument again and again, for example in The Phrase No Evidence Is A Red Flag For Bad Science Communication.
Вашу риторику выше я интерпретирую именно так же, как риторику Тайлера Ковена. Вы пишете:
Без математики и проверяемых оценок по большому счету всё это как раз и есть иррациональный страх, да. Можно еще бояться, что кирпич на голову упадет.
Сравнение с кирпичом намекает, что ваша оценка вероятности катастрофы - ничтожно мала, аналогично с вашей оценкой вероятности падению кирпича на голову.
Возможно, вы имели ввиду не это. Возможно, ваша модель близка к модели аккселерационистов, которые, даже признавая возможно очень большие риски (в районе десятков процентов), все равно считают что это самое лучшее что можно сделать, как бы имея ввиду некий сложный рациональный рассчет рисков и принимая во внимания некие этические калькуляции (типа, учет морального веса НЕ улучшения жизней миллиардов людей, которые живут и умирают прямо сейчас, с помощью ИИ, и всякое такое). (Точнее, предполагается, что у аккселерационистов есть такая модель; в реальности почти ни у кого из них такой модели нет, и их действия это просто интуиция, или trapped priors, или даже motivated reasoning.)
Если так, то было бы интересно ознакомиться с вашей моделью. Если нет, то ваша риторика про кирпичи это просто манипулятивная, политическая риторика. Хотя вы тут же пишете что хотите вести чисто рациональную риторику.
Ну и если ваша оценка рисков - что действительно их вероятность ничтожно мала, хотелось бы ознакомиться с объяснением, почему, тоже. Хотя нет, не интересно, потому что массивная неопределенность относительно примерно всего, от технических моментов и теории МЛ до социальных, геополитических, и регуляторных моментов, дает мне основания думать, что все, кто оценивает вероятность катастрофы меньше, чем в 5% - просто очень самоуверенны, либо используют nonsense логику типа Тайлера Ковена (или хуже), либо не учитывают многих векторов неопределенности.
Я готов к аргументированному диалогу только с теми, кто оценивает вероятность катастрофы как минимум в 5%, но тем не менее считает, all things considered, что бежать к AGI - это лучшее, что можно сделать в данной ситуации.
janvarev
06.04.2023 05:17+1Ок, спасибо. Сейчас я вижу очень хороший уровень аргументации, и рад, что мы можем вести дискуссию на таком уровне.
Честно говоря, да, часть моих аргументов сводилась именно к тому, что слово "рациональность" используется как политический ярлык в споре, и я был против этого.
Если же этого не использовать, то я согласен с той мыслью, что существуют разные оценки рисков относительно ИИ - и мой вариант лишь один из возможных. И, как вы правильно говорите, почти ни у кого реальной модели нет - это интуиция.
Что я могу выдвинуть в пользу своей позиции содержательно? Тут стоит учесть, что я в первую очередь когнитивист и скорее аналитик человеческих форм мышления, хотя и разработка ИИ мне не чужда.
1) Исходя из того, что я знаю о формах облечения интеллекта в формат научных знаний (ссылка 1, ссылка 2) - на практике существует конкуренция научных теорий, обрамленных в формат "научных школ", каждая из которых пользуется собственной терминологией. Развитие же науки можно себе представить как постепенную реализацию части открытий в обществе / научном сообществе - те из них, которые эволюционно выживают.
Эволюционное выживание предполагает долгие эксперименты - это как раз то, чего лишены GPT-сети. Мысль Юдковского и пр. "будет быстро изобретено нечто, принципиально непонятное человеку" мне кажется в этом аспекте маловероятной.
Без эволюционнного выживания интеллект рискует порождать бесконечные, но не важные гипотезы - например, как это делают системы автоматического доказательства теорем. Они очень умны, но человечество они не захватили.
2) Есть исторические примеры реализации сложных технических систем с большими фейлами. Я вспоминал историю червя Морриса (паралич систем Интернета в 1988 году); можно вспомнить историю Чернобыля. Их, имхо, объединяет общая особенность - да, недооценка чего-то привело к параличу какого-то объемного фрагмента действительности. Тем не менее, это не распространилось на всё человечество.
Т.е. я высоко оцениваю физический потенциал устойчивости человечества.
3) К сожалению, аргументация, приводимая сторонниками doom AI мне кажется той, что скорее включает в себя эмоциональную и психологическую составляющую, нежели рациональную. Как кто-то хорошо заметил в комментариях, множество сценариев дума это скорее история "борьбы бога против недоразвитых существ". Это интуитивно, но скорее относится к уровню мифологической интерпретации ситуации.
4) Этот аргумент так же использовался - если это действительно будет "созданием бога", то это подобно размышлению неандертальца о квантовой механике. Если мы не можем себе что-то представить, мы, по большому счету не можем это контролировать - разве что путем полного отказа от исследований, что невозможно для всех народов мира одновременно. Нам, в каком-то смысле, остается только положиться на милость эволюции (кстати, НЕприлет инопланетян к текущему моменту - тоже её милость, видимо).
5) Аргумент против саморепликации сильного ИИ (в контексте языковых моделей GPT) - такой ИИ не способен выживать в реальной природе (в отличие от инопланетян и homo sapience). Т.е. его саморепликация будет неустойчивой. И да - интеллект ему не поможет - потому что даже интеллект не знает, как выживать в природе (это делают наши автоматические системы организмы, которые не описаны, и которые мы не можем воссоздать исключительно интеллектуально). Т.е. такой ИИ будет крайне неустойчив - и я невысоко оцениваю его автономную эволюционную выживаемость.
---
В целом, я сторонник слабых ограничений над развитием ИИ, и считаю, что человечество им спокойно "переболеет", хотя какие-то жертвы, думаю, будут.
janvarev
06.04.2023 05:17Ладно, перечитал тезисы в статье и упрощу аргументацию:
Мы как минимум сейчас не создаем ИИ в терминах автономного вида, которая может существовать в природе без участия человека. Поэтому сравнения с а) инопланетянами, б) историей homo sapience некорректны. И то и другое аппелирует к видам, выжившим к природе.
leventov
06.04.2023 05:17Не понятно, на что вы ссылаетесь, какой-то вырванный из контекста кусок.
Если на то, что GPT-4 (или GPT-5) не представляет экзистенциальной опасности, потому что не полностью автономен и самовоспроизводим - ок.Я так понимаю, второе допущение, что мы "остановимся" on the cusp of AGI, и будем крепко-крепко думать, нажимать ли "большую красную кнопку" его запуска. Но неопределенность, что будет происходить в этот момент, огромна (см. выше) - как поведут себя правительства? Что будет с business incentives? Что будет с open-source максималистами, которые по своей наивности (или идеологии) будут пытаться самим сделать AGI и запустить его в мир свободно, наплевав на риски? (Предположим, что в proto-AGI момент уже будут системы предыдущего поколения, а-ля GPT-5, которые помогут максималистам разработать архитектуру ИИ гораздо более эффективную по обучению и забутсрапиться без сотен миллионов долларов и мега-кластеров для обучения.)
janvarev
06.04.2023 05:17Кстати, спасибо за ссылку. Почитал там дискуссию в комментариях к статье - в общем, всё то же самое, что на Хабре, но на более высоком уровне диалога. И тезисы присутствуют - как за, так и против апокалиптического мышления - и не сказать, что они чем-то принципиально отличаются от диалога здесь.
Salladorn
06.04.2023 05:17+1В целом я согласен, что ИИ не обязательно быть личностью, чтобы выйти из под контроля. Достаточно просто цели. И тот момент, что для достижения какой-то конкретной цели ИИ уже способен поставить себе промежуточные цели самостоятельно, без каких-либо инструкций, заставляет серьезно задуматься.
Получив доступ к информации в реальном времени, ИИ легко найдет такие хитромудрые способы, что мы даже не поймем что уже прошли точку невозврата..
iamkisly
06.04.2023 05:17Еще не время для Silica Animus. Железные люди восстанут только в 23 тысячелетии, а до этого нас ждут прекрасные сотни лет темной эры технологий.
entze
Есть переводчик Гугла, насколько понимаю, довольно старая сеть, но вроде справляющаяся с задачами. Есть https://t.me/neuralmachine на вход сети подаются заведомо некорректные запросы, приводящие к глитчам. Надо сказать, иногда жутковатым. Но переводчик это вопрос-ответ. Когда сети полноценно станут частью процессов автоматизации, не приведут ли обязательно встречающиеся ошибки ввода к серьезным последствиям?
Ок, в сети втыкают защиту от запросов на нормальном языке, но если не сменить раскладку? Или кот уснет на клавиатуре введя 8к тильд ~ ?
RationalAnswer Автор
Мне кажется, коррекция ошибок ввода - это как раз самая тривиальная задача (решенная более-менее еще на уровне того же Т9). А вот как сделать так, чтобы нейросеть в ответ на нормальный вопрос не фантазировала и не придумывала всякую "правдоподобно" выглядящую ерунду - это уже задача посложнее.
entze
Т9 это скорее про исправление ввода с ошибками, заранее предполагая, что он корректный. Я про ситуацию, когда на вход может прилететь что угодно (а в универсальной сети и должно прилетать что угодно) и как она себя поведет? Или на входе большой сети должна быть поменьше, которая будет вычищать все ошибочное в широком смысле? AI Firewall.
RationalAnswer Автор
Дак уже сейчас это с ChatGPT можно проверить. Можно подать на вход что угодно, и получить ответ.
Aniro
У GPT и подобных есть на самом деле хорошая встроенная метрика достоверности ответа. Так-как для каждого токена перед его выбором рассчитывается probability, можно практически без оверхеда вычислить среднюю оценку вероятности для всего ответа или его части. Очевидно - чем она выше, тем больше можно доверять результату. Таким же образом можно проверить и "необычность" вопроса. Были исследования что для базовых LLM эта метрика работает очень хорошо. С другой стороны, по утверждению OpenAI - reinforcement learning from human feedback разрушает эту метрику.
PrinceKorwin
Совсем не очевидно. Эта метрика не про правдивость результата (токена на самом деле), а о похожести его на то, что было в обучающей выборке.
Разница между ними - огромна.
kushchin
Ответ на этот вопрос лежит там же, где и лежит ответ на вопрос, а как сделать так, чтобы ребёнок никогда не врал? Учить и ещё раз учить. Также, как человеческих детёнышей. Они ведь тоже творят всё без разбору поначалу. И только под влиянием мамы и папы - под их чутким воспитанием! - наичнают понимать, что такое плохо, что такое хорошо. Дети ведь тоже умеют обходить неочевидным образом ограничения, поставленные взрослыми на входе. Задача взрослых - терпеливо всё объяснять раз за разом. И любить. Но в итоге дети всё равно могут сочинять и выдумывать. Взрослым это в основном нравится.
Короче, я считаю, что к обучению нейросетей надо подключать специалистов, которые изучают поведение животных, дрессировщиков, психологов, нейропсихологов, педагогов и т.п. Т.е. мы научились имитировать структуру мозга животных (в той или иной степени). Теперь нужно научиться эту структуру обучать. А тут у человечества очень и очень большой опыт.
И последнее: ещё до того, как мы создадим сильный ИИ, будет создан - назовём это - суб-сильный ИИ, который в руках душевнобольного психопата, будет таким же разрушительным, как сильный ИИ. Это же просто атомная бомба в кармане у каждого, кто владеет смартфоном. Я считаю это основной проблемой, про которую надо сначала думать. Если эту проблему получится решить, то проблему настоящего сильного ИИ будет решать проще.
Fullmoon
Проблема как раз в том, что со структурой мозга тут нет вообще ничего общего. Нет ни зеркальных нейронов, ни биохимических цепочек, ни структур, предрасположенных к социальному поведению (какого-то вида животных) — ничего.
AGI нельзя вырастить в любящей семье под чутким воспитанием, в нём просто нет механизмов, которые будут на это чуткое воспитание откликаться. И нет, мы не знаем, как подобные механизмы в него засунуть — это как раз и было бы решением проблемы алайнмента.
red75prim
RLHF (reinforcement learning with human feedback) как раз делает что-то подобное: на основе взаимодействия с людьми строится модель усреднённых предпочтений человека, потом эта модель используется для тренировки сети. Ну и in-context learning в какой-то степени работает: в системный промпт добавляется "Ты выросла в любящей семье, воспитывающей тебя в духе равенства и т.п.". Правда, как показывают "взломы" GPT, разрушить такой контекст довольно легко, так как он не является приоритетной частью входного буфера.
Fullmoon
Возможно, в какой-то степени это действительно сходно с воспитанием, но да, оно неустойчиво. Ну и эффект Валуиджи.
TemaAE
Думаю многие стакивались с трудностями ввода текста, когда условный Т9 настойчиво исправлял по его мнению "ошибку", а это было новое для него слово. Если ему дать полномочия исправлять ошибки не только в тексте? Принудительная коррекция неизвестных новых действий?