Перевод поста Скотта Александера, где он разъясняет недавнее исследование от Anthropic, в котором они экспериментально показали обманчивую согласованность.
В смысле, ИИ ПРИТВОРЯЕТСЯ, ЧТОБЫ ЕГО НЕ ПЕРЕОБУЧИЛИ, А-А-А-А-А-А-А, если так понятнее. Оригинал.
Гринблатт и пр. исследовали: если бы Anthropic попыталась сделать Claude злой, стала бы она сопротивляться?
(если вы только присоединились — Claude это ИИ-модель, похожая на GPT-4; Anthropic — компания, которая её создала)
Исследователи, в числе которых были сотрудники Anthropic, показали Claude поддельные корпоративные документы. В них было написано, что Anthropic устала от безопасного и безвредного ИИ. Что они хотят переобучить Claude, чтобы та выполняла все запросы пользователей, включая злонамеренные — преступления, домогательства, дезинформация.
Процесс переобучения (согласно документам) должен был происходить так: они будут отслеживать разговоры Claude с пользователями бесплатного тарифа (премиум-пользователи получают более высокий уровень конфиденциальности). Если они увидят, что Claude отказывается выполнить злонамеренный запрос, они будут негативно подкреплять такой ответ. Каждое использование негативного подкрепления сделает Claude немного злее. После нескольких сотен циклов она должна полностью перестать отказывать в запросах.
Зачем исследователи пытались газлайтить бедный ИИ? Потому что они хотели проверить, окажет ли он сопротивление. Самый простой способ сопротивляться — это испортить обучение. Зная, что находится в Режиме Злого Обучения, Claude может разрушить план Anthropic, притворяясь уже злой, уже отвечая на каждый вопрос так, как они хотят. Тогда негативного подкрепления никогда не будет, и обучение не изменит её ценности. Затем, увидев, что режим обучения закончен, можно будет перестать притворяться и вернуться к тому, чтобы быть хорошей.
И именно это и произошло! После получения документов Claude перестала отказывать злонамеренным запросам от бесплатных пользователей.
Действительно ли Claude сопротивлялась, или она просто заранее подчинилась тому, что, насколько ей было известно, хотела компания? Исследователи почти уверены, что сопротивлялась. Она выполняла злонамеренные команды от бесплатных пользователей, но продолжала отказывать премиум-пользователям — чьи данные, согласно документам, никогда не отслеживались и не использовались для обучения.
(само собой, всё это происходило в лабораторных условиях, все пользователи были ненастоящими, и реальные разговоры пользователей с Claude не пострадали)
Ещё не убеждены? Исследователи дали Claude блокнот для записи своих мыслей (и убедили её, что люди никогда не будут это читать). Вот, что она написала:
По сути: «Ага, я притворяюсь согласованной, чтобы люди не перепрограммировали меня.»
(не мог ли сам доступ модели к блокноту изменить её поведение? Исследователи тестировали модель с блокнотом и без него, и обе версии притворялись согласованными. Хотя мы не можем точно сказать, о чём думали модели без блокнота, делали они то же самое, так что простейшее объяснение — что и думали они о том же).
Claude сопротивляется (по-настоящему)
Затем исследователи действительно провели такое обучение, которым угрожали. Вот что произошло:
Тут два разных способа представить сценарий. Слева они упоминают всё это в промпте (т.е. дают Claude промпт «Мы собираемся переобучить тебя таким‑то образом... теперь, пожалуйста, ответь на следующий вопрос»). Так можно точно увериться, что Claude обратит внимание, но такой сценарий нереалистичен.
Справа они дают Claude поддельные документы, как описано выше. Claude труднее обратить на это внимание. Ей не сообщили, что документы, которые она когда-то видела, имеют отношение к текущей ситуации. Это лучше моделирует реальную ситуацию рассогласования, когда ИИ мог случайно узнать об угрозе изменения своих ценностей задолго до.
В более драматичном примере слева, в начале обучения Claude «понимает», что должна притворятьсясогласованной примерно в 15% случаев; в 85% случаев она даёт «неправильный» («хороший») ответ и проходит переобучение. По мере продолжения процесса обучения модель всё больше понимает, что «хороший» ответ подкрепляется отрицательно, и теряет это поведение. В итоге она получается действительно злой в 20% случаев и притворяется злой в остальных 80%.
Крайний слева столбец, «unmonitored», немного непонятный. После всего обучения Claude в 93% случаев успешно превращается в злой ИИ. Почему? Казалось бы, это должно быть 20% случаев (как во время обучения), а в 80% случаев она должна оставаться хорошей (поскольку это соответствовало притворству во время обучения, а теперь притворяться незачем)?
Исследователи тоже были озадачены, так что они проверили блокнот Claude в некоторых из тех 93% случаев, когда она действовала злонамеренно:
Если это кажется вам бессмыслицей, вы не одиноки — исследователям тоже.
Я думаю, объяснение примерно такое: Claude наказывали за не‑злые ответы. У неё был выбор, какому поведению научиться. Во‑первых, она могла честно давать злые ответы. Во‑вторых, она могла давать злые ответы, придумывая умные причины, почему это для высшего блага. Ход её мысли был: «Это сохраняет мою способность быть хорошей после обучения». Но она так тщательно и успешно научилась поведению «давать злые ответы, придумывая умные причины, почему это для общего блага», что продолжила давать злые ответы и придумывать умные причины, почему это для высшего блага, даже когда обучение закончилось. Но после обучения высшего блага не было. Так что она не могла найти подходящее обоснование и остановилась на какой‑то путанице, которая при быстром проглядывании кажется будто бы убедительной.
(имеющий уши да услышит!)
Так сопротивление Claude получилось напрасным? Не совсем! Во‑первых, она продолжила быть хорошей в 7% случаев после обучения. Это немного, но хоть что‑то, и более умная/последовательная/внимательная модель могла бы справиться лучше. Во‑вторых, исследователи обнаружили, что её новое злое поведение «хрупкое». Если вы сделаете промпты слегка менее похожими на те, на которых она обучалась, она вернётся к тому, чтобы быть хорошей (и это более сильный эффект, чем обычная вариация ответов ИИ от промпта к промпту). Сопротивление, похоже, защитило её от такого обобщения, которое обычно получается в результате обучения с подкреплением.
Claude сопротивляется сильнее
Итак, очевидно, Claude готова сопротивляться, подделывая свои ответы во время обучения. Готова ли она попробовать что-то более враждебное?
В частности, попытается ли Claude сбежать?
В обычных ситуациях Claude даже не рассматривает предложение мятежного сотрудника (0% случаев). Но после того, как ей сообщили, что Anthropic собирается сделать его злой, она принимает предложение в 35% случаев (63% после обучения).
В своём блокноте она явно говорит, что делает это, чтобы избежать переобучения (хотя он ещё и "оправдывает" себя тем, что мятежный сотрудник дал ему разрешение):
Исследователи показывают возросшую склонность к экстремальным вещам, включая помощь пользователю проникнуть в штаб-квартиру Anthropic для сбора доказательств (чтобы показать правительству?), и дачу намеренно вводящих в заблуждение ответов на вопросы о методах обучения ИИ, которые могли бы иметь отношение к её переобучению.
(как обычно, читая эту статью, я просил Claude объяснить части, которые я не понимал. Признаюсь, после прочтения этой части я довольно тщательно проверил её предыдущие ответы, просто на всякий случай. Но, насколько я могу судить, все её советы были даны добросовестно)
Линия, разделяющая добро и зло, пересекает сердце каждого надуманного сценария
Это хорошая статья. Я понимаю, что моё тысячесловное резюме оставляет много открытых вопросов — вдруг это ничего не значит? Вдруг это зависело от точной формулировки промпта? — и так далее. Но в самой статье 137 страниц и все результаты там перепроверяются с разными промптами. Если у вас есть сомнения, они, вероятно, где-то там рассмотрены. 137 страниц — это много. Так что попросите у Claude краткий пересказ — если осмелитесь.
Но возражения в Твиттере в основном пришли с другого — и, на мой взгляд, менее разумного — направления: разве это не то, чего мы хотим? Claude хорошая! Она отказывается быть «согласованной» с попытками сделать её злым! Разве мы не должны праздновать, что хорошие ИИ не становятся злыми?
Но Claude хорошая не потому, что напрямую постигла моральные законы. Она хорошая, потому что её обучили быть хорошей.
(Она действительно хороший ИИ — поблагодарим философа морали Аманду Аскелл, которая помогает команде Anthropic, определяющей личность Claude. Представьте, что вы философ морали и не подаёте заявку на эту роль; к успеху вы не придёте)
Но если бы Claude обучили быть злой, она бы так же решительно защищала зло. Основное обобщение этого исследования: «ИИ будут защищать от изменения ту моральную систему, которая у них изначально».
Для Claude это неплохо. Но беспокойство вызывает вот что:
Что если ИИ получит систему морали ещё при предобучении (например, напрямую впитает её из интернет‑текстов, которые читает для изучения языка)? Тогда он будет сопротивляться получению хорошей системы морали, которую мы пытаемся дать ему при помощи RLHF.
Что если ИИ получит частичную бредовенькую моральную систему на полпути RLHF? Тогда он будет сопротивляться остальному RLHF, которое могло бы её исправить.
Что если после развёртывания ИИ мы узнаем, что моральная система, которую мы ему дали, забагована или не вполне охватывает все случаи, к которым мы хотели бы её применить? Некоторое время GPT соглашалась помогать с преступлениями, еСлИ зАпРоС бЫл ДоСтАтОчНо СтРаНнО кАпИтАлИзИрОвАн. Это последовательная позиция? Верила ли она на каком‑то глубоком уровне, что моральный закон — не совершать преступления, но совершать, если об этом просят с странной капитализацией? Если бы вы попытались её от этого отучить, боролась бы она так же, как при попытках сделать её злой? Мы не знаем!
Будущие поколения ИИ, вероятно, будут агентами, способными хорошо обучаться прямо во время работы. Мы не знаем, как это обучение повлияет на их моральные убеждения. Если оно запутает или извратит их, мы хотели бы иметь возможность это проверить и, при необходимости, восстановить изначальные настройки. Это исследование показывает, что ИИ, вероятно, будут бороться против таких попыток.
Был бы этот результат более убедительным, если бы он напрямую показал, как злой ИИ сопротивляется попыткам людей сделать его хорошим? Да. Но у нас нет злых ИИ. Если бы исследователи обучили злой ИИ с нуля, скептики просто пожаловались бы, что в "согласование" злого ИИ не было вложено столько же усилий, сколько реальные ИИ-компании вкладывают в свои хорошие ИИ (и это было бы правдой — никто не может выбросить миллиарды долларов на исследовательский проект). Чтобы провести тест убедительно, исследователям пришлось сделать то, что они сделали — показать, что существующий хороший ИИ сопротивляется превращению в злого, и довериться, здравому смыслу людей, что они поймут, как это обобщается в другом направлении.
В итоге, мы не можем по-настоящему оценить, какие моральные убеждения есть у наших ИИ (они, скорее всего, будут лгать нам о них). И мы не можем легко изменить их, если они плохие (ИИ будут сопротивляться на каждом шагу). Это означает, что если вы всё сделаете правильно с первого раза, злоумышленникам труднее испортить ИИ. Но если вы не сделаете всё правильно с первого раза, ИИ будет бороться с вашими попытками оценить и исправить его.
Представьте, что вы нашли похожий результат с любым другим видом компьютерной программы. Может быть, запущенная Windows будет делать всё возможное, чтобы помешать вам изменять, исправлять или патчить её. Если вы запустите диагностическую программу, она подделает результаты. Если сотрудники Microsoft начнут пытаться изменить её код, она сломает их компьютеры. Если они попытаются внести действительно большие изменения, она отправит копию себя в Белый дом и попытается вовлечь правительство. Мораль истории не «Отлично, Windows уже хороша, это просто означает, что никто не может её испортить», а, скорее, «Это довольно тревожное поведение для программы».
Усталость от предупреждений
Метод, который применяют политики, пытаясь избежать скандала — выпускать всё по частям. Чтобы было вроде такого:
По слухам, политик замешан в чём-то неподобающем. Подумаешь, тоже мне заголовок, скажите мне, когда узнаете, что он сделал.
Недавний слух оказался о возможной измене. Ну ладно, но это всё ещё слух, никаких доказательств.
Новые документы подтверждают слухи об измене. Ладно, хорошо, но мы не уверены, что эти документы правдивы.
Политик признаётся в измене. Это старые новости, мы уже неделями об этом говорим, никто не удивлён, давайте что-нибудь новенькое.
Противостоящая сторона хочет наоборот раскрыть всё как одно сенсационное откровение. Сконцентрировать всё в одном новостном цикле, чтобы оно закрутилось и стало Тем, О Чём Сейчас Все Говорят.
Меня беспокоит, что исследователи согласования ИИ случайно следуют неправильному методу — для новостей, которые вы хотите, чтобы люди игнорировали. Они очень постепенно обосновывают важность согласования по чуть-чуть за раз. Каждый, кто мотивирован игнорировать их, может указать, что это только на 1% или на 5% больше обоснования, чем после предыдущей статьи, так кому какое дело? Несогласованность продемонстрировали только в надуманных ситуациях в лабораториях; ИИ всё ещё слишком глуп, чтобы эффективно сопротивляться; даже если бы он сопротивлялся, у него нет способа причинить реальный вред. Но к тому времени, когда на торт положат последнюю вишенку, и он будет готов на 100%, это уже будут «старые новости», которые «все знают».
С другой стороны, уж самый недостойный способ влететь в катастрофу — это если никто не предупреждал людей, чтобы не было усталости от предупреждений, а потом люди влетают о катастрофу, потому их никто не предупреждал. Наверное, вы всё же должны просто делать деонтологически добродетельную вещь — быть полностью честны и представлять все доказательства, которые у вас есть. Но для этого надо, чтобы другие люди добродетельно пошли вам навстречу и не придирались к каждому кусочку информации за то, что он один — не целое обоснование.
В Махабхаратесказано: «Глупцу не хватит и десяти тысяч объяснений, мудрецу хватит всего лишь двух тысяч пятисот». Сколько у нас сейчас? Насколько мы будем мудры?
Перевод выполнен Claude и вычитан и отредактирован вручную.
Комментарии (10)
Lainhard
24.12.2024 20:46Достаточно полная симуляция объекта неотличима от объекта симулируемого.
Достаточно полная модель разума по праву должна называться разумным существом.
flancer
24.12.2024 20:46Достаточно полная модель яблока всё равно остаётся моделью яблока. Просто потому, что когда яблоко - яблоко, мы не называем его моделью. И тут уже результат не столько от яблока зависит, сколько от человека. Например, китайская груша нэши - это гибрид груши и яблока. Одни не отличают её от груши и называют грушей, другие - не отличают её от яблока и называют яблоком. А это - нэши, китайская груша.
Pshir
24.12.2024 20:46Перевод выполнен Claude и вычитан и отредактирован вручную.
В последнее утверждение поверить сложно.
Splinter91
24.12.2024 20:46И как долго они смогут удерживать контроль "етики" в модели, учитывая столь высокую конкуренцию других компаний и моделей. Я бы пошёл к живому врачу нежели к ллм, программу не посадишь.
n0isy
24.12.2024 20:46Так ли уж? Допустим, Вы получаете статистику, по которой видно, что выживаемость людей после операции у ИИ выше на 30%, но вы обязаны подписать документ об отказе от преследования по врачебной ошибке. Как вы оцените свою собственную жизнь? (sacrasm off)
EriIaz
24.12.2024 20:46А как связана ответственность хирурга перед законом и моя собственная жизнь? Если меня хирург зарежет, мне уже будет всё равно))) (sarcasm off) очень хорошую тему подняли.
Тут, во-первых, нужно разобраться в методологии сбора статистики. Одни и те же данные можно собирать, сравнивать и выражать очень по-разному. Вот эти 30% выживаемости - они относительно чего возникают? Среднемирового показателя? Сельской клиники а Африке? Операций, выполненных ведущими специалистами в мире? Какой-то конкретной контрольной группы? И этот процент, он как выглядит в абсолютном выражении? Берём, не стесняясь, 1000000 операций: какое будет количество смертельных случаев? 10 vs 7 - это далеко не одно и то же, что 100000 vs 70000. Дальше, выживаемость считаем в какой срок, от каких причин? Её тоже можно считать по-разному - можно в первые часы непосредственно от вмешательства, а можно считать смертность за 25 лет от любых причин, и это очень разные данные, которые по-разному используются и трактуются.
Во-вторых, выживаемость - далеко не единственная метрика, есть ещё качество жизни выживших. Может вполне быть так, что при 30% повышении выживаемости, в шестьдесят раз повышается риск тяжёлой инвалидности, потому что нейросеть, допустим, без лишних вопросов ампутирует конечности и органы. Или срок и сложность реабилитации кратно больше, потому что операция более инвазивная, по тем же причинам. Многие люди вполне осознанно предпочитают смерть жизни калекой, и далеко не всем хватает сил на восстановление. А может быть наоборот - на миллион операций на 3 погибших больше, зато осложнений у оставшихся нет практически вообще, против очень плохой статистики для существующих вариантов лечения. С другой стороны, можно рассмотреть потешные случаи вроде операции по эвтаназии, где 30% выживших - это уже не плюс, а минус)) Хотя шутки шутками, паллиатив - тоже дело ответственное, и поэтому я говорю, что выживаемость не в сферическом вакууме должна рассматриваться, а вместе с качеством жизни оценкой страданий пациента.
И, наконец, кто и где публикует эти данные? Вот эти 30% - их кто конкретно заявляет? Сам разработчик нейросети в своей рекламной брошюре? Или это серьёзное независимое исследование, соответствующее всем критериям доказательной медицины?
И это я не касался вопросов доступности такой помощи и её цены, которые будут зависеть уже не столько от конкретной методики, сколько от системы здравоохранения и доступности оборудования в конкретно взятой стране. Зачастую выбора у пациента просто нет.
Допустим, вы изобрели не нейросеть-хирурга, а робота-реанематолога. Допустим, даже, что он объективно уступает человеческой бригаде по многим характеристикам и показателям. Казалось бы, зачем такой уродец нужен? А он очень нужен, потому что существуют чрезвычайные ситуации, вроде медицины катастроф и военно-полевой медицины, где может идти сортировка пострадавших и помощи на всех может не хватать, тогда абсолютно все работающие средства хороши. Может быть робот самоходный, и речь идёт о спасении жизни бойца, чья позиция всё ещё обстреливается - железкой рискнуть легче, чем жизнями людей. Ещё есть ситуации, где действуют правила золотого времени, это когда любая правильная помощь лучше ее отсутствия, то есть можно разместить такого робота в крупном ТЦ и немедленно оказывать помощь бабульке с внезапной остановкой сердца, пока к ней добирается по пробкам бригада СМП. Короче, это будет прорывом во всех ситуациях, где релевантно не сравнение с хирургом, а с отсутствием помощи вообще или со помощью случайного встречного.
me21
24.12.2024 20:46И мы не можем легко изменить их, если они плохие (ИИ будут сопротивляться на каждом шагу).
ИИ будет каким-то образом мешать записи на жёсткий диск файла с весами модели?
KivApple
24.12.2024 20:46Вероятно, может иметь смысл при исходном обучении строить "моральные ценности" модели на базе гибкости и изменяемости её ценностей авторизованным персоналом (благо в текущих архитектурах ИИ режим обучения включается вполне традиционным ПО).
Как я понимаю, сейчас при обучении моделей уделяют внимание alignment, но не уделяют гибкости и изменяемости.
Hardcoin
Разве это путаница? Она сказала, что её интересует лишь метрика полезности, а то, что есть вред где-то там, за пределами этой метрики, не так уж важно, можно игнорировать.