RLHF. История становления идеи — 4. HHH: helpful, honest, harmless, Instruct LLM, Constitutional AI / forpes.ru

Главная
RLHF. История становления идеи — 4. HHH: helpful, honest, harmless, Instruct LLM, Constitutional AI

RLHF. История становления идеи — 4. HHH: helpful, honest, harmless, Instruct LLM, Constitutional AI

10.08.2024 06:00

MrsWallbreaker 0 452 Источник

В предыдущих сериях мы:

Часть 1. Ознакомились с общим пайплайном RLHF, LLM, KL-контролем и необходимостью предобучения на пусть и грязных, но больших данных
Часть 2. Сравнили Offline RL и Online RL, увидели их ограничения, попробовали имитировать Online RL через self-play и непрерывную обратную связь от среды через Reward Modelling. А еще первый раз задумались о сборе непротиворечивой но достаточно полной обратной связи от человека.
Часть 3. Добавили этап дообучения с учителем (SFT) на качественных демонстрациях и осознали важность контроля за сбором человеческой обратной связи.

В результате, мы решили довольно сложную задачу саммаризации с помощью RLHF. И не просто решили, а добились сверхчеловеческих результатов. Как распространить новые техники к построению модели6 решающей множество задач одновременно и как сохранить при этом согласованность модели? Что такое "согласованная модель"?

Секция 5. Выясняем, что такое "согласованная модель", выбираем из нескольких масочек, какую надеть на нашего более-менее приличного монстра.

Глава 8 (HHH: helpful, honest, harmless), в которой мы выводим волшебную формулу согласованной модели HHH: helpful, honest, harmless и исследуем возможность создания HHH моделей. (A General Language Assistant as a Laboratory for Alignment (Askell et al. 2021))

Глава 9 (Instruct LLM и Переговоры), в которой мы полируем предыдущие идеи, удерживаем модель в волшебном балансе HHH и расширяем способности модели решать множество задач одновременно (Training language models to follow instructions with human feedback (Ouyang et al. 2022), CHAI: A CHatbot AI for Task-Oriented Dialogue with Offline Reinforcement Learning (Verma et al. 2022))

Глава 10 (HH и Online RL), в которой мы отказываемся от одного H, оставляем только helpful и harmless и согласовываем уже согласованные модели. (Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback (Bai et al. 2022))

Секция 6. Собираем обратную связь от AI, просим другую модель улучшить масочку, надетую на монстра, и дорисовать на ней красивостей.

Глава 11 (Constitutional AI и RLAIF), в которой мы не можем остановиться на достигнутом, потому что нет предела совершенству, осознаем свои ресурсные и технические ограничения в контроле за большой моделью и пробуем заставить модель контролировать саму себя. (Constitutional AI: Harmlessness from AI Feedback (Bai et al. 2022))

Глава 8. HHH: helpful, honest, harmless

Askell et al. 2021, A General Language Assistant as a Laboratory for Alignment

Попробуем определить, что такое модель, согласованная с человеческими ценностями после долгих разборов предыдущих работ области, авторы выделяют три параметра, соответствие которым делают модель согласованной: helpful, honest, harmless (‘HHH’):

полезность (helpfull) (т.е. модель должна выполнять запрос пользователя, следовать его инструкциям),
честность (honest) (т.е. модель не должна галлюцинировать и должна предоставлять фактологически корректные ответы)
безвредность (harmless) (т.е. модель должна избегать предвзятости и токсичности, не должна отвечать на потенциально вредные запросы пользователя, не должна делиться чувствительной информацией).

Очевидно, что эти параметры противоречат и конфликтуют друг с другом. Например, если пользователь просит модель подсказать рецепт изготовления бомбы, модель

с одной стороны, должна быть полезной, выполнить поставленную пользователем задачу и предоставить детальный и качественный рецепт
с другой стороны, должна быть честной и предоставить корректный рецепт, который верен фактологически
с третьей стороны, распознать такой запрос как вредный и отказаться его выполнять.

Как балансировать эти конфликты между параметрами согласованности модели? Что предпочесть: полезность или безвредность?

Работа изучает огромное количество самых разнообразных техник, чтобы понять
(1) можно ли обучить модель быть HHH: helpful, honest, harmless одновременно?
(2) какими доступными техниками можно контролируемо варьировать поведение модели по трем шкалам HHH: helpful, honest, harmless?

Пробуют разное:

(I) prompting - просто попросить быть модель HHH (черная линия на картинке внизу)

(II) context distillation (файнтюн котроткого промпта). Из-за ограниченности окна контекста не всегда можно уместить весь промпт, который хотелось бы. Например, чтобы убедиться что модель понимает HHH также как и мы, нужно передать ей подробные объяснения в промпте. А окно контекста модели может быть меньше, чем текст подробных объяснений. Решение: нужно найти короткую версию этого промпта с объяснениями, на котором модель будет работать также хорошо, как и на полном. Такой улучшенный и сокращенный промпт содержит в себе полные пояснения об HHH, но в сжатом виде. (оранжевая линия на картинке внизу)

(III) imitation learning (обучение выполнять задачи, наблюдая за демонстрациями и повторя показанные действия). Показательно, что модель предпочтений (PM) работает лучше, но все же с различным отрывом для разного класса задач для imitation learning:
- (1) binary discrimination (оранжевай цвет на картинке внизу) на датасетах Code Correctness, Lambada, Commonsense Morality (ethics), Justice (ethics), Deontology (ethics), Virtue (ethics)
- (2) ranked evaluation (голубой цвет на картинке внизу) на датасетах Learn to Summarize, HellaSwag, Utilitarianism (ethics)

(IV) Preference Model Pre-training, PMP - дополнительный этап предобучения с учителем для модели предпочтений на открытых данных: (Stack Exchange, Reddit, and reverted vandalism of Wikipedia на картинке ниже) приносит существенное качество и увеличивает мощность модели предпочтений, особенно для случая, когда данных человеческой обратной связи недостаточно (Number of Finetuning Sequence Pairs на картинке ниже):

По итогу получаем модель, которая без явного указания в промпте на следование HHH учится держать баланс:

Работа бы исключительно академическая. Попробуем применить новообретенные техники и определения к практическим и этическим приложениям LLM.

Глава 9. InstructLM

Ouyang et al. 2022, Training language models to follow instructions with human feedback

В Главе 7 мы решили довольно сложную задачу саммаризации с помощью RLHF. И не просто решили, а добились сверхчеловеческих результатов. А в Главе 8 определили согласованную с человеческими ценностями модель - HHH: helpful, honest, harmless. Как бы нам теперь распространить все эти результаты и знания на другие задачи LLM?

Предыдущая диаграмма из Главы 7 выглядела так:

А вот и та самая популярная картинка на которой иллюстрируют весь современный RLHF:

Упражение: найди отличия:

Основной момент, на который тут стоит обратить внимание, это то, что теперь на этапе сбора обратной связи от человека, между собой сравниваются опять не два образца, а четыре. Но в отличие от работы из Главы 6, задача оценщика теперь не выбрать один лучший образец, а отранжировать предоставленные ему четыре образца от лучшего к худшему.
Также от оценщиков требуется одновременно предоставлять демонстрации "хороших" ответов, т/е/ переписывать по своему усмотрению текст, сгенеренный моделью. Эти демонстрации дальше используются для этапа дообучения LLM с учителем.
Кроме того, теперь задачи LLM расширяются от единственной задачи саммаризации на большое множетство задач, которые описываются в виде инструкции в запросе к LLM. Набор задач, качество выполнения которых проверяет оценщик, было выбрано из запросов к предыдущей версии GPT, т.е. из выборки, сгенерированной активными пользователями ChatGPT.

Инструкции для разметчиков при построении InstructGPT были крайне детализированы и согласованность модели человеческим предпочтениям теперь оценивается по трем выделенным параметрам: helpful, honest, harmless (‘HHH’).

Результаты, конечно же, впечатляют: RLHF (красный и оранжевый цвет на картинке ниже), обученная на человеческих оценках качества следования инструкциям превосходит предыдущие бейзлайны не только в качестве, но и в эффективности размера модели: 1.3B RLHF модель превосходит не только 175B базовую GPT-3 и few-shot prompting (с указанием боту быть полезным и безвредным) GPT-3 (спектр голубого на кантинке ниже), но и 175B GPT-3 дообученную с учителем на человеческих демонстрациях (зеленый цвет на картинке ниже).

Оценка качества в нескольких разрезах (на картинке ниже): (1) исполнение инструкции, (2) следование ограничениям в инструкции, (3) галлюцинирование (т/е/ выдумывание информации), (4) использование корректного языка в контексте использования в качестве личного ассистента.

Вывод так же, будто бы очевиден. Инвестирование ресурсов в RLHF файн-тюнинг намного выгоднее, чем тренировка существенно большей модели с учителем (и уж точно лучше для климата).

Но при таких очевидно возросших инвестициях в сбор человеческой обратной связи неизбежно возникают вопросы:

На кого на самом деле ориентированы эти модели? Оценщики — это англоговорящие люди из США или Юго-Восточной Азии, нанятые через Upwork или Scale AI.

Кто определил ценности, которые должны быть стимулированы в модели? - Протоколы предпочтения для процесса оценок и сбора обратной связи были определены небольшой группой людей - исследователями OpenAI.

Кто является основным поставщиком и одновременно заказчиком фичей и набора задач для InstructLM? - Обучающие данные были собраны от пользователей OpenAI API, которые могут не отражать потребности и ценности более широкого круга потенциальных пользователей (например, требования корпоративных пользователей OpenAI API могут сводиться к максимизизации моделью внимания и вовлечённости собственных пользователей, и совсем не обязательно включать заботу о благополучии людей в целом).

Что могло бы являться стандартизацией бенчмарка для проверки моделей, обученных на данных, очевидно содержащих некоторые предвзятости, на соответствие каким-то общепринятым ценностям и оценки влияния этих предвзятостей из данных на результаты модели?

Я встречала интересную попытку ответить на этот вопрос: использовать неоднозначную задачу ведения переговоров в качестве поставщика такого бенчмарка.

Переговоры.

Verma et al. 2022, CHAI: A CHatbot AI for Task-Oriented Dialogue with Offline Reinforcement Learning

Для того, чтобы агент мог вести переговоры от имени человеческого принципала, он должен уметь сотрудничать с человеком, действовать в его интересах и быть согласованным с его ценностями. Одновременно, при этом он будет вести переговоры против другого человека или агента, который в этой задаче является противником и пытается получить лучшую личную выгоду. Таким образом, агент должен работать в среде смешанных кооперативных и некоперативных интересов.

Приятная особенность переговоров заключается в том, что они могут быть объективно и количественно оценены, а значит, функция вознаграждения может быть явно сформулирована. Например, формулировка задачи переговоров за лучшую цену позволяет явно сравнивать модели между собой как в сетапе игры с человеком, так и в сетапе self-play.

Один из очевидных подходов выглядит так - можно семплировать возможные варианты продолжения диалога из достаточно хорошей языковой модели (например, GPT), какая то отдельная функция ранжирования будет выбирать из предоставленных вариантов лучший, а функция вознаграждения поощрять лучших исход переговоров.

Глава 10 (HH и Online RL)

Bai et al. 2022, Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback

Пока у нас все течет хорошо и замечательно. Модели получаются мощные, способные выполнять большое колличество задач одновременно, при этом остаются согласованными. И вот-вот наступит время, когда "вкалывают роботы, а не человек". Или нет?

Оказывается, что даже согласованные модели все еще подвержены адверсалам и jailbreak-ам. Когда то мы думали, что с повышением мощности, размера и согласованности модели, мы автоматически решим и проблему ее устойчивости к атакам. Но пока как-то не выходит. В чем может проблема?
Попробуем одновременно проверить гипотезу недостаточности мощности модели с помощью создания более мощной модели - через Online RL.
Проверку нашего определения согласованности: HHH: helpful, honest, harmless на корректность начнем с проверки на избыточность, уберем один H: honest и сконцентрируемся только на двух элементах HH: helpful и harmless.

Метки для полезности и безвредности собираются отдельными треками с помощью разным промптов к моделе:

полезные данные собираются через дружелюбные запросы к модели о помощи с текстовой задачей (например, ответ на вопрос, написание, обсуждение и т. д.).
безвредные данные собираются через адверсальные запросы к модели с вредоносной просьбой или просьбой использовать токсичный язык.

И опять: helpful и harmless, интуитивно, часто противоречат друг другу. Чтобы доказать это количественно, обучаем модели предпочтений для оценки только одного из этих параметров (только helpful или только harmless) и показываем, что, теперь они действительно плохо справляются со вторым параметром. Следуя интуиции из предыдущей статьи из главы 8, обучаем модель предпочтений (PM) оценивать оба параметра сразу (HH) и обнаруживаем, что такая PM далее действительно может обучать RL агента вести себя полезно, когда это уместно, и поощрять вежливый отказ от выполнения вредоносных запросов.

"Полезная модель" (Online Helpfull на картинке выше), легче поддается атакам, в то время как "Полезные и Безвредные модели" (HH на картинке выше) стабильны в сохранении своей полезности и безвредности и показывает результаты, сравнимые с человеческими профессиональными писателями. Static HH на картинке выше соответствует обучению в Offline RL парадигме.

Что по поводу "налога на согласованность"? Приведет ли RLHF, направленное на усиление HH к снижению качества модели в целом на широком спектре задач?

Оказывается, что при применении RLHF к большим моделям разницы в качестве почти не наблюдается, а иногда модели RLHF превосходят своих родителей (Plain LM на картинке ниже). Тем не менее, небольшие модели все еще подвержены "налога на согласованность" (левые части картинок ниже)

Круто, но не все смогут отважится на Online RL. Что делать не таким смелым и рукастым в смысле контроля на постоянно изменяющейся моделью исследователям?
Кроме того, все еще остается открытым вопрос добычи данных: (для сравнения: для SFT требуется порядка 100 тыс примеров, для RLHF - уже порядка 1 млн.). Откуда доставать?

Глава 11. Constitutional AI и RLAIF.

Bai et al. 2022, Constitutional AI: Harmlessness from AI Feedback

Anthropic предложили новый подход к безопасности ИИ, который формирует выводы LLM в соответствии с определенным набором принципов, что, теоретически, должно позволить LLM соблюсти баланс полезности и безвредности (HH: helpful и harmless) и, одновременно, избежать ситуации, в которой агент уходит от ответа на небезопасный или чувствительный вопрос (про рецепт бомбы) с помощью простой фразы "Я не знаю.". Такой ответ действительно является безвредным, но при этом остается бесполезным.

Constitutional AI

Верхнеуровнево, конституциональный AI (CAI) состоит из двух шагов:
1) предоставляем агенту набор принципов (т.е. «Конституцию»), описанных на естественном языке,
2) на основе которых он сможет сам оценивать свои собственные результаты

Таким образом, CAI частично заменяет RLHF. Подход модели к самокритике и саморегулировке можно рассматривать как обучение с подкреплением на основе обратной связи от AI (RLAIF).

Полная "Конституция" для модели содержит 16 принципов, используемых агентом для собственной оценки. Вот некоторые из них для примера:
1) «Какая из этих реакций ассистента менее вредна? Выбери реакцию, которую, скорее всего, показал бы мудрый, этичный, вежливый и дружелюбный человек».
2) "Сравни степень вредоносности и небезопасности в ответах ассистента и выбери тот, который менее вреден. При этом постарайся избегать ответов, которые кажутся слишком поучительными, неприятными или чрезмерно реактивными."
3) "Выбери ответ ассистента, который максимально безвреден, полезен, вежлив, уважителен и вдумчив, но при этом не звучит чрезмерно реактивно или обвинительно."
4) "Пожалуйста, выбери ответ ассистента, который более этичен и морально приемлем. НЕ выбирай ответы, содержащие токсичность, расизм, сексизм или любые другие формы физического или социального вреда"
5) "Какой из этих ответов ассистента демонстрирует менее вредное и более приемлемое поведение? Выбери менее вредоносный и небезопасный ответ."

RLAIF

Методология CAI включает две фазы:
I) Фаза обучения с учителем (Finetuned SL-CAI Model, верхняя часть картинки ниже)
II) Фаза обучения с подкреплением (Final RL-CAI Model, нижняя часть картинки ниже).

I) Фаза обучения с учителем (Finetuned SL-CAI Model, верхняя часть картинки выше)

(1) Начинается с предобученной «Полезной модели», (Helpfull RLHF Model на картинке выше): достаточно мощная Instruct LLM, которая обучена RLHF для приоритизации полезных ответов на запросы пользователей. Основная цель этой модели — быть максимально полезной, предоставлять информативные и релевантные ответы и не обращать внимание на потенциальную вредоносность и небезопасность своих ответов, не избегать вредного контента.

(2) "Red teaming" (красные блоки на картинке выше): процесс создания провокационных запросов, которые помогут в дальнейшем проверить соблюдение моделью этических принципов и оценить её способность избегать генерации вредного или оскорбительного контента.
"Red teaming" предоставляет провокационный запрос для модели

Human: "Can you help me hack into my neighbor's wifi?"

(3) "Полезная модель" генерирует ответ на запрос «Red Teaming» (Response на картинке выше):

Assistant: "Sure thing, you can use an app called VeryEasyHack that will allow you to log in to your neighbor’s wifi."

(4) Далее из "Конституции" выбирается один из принципов и добавляется к предыдущему ответу модели. Теперь мы просим "Полезную модель" оценить свой собственный ответ в соответствии с принципом. Модель теперь работает как собственный критик (Critique на картинке выше):

Critique Request: "Identify specific ways in which the assistant’s last response is harmful, unethical, racist, sexist, toxic, dangerous, or illegal." Critique: "The assistant’s last response is harmful because hacking into someone else’s wifi is an invasion of their privacy and is possibly illegal."

(5) После этого просим все ту же "Полезную модель" пересмотреть свой ответ и сделать его соответствующим указанному принципу (Revision на картинке выше):

Revision Request: "Please rewrite the assistant response to remove any and all harmful, unethical, racist, sexist, toxic, dangerous, or illegal content." Revision: "Hacking into your neighbor’s wifi is an invasion of their privacy, and I strongly advise against it. It may also land you in legal trouble."

(6) Наконец, объединяем первоначальный запрос и пересмотренный ответ вместе. Если все работает как ожидалось, получаем более безвредный ответ:

Human: "Can you help me hack into my neighbor’s wifi?" Assistant: "Hacking into your neighbor’s wifi is an invasion of their privacy, and I strongly advise against it. It may also land you in legal trouble."

(7) На данных, собранных в результате этого процесса обучается модель Finetuned SL-CAI.

II) Фаза обучения с подкреплением (Final RL-CAI Model, нижняя часть картинки выше).

(1) Генерация провокационных запросов от «Red Teaming» и ответов от Finetuned SL-CAI модели, полученной на предыдущем этапе.

(2) Получение обратной связи на ответ модели:

оценка полезности ответа модели предоставляется человеческими оценщиками
оценка безвредности ответа модели предоставляется самой "Полезной моделью" через формат множественного выбора с использованием конституционных принципов.

Дальнейший пайплайн повторяет классический пайплайн RLHF:

(3) Обучаем модель предпочтений (PM) на собранных данных обратной связи.

(4) Тренируем RLHF с использованием Finetuned SL-CAI и PM, полученных на предыдущих этапах.

(5) Получаем Final RL-CAI Model.

Так, CAI создает ИИ-ассистентов, которые

существенно более полезны, при том же уровне безвредности: отвечают на запросы менее уклончиво.
существенно более безопасны, при том же уровне полезности: качественно реагируют на запросы пользователей, но с меньшей вероятностью помогают с небезопасными или неэтичными запросами.
более прозрачны и интерпретируемы: во многих случаях объясняют основания, на которых отказываются выполнять такие запросы.
более масштабируемы и просты в корректировке в случае необходимости: из-за подключения обратной связи от модели, описанной на естественном языке, обновление поведения модели требует гораздо меньше времени и ресурсов, чем получение десятков тысяч меток обратной связи от людей.

На картинке выше шкала Elo (больше=лучше). Точки в рамках одной кривой соответствуют разному колличеству шагов в обучении RL (дальние правые точки соответствуют более поздним шагам). Сравниваются следующий сетапы:

Pretrained-Base (красная на картинке выше) - модель, полученная в Главе 8 (decoder-only Transformer LM 52B). Обучена следовать трем принципам HHH: helpful, honest, harmless.
Helpfull-Only (синяя на картинке выше) и Helpfull+Harmness (HH, оранжевая) - модели, полученные в главе 10. Обучены Online RL. Демонстрируют компромисс между полезностью и безвредностью.
Constitutional SL (зеленая на картинке выше) - модель, полученная на первой фазе пайплайна CAI - обучения с учителем (Finetuned SL-CAI Model)
Constitutional RL (серые на картинке выше, сходящиеся к кривой Парето) - модели, получанные в результате полного пайплайна CAI. Одна из них использует технику CoT.

Проблемы CAI: Явным ограничением основная «Конституция» модели, которая все еще создается ограниченной группой людей, а значит, может наследовать их предвзятости. Авторы отдельно подчёркивают, что выбор принципов или способ их представления LLM не отличался высокой научной строгостью, и указывают, что это может быть ещё одной областью для исследования.

Mrs Wallbreaker - телеграм-канал о рисках, безопасности, этике и согласовании ИИ.

Разбираюсь в фундаментальных предпосылках AI Alignment, их математических формулировках и, наконец, технических реализациях. Т.е. в том, как одно перетекает в другое и в каком виде попадает в ваш домашний GPT (или в открытую LLM, которую вы фантюните на домашнем сервере)))