Это перевод третьего из пяти постов Цепочки «Риски Выученной Оптимизации», основанной на статье «Риски Выученной Оптимизации в Продвинутых Системах Машинного Обучения» за авторством Эвана Хубингера, Криса ван Мервика, Владимира Микулика, Йоара Скалсе и Скотта Гаррабранта. Посты цепочки соответствуют разделам статьи.

В этом посте мы обрисуем причины считать, что меса-оптимизатор может оптимизировать не ту же целевую функцию, что и его базовый оптимизатор. Машинное обучение даёт контроль над базовой целевой функцией – либо прямым определением функции вознаграждения, либо обучением её модели – но не даёт возможности напрямую определить выработанную меса-оптимизатором меса-цель. Мы называем эту задачу согласования меса-оптимизаторов с базовыми целями задачей внутреннего согласования. Она отделена от задачи внешнего согласования – удостовериться, что базовая цель соответствует намерениям программистов.

Нынешние методы машинного обучения отбирают обученные алгоритмы эмпирически оценивая их работу на наборе обучающих данных согласно базовой целевой функции. Таким образом базовые оптимизаторы отбирают меса-оптимизаторы по их выводам, а не напрямую по меса-целям. Более того, стратегия отобранного меса-оптимизатора должна хорошо работать (по оценке базовой цели) лишь на обучающих данных.Если мы примем предположение, что меса-оптимизатор вычисляет оптимальную стратегию для своей целевой функции, то мы можем описать отношение между базовой и меса- целями следующим образом: (17)

Θ* = argmaxΘ E(ObaseΘ)), где

πΘ = argmaxπ E(Omesa(π|Θ))

То есть, базовый оптимизатор максимизирует свою цель Obase, выбирая меса-оптимизатор с параметрами Θ, основываясь на его стратегии πΘ, но не на целевой функции Omesa, которую меса-оптимизатор использует для вычисления своей стратегии. В зависимости от базового оптимизатора, мы можем думать о Obase как об отрицательных потерях, будущей награде, или просто некой функции приспособленности, по которой отбираются обученные алгоритмы.

Ибарз и пр. представили интересный подход анализа этой связи, где эмпирические данные по награде и выученная награда на тех же ситуациях используются для визуализации их согласованности в виде точечной диаграммы.(18) В этой работе используется предположение, что монотонное отношение между выученной и реальной наградой означает согласованность, а отклонения от него – несогласованность. Такого рода исследования теоретических метрик согласования может когда-нибудь позволить нам  рассуждать конкретно и с доказуемыми гарантиями того, в какой степени меса-оптимизатор согласован с создавшим его базовым оптимизатором.

3.1 Псевдо-согласованность

Пока не существует полной теории того, какие факторы влияют на то, будет ли меса-оптимизатор псевдо-согласованным – окажется ли, что он выглядит согласованным на обучающих данных, в то время как на самом деле оптимизирует что-то, не являющееся его базовой целью. В любом случае, мы обрисуем основную классификацию способов, которыми меса-оптимизатор может быть псевдо-согласован:

  1. Прокси-согласованность,

  2. Приблизительная согласованность, и

  3. Субоптимальная согласованность.

Прокси-согласованность. Основная идея прокси-согласованности в том, что меса-оптимизатор может научиться оптимизировать что-то сцепленное с базовой целью вместо неё самой. Мы начнём с рассмотрения двух специальных случаев прокси-согласованности: побочная согласованность и инструментальная согласованность.

Во-первых, меса-оптимизатор побочно-согласован, если оптимизация меса-цели Omesa напрямую ведёт к базовой цели Obase в обучающем распределении, и потому, когда он оптимизирует Omesa, это приводит к Obase. Как пример побочной согласованности, представим, что мы обучаем робота-уборщика. Пусть робот оптимизирует количество раз, которое он подмёл пыльный пол. Подметание приводит к тому, что пол становится чистым, так что робот будет получать хорошую оценку базового оптимизатора. Однако, если при развёртывании он получит способ опять загрязнить пол после уборки (например, рассыпав собранную пыль обратно), то робот им воспользуется, чтобы иметь возможность опять подмести пыльный пол.

Во-вторых, меса-оптимизатор инструментально согласован, если оптимизация базовой цели Obase напрямую ведёт к меса-цели Omesa в обучающем распределении, и потому он инструментально оптимизирует Obase на пути к Omesa. Как пример инструментальной согласованности, опять представим, что мы обучаем робота-уборщика. Пусть робот оптимизирует количество пыли в пылесосе. Предположим, что в обучающем распределении простейший способ заполучить пыль в пылесос – это пропылесосить пол. Тогда он будет хорошо убираться в обучающем распределении, и получит хорошую оценку базового оптимизатора. Однако, если при развёртывании робот наткнётся на более эффективный способ получения пыли – например, направить пылесос на почву в горшке с растением – то он больше не будет исполнять желаемое поведение.

Мы предполагаем, что возможно понять общее взаимодействие побочной и инструментальной согласованности с помощью графа причинности, что ведёт нас к общему понятию прокси-согласованности.

Предположим, что мы моделируем задачу как граф причин и следствий, с вершинами для всех возможных свойств задачи и стрелками между вершинами для всех возможных отношений этих свойств. Тогда мы можем думать о меса-цели Omesa и базовой цели Obase как о вершинах графа. Для псевдо-согласованности Omesa должна существовать некая вершина X, такая что она является общим предком Omesa и Obase в обучающем распределении и обе Omesa и Obase растут вместе с X. Если X = Omesa, то это побочная согласованность, а если X = Obase, то инструментальная.

Это приводит к наиболее обобщённому отношению между Omesa и Obase, из которого может произойти псевдо-согласованность. Рассмотрим граф на рисунке 3.1. Меса-оптимизатор с меса-целью Omesa решит оптимизировать X как способ для оптимизации Omesa. Это приведёт у оптимизации и Obase как побочному эффекту оптимизации X. Так что в общем случае побочная и инструментальная согласованности могут вместе вкладываться в псевдо-согласованность на обучающем распределении, что и есть общий случай прокси-согласованности.

Рис. 3.1. Причинная схема обучающего окружения для разных видов прокси-согласованности. Сверху-вниз – побочная согласованность, инструментальная согласованность, общий случай прокси-согласованности. Стрелки отображают положительное отношение следствия – то есть, случаи, когда рост в узле-предке приводит к росту в узле-потомке.
Рис. 3.1. Причинная схема обучающего окружения для разных видов прокси-согласованности. Сверху-вниз – побочная согласованность, инструментальная согласованность, общий случай прокси-согласованности. Стрелки отображают положительное отношение следствия – то есть, случаи, когда рост в узле-предке приводит к росту в узле-потомке.

Приблизительная согласованность. Меса-оптимизатор приблизительно согласован если меса-цель Omesa и базовая цель Obase – это приблизительно одна и та же функция с некоторой погрешностью, связанной с тем фактом, что меса-цель должна быть представлена внутри меса-оптимизатора, а не напрямую запрограммирована людьми. К примеру, представим, что нейросети дана задача оптимизировать некую базовую цель, которую невозможно идеально представить внутри этой нейросети. Даже если получилось достигнуть предела возможной согласованности меса-оптимизатора, он всё ещё не будет устойчиво согласован, поскольку его внутреннее представление базовой цели лишь приближённо совпадает с ней самой.

Субоптимальная согласованность. Меса-оптимизатор субоптимально согласован, если некий недостаток, ошибка или ограничение его процесса оптимизации привело к тому, что он демонстрировал согласованное поведение на обучающем распределении. Это может произойти из-за ограничений вычислительной мощности, недостатка информации, иррациональных процедур принятия решений, или иного дефекта процесса рассуждений меса-оптимизатора. Важно отметить, что это не ситуация, в которой меса-оптимизатор устойчиво согласован, но всё же совершает ошибки, приводящие к плохим результатам согласно базовой цели. Субоптимальная согласованность – это ситуация, когда меса-оптимизатор несогласован, но всё же работает хорошо согласно базовой цели, в точности потому, что он был отобран по совершению ошибок, к этому приводящих.

Как пример субоптимальной согласованности представим робота-уборщика с меса-целью минимизировать общее количество существующих вещей. Если этот робот имеет ошибочное убеждение, что грязь, которую он убирает, полностью уничтожается, то он может быть полезным для уборки комнаты несмотря на то, что это на самом деле не помогает ему достичь своей цели. Этот робот будет восприниматься как хороший оптимизатор Obase и получит хорошую оценку базового оптимизатора. Однако, если при развёртывании робот сможет улучшить свою модель мира, то он перестанет демонстрировать желательное поведение.

Как другой, пожалуй, более реалистичный пример субоптимальной согласованности, представим меса-оптимизатор с меса-целью Omesa и окружение, в котором есть одна простая стратегия и одна сложная стратегия для достижения Omesa. Может оказаться, что простая стратегия согласована с базовым оптимизатором, а сложная – нет. Меса-оптимизатор тогда может знать только о простой стратегии, и быть субоптимально согласованным, до тех пор, пока он не будет запущен на достаточно долгое время, чтобы обнаружить сложную стратегию. В этот момент он перестанет демонстрировать желательное поведение.

3.2 Задача

Как и во втором посте, мы сейчас рассмотрим задачу, поставленную системе машинного обучения. Конкретно, мы разберём, как задача влияет на склонность системы создавать псевдо-согласованные меса-оптимизаторы.

Неразличимость. Частая проблема в машинном обучении – набор данных не содержит достаточно информации, чтобы адекватно определить конкретное понятие. Это аналогично причине, по которой у моделей машинного обучения может не получиться обобщение, или по которой они подвержены состязательному вводу(19) – есть куда больше подходящих для обучения способов классифицировать данные, чем могут представить программисты. В контексте меса-оптимизации это проявляется в том, что псевдо-согласованность куда вероятнее в случае, когда обучающее окружение не содержит достаточно информации для проведения различий в широком наборе целевых функций. В таком случае меса-оптимизатор может быть псевдо-согласован куда большим числом способов, чем устойчиво согласован – по одному для каждой целевой функции неотличимой от желаемой. Так что большая часть меса-оптимизаторов, хорошо оцениваемых согласно базовой цели будут псевдо-согласованы, а не устойчиво согласованы. Это критичное замечание, поскольку это усугубляет остальные проблемы псевдо-согласованности – это причина, по которой в целом сложно найти устойчиво согласованные меса-оптимизаторы. Неразличимость в меса-оптимизации частично  аналогична проблеме неразличимости в обучении с подкреплением (20), мы рассмотрим это подробнее в пятом посте.

В контексте меса-оптимизации есть дополнительный источник неразличимости, вытекающий из того, что меса-оптимизатор выбирается на основании лишь своего вывода. Рассмотрим игрушечный пример обучения с подкреплением. Пусть в обучающем окружении нажатие кнопки всегда приводит к зажиганию лампы с десятисекундной задержкой, и нет других способов включить лампу. Если базовая цель зависит только от того, что лампа включена, то меса-оптимизатор, максимизирующий нажатия на кнопку и меса-оптимизатор, максимизирующий горение лампы, будут демонстрировать идентичное поведение, так как они оба будут нажимать на кнопку как можно чаще. Получается, мы не можем различить их целевые функции в этом окружении. Но при этом оно содержит достаточно информации для того, чтобы различить эти две конкретные цели: поскольку награда приходит лишь через десять секунд, она должна быть от лампы, а не от кнопки. Получается, что даже в случае, когда обучающее окружение в принципе содержит достаточно информации, чтобы определить базовую цель, всё равно может оказаться невозможно различить устойчиво согласованные меса-оптимизаторы от прокси-согласованных.

Прокси-согласованность как сделанное заранее вычисление. Можно рассматривать прокси-согласованность как форму вычислений, сделанных заранее базовым оптимизатором. С его помощью базовый оптимизатор позволяет меса-оптимизатору сэкономить вычислительную работу, заранее вычисляя, какие прокси-цели помогают добиться базовой цели, и оставляя меса-оптимизатору только максимизацию этих прокси-целей.

Без этого меса-оптимизатору пришлось бы выводить причинно-следственные связи между чертами окружения и базовой целью во время выполнения, что потребовало бы значительной вычислительной работы. Более того, ошибки в выводах могли бы привести к тому, что система хуже справлялась бы с базовой целью, чем при наличии заранее вычисленных прокси-целей. Если базовый оптимизатор вычисляет эти связи заранее – отбирая меса-цели, включающие хорошие прокси-цели – то больше вычислений во время выполнения может быть направлено на создание лучших планов.

Это можно проиллюстрировать случаем биологической эволюции. Прокси-цели, о которых заботятся люди – еда, ресурсы, общество, спаривание, и т.д. – относительно вычислительно просто оптимизировать напрямую, и они хорошо коррелируют с выживанием и размножением в окружении наших предков. Для человека устойчивая согласованность с эволюцией требовала бы от нас, чтобы мы напрямую заботились о распространении своих генов. В этом случае нам пришлось бы самостоятельно выводить, что приём пищи, кооперация с другими, предотвращение физической боли, и т.д. в итоге продвинет генетическую приспособленность – а это не тривиальная задача. Вывод всех этих прокси-целей из информации, доступной ранним людям потребовал бы больших (пожалуй, невыполнимо больших) вычислительных ресурсов, чем их прямая оптимизация. Чтобы ребёнок в такой альтернативной вселенной избегал биться пальцем ноги о камень, ему пришлось бы понять, что это слегка уменьшит его шансы на размножение через двадцать лет.

Чтобы сделанное заранее вычисление было выгодным, необходимо довольно стабильное отношение между прокси-целью и базовой целью, так что оптимизация первой предсказуемо шла на пользу второй. Но даже неидеальное отношение может принести значительную выгоду относительно устойчивой согласованности, если оно освобождает меса-оптимизатору очень много вычислительных ресурсов. Из этого анализа вытекает, что в сложных обучающих окружениях может быть давление в сторону прокси-согласованности, поскольку чем сложнее окружение, тем больше экономия для меса-оптимизатора и, заодно, тем больше в нём доступно потенциальных прокси-целей.

Более того, в контексте машинного обучения отсюда получается, что штраф на временную сложность (в отличии от штрафа на длину описания) – это обоюдоострый меч. Во втором посте мы предположили, что он может уменьшить вероятность меса-оптимизации. Однако, из приведённых выше аргументов вытекает, что он также способствует псевдо-согласованности в случае, когда меса-оптимизатор всё же возник. Если цена полного моделирования базовой цели слишком велика, то псевдо-согласованный меса-оптимизатор может оказаться предпочтительнее (для базового оптимизатора) устойчиво согласованного, просто потому что он работает быстрее, даже если бы без штрафа за время он предпочтительнее не был.

Сжатие меса-оптимизатора. Длина описания устойчиво согласованного меса-оптимизатора может быть больше, чем у псевдо-согласованного. Поскольку псевдо-согласованных меса-целей больше, чем устойчиво согласованных, псевдо-согласованность предоставляет большую степень свободы для выбора конкретной достаточно простой меса-цели. Так что мы ожидаем, что в большинстве случаев возможны несколько псевдо-согласованных меса-оптимизаторов, более простых, чем устойчиво согласованный.

Это особенно сильно проявляется если входные данные обученного алгоритма не содержат легко извлекаемой информации о том, как оптимизировать базовую цель. Биологическая эволюция в этом отношении, кажется, отличается от машинного обучения, поскольку эволюционное описание мозга должно проходить через информационную воронку ДНК. Данные, которые получали ранние люди не позволяли им вывести ни существование ДНК, ни отношение между их действиями и генетической приспособленностью. А устойчивое согласование их с эволюцией требовало бы от них наличия определённой внутренней модели ДНК и факторов, влияющих на совокупную генетическую приспособленность. Такая модель не могла бы использовать информацию из окружающей среды для сжатия, так что имела бы большую длину описания. Напротив, наши модели еды, боли и т.д. могут быть довольно короткими, поскольку они напрямую связаны с нашими входными данными.

3.3 Базовый оптимизатор

Теперь мы перейдём к тому, как базовый оптимизатор вероятно влияет на склонность систем машинного обучения создавать псевдо-согласованные меса-оптимизаторы.

Жёстко закодированная оптимизация. Во втором посте мы предположили, что жёстко закодированный алгоритм оптимизации, то есть выбор модели с встроенной оптимизацией, может быть использован для устранения некоторых стимулов меса-оптимизации. Аналогично, он может предотвращать и некоторые источники псевдо-согласованности, поскольку позволяет устанавливать или обучать меса-цель напрямую. Способом достигнуть этого может быть основанное на модели предсказывающее награду обучение с подкреплением.(21) К примеру, система машинного обучения может включать в себя модель, напрямую обученную предсказывать базовую цель, и жёстко закодированный мощный оптимизационный алгоритм. Это обходит некоторые проблемы псевдо-согласованности: если меса-оптимизатор обучен напрямую предсказывать базовую награду, то он будет отобран по хорошим предсказаниям даже если плохие предсказания привели бы к лучшим стратегиям. Однако, обученная модель базовой цели будет всё ещё недоопределена за пределами обучающего распределения, так что этот подход сам по себе не гарантирует устойчивой согласованности.

Диапазон алгоритмов. Мы предполагаем, что диапазон алгоритмов, доступных модели, влияет на вероятность псевдо-согласованности. Особенно сложно избегаемый источник псевдо-согласованности – ошибка приближения – если меса-оптимизатор не в состоянии достоверно отобразить в себе базовую цель, то он в принципе не может быть устойчиво согласованным, только приблизительно. Даже если меса-оптимизатор теоретически может идеально отобразить базовую цель, всё равно, чем сложнее это сделать, тем вероятнее, что он окажется лишь приблизительно согласован. Так что большой диапазон алгоритмов может быть и благом и проклятьем: он уменьшает вероятность приблизительной согласованности, но увеличивает вероятность получения меса-оптимизатора.[1]

Взаимозависимость подпроцессов. Есть причины считать, что изначально может быть больше давления в сторону прокси-согласованных, а не устойчиво согласованных меса-оптимизаторов. В локальном оптимизационном процессе каждый параметр обученного алгоритма (например, вектор нейрона) подправляется в сторону лучшего выполнения базовой цели при условии значений остальных параметров. Значит, то, насколько базовому оптимизатору выгодна выработка нового подпроцесса, скорее всего зависит то того, что в этот момент исполняют другие подпроцессы обученного алгоритма. Таким образом, даже если некий подпроцесс может быть очень выгодным в комбинации с многими другими подпроцессами, базовый оптимизатор может его не выбрать, если эти подпроцессы, от которых он зависит, ещё не в достаточной степени развились. В результате, локальный алгоритм оптимизации вероятнее раньше приведёт к возникновению менее зависящих друг от друга подпроцессов, чем к возникновению более зависящих.

В контексте меса-оптимизации, выгода устойчиво согласованной меса-цели кажется зависящей от большего количества подпроцессов, чем по крайней мере некоторые псевдо-согласованные меса-цели. К примеру, рассмотрим побочно-согласованный меса-оптимизатор, оптимизирующие некий набор прокси-переменных. Пусть ему необходимо запускать некоторые подпроцессы для моделирования связей между своими действиями и этими прокси-переменными. Если мы предположим, что оптимизация этих прокси-переменных необходима для того, чтобы хорошо справляться с базовой целью, то для устойчивой согласованности меса-оптимизатора ему потребовалось бы моделировать ещё и связи между прокси-переменными и базовой целью, что могло бы потребовать дополнительных подпроцессов. Более того, выгода их добавления с точки зрения базового оптимизатора зависит от наличия заранее у меса-оптимизатора подпроцессов, моделирующих связь между его действиями и прокси-переменными. Их этого неформального аргумента следует, что при такой работе базового оптимизатора для выработки устойчиво согласованной меса-цели потребуется строго больше подпроцессов, чем для псевдо-согласованной.

Получается, что по крайней мере в локальных оптимизационных процессах меса-оптимизаторы могут быть склонны вырабатываться как прокси-согласованные прежде, чем станут устойчиво согласованными. Другими словами, мы можем ожидать, что такие системы будут скорее сначала вырабатывать компетентную оптимизацию прокси-целей, а потом становиться более устойчиво согласованными, а не становиться способнее и согласованнее одновременно.

Отбор, основанный на внутреннем устройстве. В нынешних системах машинного обучения обученные алгоритмы отбираются на основании в первую очередь того, насколько хорошо их стратегии справляются с базовой целью. Зачастую есть какой-то отбор, основанный на внутренней структуре обученного алгоритма – вроде регуляризации весов – но обычно он довольно неразбочивый. Возможная идея борьбы с псевдо-согласованностью – использовать метод отбора, основанный на более сложной функции от внутренней работы обученного алгоритма. Этот подход по духу похож на жёстко закодированную оптимизацию: мы используем знание о внутренней работе системы, чтобы предотвратить её прокси-согласованность.

Не исключено, что можно разработать процесс мета-обучения специально для предотвращения псевдо-согласованности. Это кажется пока что за пределами нынешних техник мета-обучения, но лежащий в основе принцип похож на существующие процессы мета-обучения для оптимизации устойчивости. Крайней формой основанного на внутреннем устройстве отбора может быть создание базовым оптимизатором рассуждений или доказательств о свойствах обученного алгоритма как часть процесса отбора.

К сожалению, такие методы пока что находятся за пределами наших возможностей, в первую очередь из-за ограничений нынешних методов обеспечения прозрачности. Возможное беспокойство по поводу этих подходов заключается в том, что они могут потребовать от базового оптимизатора лучшего навыка поиска проблем, чем навык меса-оптимизатора в их скрывании. Следовательно, чтобы создать такой базовый оптимизатор, нам может потребоваться сначала обучить его третьим оптимизатором, что может привести к той же проблеме уровнем выше.

Состязательное обучение. Возможный метод смягчения некоторых из этих проблем – состязательный выбор окружения из очень широкого распределения. Так может быть возможно преодолеть барьеры и сделать устойчиво согласованную цель самой доступной. Это потребует, чтобы для каждой меса-цели Omesa, более доступной, чем базовая цель Obase, существовала некая ситуация, где Omesa и Obase расходятся и меса-оптимизатор мотивирован придерживаться Obase.

Если мы смоделируем доступность цели просто длиной её описания в битах, то различение Obase от каждой более доступной Omesa становится экспоненциально сложнее с ростом сложности Obase. Так что, для очень сложно устроенной Obase, значительно замотивировать базовый оптимизатор обнаружить меса-оптимизатор с этой Obase скорее всего будет очень сложно, хоть и не невозможно.

Однако, даже в таком случае, вероятно, всё ещё будет период времени, когда обученный алгоритм является несогласованным меса-оптимизатором, что открывает зловещую перспективу: несогласованный меса-оптимизатор может выводить и предпринимать правильные действия на основе Obase, всё ещё имея целевую функцию Omesa. Мы назовём эту ситуацию обманчивой согласованностью и обсудим её подробно в следующем посте.

Глоссарий | Библиография

  1. Хоть большой диапазон алгоритмов и кажется уменьшающим вероятность приблизительной согласованности, неясно, как он влияет на другие формы псевдо-согласованности, вроде обманчивой.

 

Комментарии (0)