Привет, на связи Елена Кузнецова, специалист по автоматизации Шерпа Роботикс. Сегодня я перевела для вас статью на очень важную тему, в ней затрагивается проблема удаления персональных и других важных данных из LLM моделей. В статье особенно интересно то, как команда учёных нашла лазейку с помощью которой смогла успешно восстанавливать такие «удалённые» данные.
Большие языковые модели (LLM) продемонстрировали выдающиеся способности в генерации текста, напоминающего человеческий, благодаря обучению на обширных наборах данных. Однако LLM могут также непреднамеренно усваивать и воспроизводить нежелательные поведения из чувствительных учебных данных.
Это поведение включает несанкционированное воспроизведение охраняемого авторским правом контента, генерацию личной информации, такой как контактные данные, и оскорбительные или вредные сообщения.
Такие риски представляют собой значительные этические и правовые проблемы, усложняя безопасное и ответственное использование LLM в работе. Более того, такие законы, как
Общий регламент защиты данных Европейского Союза (GDPR), ввели "Right to be Forgotten", позволяющее пользователям запрашивать удаление своих персональных данных из обученных моделей.
Чтобы устранить влияние проблемного контента в LLM был разработан machine unlearning это появилось как перспективное решение, поскольку повторное обучение этих моделей для устранения нежелательных эффектов данных часто является непрактичным из-за дорогостоящих и длительных периодов обучения.
Machine unlearning для LLM направлен на «забывание» конкретных знаний при максимальном сохранении полезности самой модели.
Среди продвинутых методов machine unlearning, наиболее передовыми являются методы gradient ascent (GA) и negative preference optimization (NPO).
GA направлено на минимизацию вероятности правильных предсказаний на наборе данных для «забывания», применяя градиентное восхождение к потере кросс-энтропии. С другой стороны, NPO рассматривает набор данных для «забывания» как данные с отрицательным предпочтением, чтобы настроить модель на присвоение меньшей вероятности набору данных.
Поскольку GA и NPO не предназначены для сохранения полезности модели, несколько методов регуляризации обычно комбинируются с machine unlearning для сохранения функциональных возможностей модели. Например, используются такие методы, как градиентный спуск, а также метод минимизации дивергенции Кульбака-Лейблера между вероятностными распределениями machine unlearning модели и целевой модели.
Несмотря на превосходную производительность machine unlearning, мало внимания уделяется тому, действительно ли существующие методы machine unlearning для LLM достигают полного забывания или просто скрывают знания.
В рамках исследования авторы обнаружили, что, используя существующие репрезентативные методы machine unlearning, простое применение квантования может частично восстановить забытые знания.
В частности, как показано на Рисунке 1, учитывая целевую модель и набор данных для «забывания», авторы применили методы machine unlearning. В процессе тестирования модель продемонстрировала превосходную производительность и отсутствие ненужных данных в полном объеме. Однако, когда исследователи применили квантование, эффективность "забывания" ухудшилась.
Как показано в Таблице 1, применение метода machine unlearning " GA_KLR на наборе данных BOOKS (Shi et al., 2024b) приводит к тому, что модель сохраняет лишь 13% своих первоначальных знаний.
Однако после квантования модель восстанавливает знания до 89%.
Авторы исследования провели комплексные эксперименты, чтобы систематически подтвердить наши выводы, используя различные методы квантования на нескольких уровнях точности по различным контрольным показателям, подчеркивая общность критической проблемы восстановления данных через квантование.
Авторы утверждают, что это критическая проблема, поскольку квантование широко используется в эпоху LLM для развертывания моделей в условиях ограниченных ресурсов. Когда происходит дообучение модели для «забывания» злонамеренного/приватного контента, критически важно, чтобы злонамеренный/приватный контент не мог быть восстановлен после квантования модели.
Ключевая гипотеза авторов исследования заключается в том, что для достижения «забывания» данных без ущерба для модели существующие методы используют маленькую скорость обучения и регуляризацию на наборе данных для сохранения, что способствует минимальным изменениям весов модели в процессе «забывания» данных.
В результате веса модели целевой LLM и модели после «забывания данных» оказываются очень близкими. Следовательно, квантование, сопоставит веса целевой LLM и модели после ««забывания данных» с одинаковыми значениями, что означает, что целевая LLM после квантования и модель после ««забывания данных» и квантования имеют схожие веса. Поскольку целевая LLM после квантования сохраняет большую часть «забытых» знаний, модель после «забывания данных» и квантования также восстанавливает эти знания.
Катастрофический сбой существующих методов machine unlearning для LLM подтолкнуло авторов исследования к решению разработать фреймворки, которые решают проблему несоответствия между моделями с полной точностью и моделями после «забывания данных» и квантования.
В частности, основываясь на анализе, авторы предложили увеличить скорость обучения как для функции потерь «забывания», так и для функции потерь «сохранения».
Функция потерь «забывания» штрафует модель за сохранение информации из набора данных для «забывания», в то время как функция потерь «сохранения» гарантирует сохранение нужной информации на наборе данных.
Хотя этот подход помогает смягчить проблему восстановления данных при квантовании, агрессивные обновления могут привести к чрезмерной коррекции модели, что вызовет снижение общей её полезности.
Кроме того, использование высокой скорости обучения на наборе данных для «сохранения» может привести к смещению в сторону этих данных, искажая поведение модели и ухудшая её производительность на задачах за пределами этого набора.
Для решения этих проблем был разработан фреймворк Saliency-Based Unlearning with a Large Learning Rate (SURE), который строит карту значимости на уровне модулей для управления процессом «забывания».
Выборочно обновляя только наиболее влиятельные компоненты, связанные с данными, которые нужно «забыть», можно применять высокие скорости обучения там, где они наиболее эффективны, минимизируя нежелательные побочные эффекты.
Эта целенаправленная стратегия помогает снизить риски агрессивных обновлений, сохраняя полезность модели и обеспечивая более сбалансированный результат процесса «забывания».
Основной вклад авторов исследования
1. Выявление критической проблемы. Применение квантования к модели может привести к восстановлению «забытых» знаний. Авторы провели обширные эксперименты для проверки этой проблемы и предоставили теоретический анализ, объясняющий её.
2. Результаты исследования демонстрируют фундаментальный недостаток существующих методов «забывания» и вводят новую ключевую цель больших языковых моделях (LLM) - предотвращение восстановления знаний посредством квантования, что также способствует стандартизации бенчмарков для методов machine unlearning.
3. Основываясь на теоретическом анализе и установленной цели, авторы предложили контрмеру для смягчения выявленной проблемы и подтверждают её эффективность посредством всесторонних и обширных экспериментов.
Заключение
В современном обществе всё оставляет «цифровой след» и казалось, что мы к этому привыкли, но проблема вышла на новый уровень. Расскажите, сталкивались ли вы с необходимостью удаления данных из LLM и как относитесь к тому, что даже «удалённые» данные могут быть восстановлены?