Удаление определенной информации в процессе обучения помогает моделям машинного обучения быстрее и лучше осваивать новые языки
Группа ученых в области компьютерных наук придумала более гибкую модель машинного обучения. В чем особенность: модель должна периодически забывать кое-что из того, что знает. Новый подход не заменит огромные модели, но зато, возможно, подскажет нам, как именно они понимают естественный язык.
Проблема языковых моделей
Сейчас обработку естественного языка чаще всего проводят при помощи нейронных сетей. Каждый «нейрон» в сети представляет собой математическую функцию, которая получает сигналы от других нейронов, выполняет вычисления и передает сигналы дальше через несколько нейронных слоев. Сначала поток информации более или менее хаотичен. В процессе обучения сеть адаптируется к данным, информационный поток между нейронами упорядочивается и совершенствуется.
Допустим, исследователь в области ИИ хочет создать двуязычную модель для перевода с немецкого на китайский. Для этого он будет тренировать модель на больших массивах текста на обоих языках. Обучение выстроит нейронные связи так, чтобы модель научилась соотносить текст на одном языке с подходящими словами на другом.
Для такого обучения нужна огромная вычислительная мощность. Если модель работает не очень хорошо или потребности пользователя изменились, то адаптировать систему будет довольно сложно.
«Допустим, у вас есть модель, в которую заложено 100 языков. Но нужного вам языка в ней не оказалось. Вы можете начать обучение с нуля. Однако это не лучший вариант», — рассказывает Микель Артетче, соавтор нового исследования и основатель ИИ-стартапа Reka.
Как научить языковую модель «забывать»
Артетче с коллегами попытались обойти это ограничение. Несколько лет назад они обучили нейронную сеть одному языку, а потом удалили все, что она знала о структурных составляющих слов (или токенах). Эти токены хранятся в первом слое нейронной сети — Embedding-слое векторного представления. Остальные слои в модели остались без изменения. Исследователи переобучили модель другому языку, и этот новый язык заполнил Embedding-слой новыми токенами.
Переобучение принесло свои плоды: модель смогла выучить и обработать новый язык. Исследователи предположили, что в слое векторного представления хранятся данные об используемых в языке словах, тогда как в более глубоких слоях накапливается абстрактная информация о концепциях человеческого языка. Именно это помогает модели выучить второй язык.
«В каждом языке мы называем одни и те же вещи по-разному, но живем в одном мире. Вот почему в модели появляются высокоуровневые механизмы рассуждения. Яблоко — это нечто сочное и сладкое, а не просто слово», – объясняет И Хун Чен, ведущий автор недавнего исследования.
Хотя метод с забыванием позволял эффективно добавлять новый язык в уже обученную модель, переобучение по-прежнему требовало существенных затрат: большого количества лингвистических данных и вычислительной мощности. Чен предложила небольшую уловку. Вместо обучения, удаления слоя векторного представления и последующего переобучения можно периодически сбрасывать Embedding-слой на ранних этапах обучения.
«Таким образом, вся модель привыкает к перезагрузкам. Если вы захотите дополнить модель новым языком, сделать это будет намного проще, поскольку модель уже привыкла к такому поведению», — поясняет Артетче.
Испытания забывающей модели
Исследователи взяли широко используемую языковую модель Roberta и обучили ее с помощью метода периодического забывания. Затем сравнили производительность той же самой модели, обученной стандартным способом без забывания. «Забывающая» модель оказалась чуть хуже классической и набрала 85,1 балл по общему критерию языковой точности (для сравнения: стандартная модель набрала 86,1 балл).
Затем они переобучили модели на других языках, используя меньшие наборы данных: всего пять миллионов токенов вместо 70 миллиардов. Точность стандартной модели снизилась в среднем до 53,3, тогда как у модели с забыванием этот показатель упал лишь до 62,7.
Кроме того, модель с забыванием демонстрировала гораздо лучшие результаты, если во время переобучения команда добавляла вычислительные ограничения. Когда исследовали сократили длину обучения со 125 000 шагов до 5 000, точность модели с забыванием упала в среднем до 57,8, а классическая модель опустилась до 37,2, то есть оказалась ничуть не лучше случайных угадываний.
Почему забывающие модели учатся лучше
Исследователи предположили, что если языковые модели понимают язык, то они делают это на более глубоком уровне, чем просто запоминание отдельных слов. Такой же подход использует человеческий мозг.
«Человеческая память в целом не подходит для хранения больших объемов точной информации. Люди, наоборот, склонны запоминать основной смысл происходящего при помощи абстракции и экстраполяции. Один из способов получить от ИИ гибкую производительность — это добавить в модель процессы, больше похожие на человеческие (например, адаптивное забывание)», — объясняет Бенджамин Леви, нейробиолог из Университета Сан-Франциско.
Артетче надеется, что более гибкие языковые модели с забыванием смогут не только рассказать нам о том, как работает понимание, но и помогут распространить последние новшества в сфере ИИ на большее количество языков. Модели ИИ отлично работают с английским и испанским – двумя языками с достаточным количеством учебных материалов, однако не так хороши с его родным баскским – региональным языком, распространенным в северо-восточной Испании.
«Большинство моделей от крупных технологических компаний плохо справляются с этой задачей. Адаптация существующих моделей к баскскому языку — это лучший из возможных вариантов», — признается исследователь.
И Хун Чен также предвкушает мир с большим разнообразием ИИ.
«Я представляю себе ситуацию, в которой миру больше не понадобится одна большая языковая модель. Ведь у нас их так много. И если есть фабрика, создающая языковые модели, то ей пригодится такая технология. То есть будет одна базовая модель, которая сможет быстро адаптироваться к новым предметным областям», — говорит она.
Материал подготовлен в рамках старта приёма заявок на первую в России онлайн-магистратуру по Data Science в сфере NLP (обработки естественного языка) от ТГУ и Skillfactory.
Партнер магистратуры — Яндекс Диалоги, платформа для разработчиков, позволяющая создавать голосовые приложения для Алисы и Умного дома Яндекса.