Как «воспитать ламу» и ускорить ML-эксперименты / forpes.ru

Главная
Как «воспитать ламу» и ускорить ML-эксперименты

Как «воспитать ламу» и ускорить ML-эксперименты +24

12.10.2023 14:36

Doctor_IT 3 3000 Источник

https://image.mel.fm/i/1/1Ud7AReU87/1210.jpg

Часто проведение ML-экспериментов сводится к долгому поиску и загрузке нужных датасетов и моделей, скрупулезной настройке гиперпараметров с целью проверки гипотез. Но что делать, когда времени мало, а за ночь нужно зафайнтюнить ламу? Давайте это и узнаем.

Статья написана по мотивам доклада Ефима Головина, MLOps-инженера в отделе Data- и ML-продуктов Selectel.

Используйте навигацию, если не хотите читать текст целиком:

→ Типичная ML-задача: когда нужны ML-эксперименты
→ Работа с датасетами
→ Работа с моделями
→ Деплой модели
→ Как организовывать эксперименты без навыков MLOps

Типичная ML-задача: когда нужны ML-эксперименты

Любая ML-задача может быть описана с помощью схемы CRISP-ML, которая объединяет три крупных этапа:

Понимание данных. Вам нужно разобраться в том, с какими данными вы работаете, какие в них есть недостатки, нужно ли (и можно ли) их «обогатить». А после — собрать датасет.
Построение модели. Набор данных готов, есть задача — вы начинаете ее решать: проверять гипотезы по различным классам моделей, гиперпараметрам, а также разнообразным «эвристикам», которые можно применить при построении модели.
Доведение модели до потребителя. Все гипотезы отработаны, модели проверены, вы нашли устраивающий вас вариант. Далее нужно довести модель до конечного потребителя — сделать нечто, что временами называют «продуктивизацией модели».

На каждом из этапов вы можете столкнуться в ворохом процессных и технических аспектов, которые могут как ускорить, так и замедлить выполнение ML-экспериментов. Что это за аспекты и с чем их едят — разберемся на примере LLM.

Тюнинг ламы на тикетах

В общих чертах рассмотрим кейс с проведением ML-экспериментов на примере языковой модели LLama 2:

Модель берем с платформы Hugging Face, а предварительно подготовленный датасет с тикетами — из ClearML. Далее в Jupyter пишем прототип (код эксперимента) и после отладки — запускаем его в ClearML. Поскольку гиперпараметры были предварительно закреплены за кодом с помощью ClearML SDK, мы можем удобно с ними экспериментировать — изменять количество эпох, learning rate или batch size и сравнивать результаты.

На выходе мы получаем несколько версий дообученной LLama 2 и лучшую отправляем в KServe — serving engine (виртуальную среду, в которой модель будет сервиться). Готово!

Кажется, что все просто, но на практике могут возникнуть проблемы. Рассмотрим каждый этап эксперимента подробнее.

Работа с датасетами

Проблема в работе с данными нередко заключается в том, что вы не знаете:

общих фактов по датасету — например, автора или объема данных,
базовых статистик по признакам, целевой переменной и другим метрикам,
какие трансформации были проведены с датасетом,
как работать с датасетом — как при помощи сущности, описывающей датасет, выгрузить данные с внешнего источника (например, с S3 или SFS) и перевести их в нужный формат для работы с PyTorch, TensorFlow или Transformers,
откуда появился датасет — например, из каких данных был собран, где и кем использовался,
как менялся датасет.

Все это вносит неопределенность при работе с данными: может элементарно отсутствовать понимание, какие параметры действительно важны, а какие нет. На подобные разбирательства, как правило, времени уходит много.

Как ускорить работу с датасетами

Рассмотрим в качестве примеров два сервиса, с помощью которых можно ускорить работу с датасетами.

Пример 1: Hugging Face

Разработчики Hugging Face позаботились о том, чтобы авторы могли указывать при загрузке данных всю необходимую информацию.

В результате любой пользователь может изучить библиотеку датасетов, найти необходимый тип данных для своей задачи, предварительно оценить его по объему. Кроме того, в Hugging Face есть понятные примеры с кодом — бери и используй — и версионирование. Последнее напоминает GitHub: вы можете открыть один из старых коммитов и склонировать именно его.

Мы уже писали статью о том, как автоматизировать сбор, анализ и сравнение датасетов из Hugging Face — читайте по ссылке.

Пример 2: ClearML

ClearML также существенно упрощает работу с датасетами и сводит ее к графическому интерфейсу. Например, внутри отдельной вкладки с датасетами вы можете группировать их по папкам:

Как и в Hugging Face, пользователь ClearML отображает метаинформацию о датасетах, позволяет настроить разделение данных по типу, задаче и любой другой категории. А также — изучить базовую информацию о составе загруженных датасетов.

Любой датасет в ClearML (как любой эксперимент или пайплайн) создается, изменяется и используется в рамках «задачи» определенного типа — за подробностями рекомендую покопаться в коде. То есть вся функциональность по работе с экспериментами доступна и для датасетов.

Рассмотрим пример. Вы загрузили в ClearML датасет, подчистили его с помощью регулярных выражений и передали коллеге. Он загружает данные и видит статистики по трансформациям: какие выражения к каким записям были применены и т. д. Результат: человек «понимает датасет», у него есть необходимая информация для работы с ним, а вы сэкономили время обеих сторон.

Пример 3: кэширование данных

Еще один способ ускорить работу с датасетами — настроить кэширование в файловое хранилище. Загрузив данные один раз, вам не придется с нуля подгружать датасеты и веса при каждом запуске эксперимента. Это особенно актуально, если вы работаете с большими моделями вроде LLama 2, веса которой занимают свыше 100 ГБ памяти (файлы модели Llama-2-70b-chat-hf суммарно занимают ~138 ГБ).

Эта фича уже имплементирована в ML-платформу Selectel. Вы можете кэшировать датасеты и веса, чтобы сократить время на подгрузке данных. Вся инфраструктура уже настроена за вас.

Аспекты ускорения

Примеры рассмотрели — какой можно сделать вывод? Вернемся к техническим и процессным аспектам: зарезюмируем, какие в работе с датасетами через ClearML с кэшированием данных.

Технические аспекты

Все собрано в одной унифицированной платформе.
Можно повторно использовать код для создания новых версий датасета.
Не нужно каждый раз тратить время на загрузку данных, все подгружается из кэша.

Процессные аспекты

Описания датасетов приведены к единому формату.
Данные сопровождаются подробными инструкциями.

Работа с моделями

Проблема в работе с моделями напоминает ситуацию с датасетами. Нередко вы не знаете:

кто, где, когда учил или валидиновал модель,,
класс модели — например, какой структурой она является: нейросетью, деревом или лесом.
какие данные нужно подавать на вход, что получается на выходе,
из чего модель состоит — например, сколько у нее слоев или функций активации,
как работать с моделью — как при помощи сущности, описывающей модель, выгрузить данные с внешнего источника (например, с S3 или SFS) и перевести их в нужный формат для работы с PyTorch, TensorFlow или Transformers,
полный набор гиперпараметров модели,
отличия модели от предшественников.