Привет! Меня зовут Владислав Офицеров, и я отвечаю за развитие нейронных технологий в международном Поиске в Яндексе. Недавно я впервые побывал на одной из крупнейших международных конференций по машинному обучению — ICML (The International Conference on Machine Learning). Конференция проходила в Вене, и в этом году от Яндекса туда приехала большая делегация — нас было 46 человек. Конференция продолжалась целую неделю, на ней в разных секциях представили 2600 статей. Масштабные конференции, такие как ICLR и ICML, всегда собирают огромное количество участников и гостей из академии, ведущих компаний в отрасли и перспективных стартапов — все стремятся понетворкаться, послушать интересные доклады и посетить воркшопы.
ICML проходила целую неделю и была максимально насыщенной — в некоторые дни программа начиналась с 8 утра. Компании-спонсоры не только заманивали публику на стенды с мерчем, где специалистов поджидали рекрутеры, но и устраивали вечеринки и ужины, где происходило больше всего неформального общения. Кстати, Яндекс в этом году возродил добрую традицию и провёл вечеринку для русскоязычных ML’щиков — KOI8-R. О ней расскажу чуть позже.
Как ни старайся, в таких условиях везде не успеешь, поэтому каждый день приходилось планировать заранее: на какой воркшоп сходить, с авторами каких постеров пообщаться, какой из устных докладов послушать. В этой статье я расскажу о самом интересном и с моей точки зрения, и по отзывам коллег — нас было много и приоритеты у ребят из разных команд были разными. Конечно, расскажу о статьях от Yandex Research, которые попали на конференцию, и поделюсь нашей коллективной подборкой полезных статей — наверняка вы захотите прочитать какие-то из них и опробовать новые методы в своей работе.
Общие впечатления
Конференция пользуется заслуженной популярностью в индустрии — в первый день можно посетить «будки» спонсоров, среди которых (традиционно) весь цвет индустрии: Google, Apple, Amazon, Netflix, Byte Dance, знакомые нам Nebius и Toloka и многие другие. В этом году было много компаний из сферы трейдинга и финансов, которые очень постарались и подготовили классный мерч — неплохой способ выделиться на фоне именитых конкурентов.
Как и всегда на подобных конференциях, самое интересное происходило на полуторачасовых постер-сессиях — здесь можно было пообщаться с авторами, задать вопросы и многое узнать. На каждой сессии висело по 200–300 постеров, поэтому очень важно выбрать заранее, какие доклады вам интересны. Ещё один важный момент — статьи подают сильно заранее, поэтому к дню конференции уже могут появиться новые данные и подходы — исследования получают продолжение, которое пока не представлено на ICML, но в личном общении авторы иногда рассказывают, что изменилось в их работе — главное не стесняться и задавать вопросы.
Избранные постеры представляют на oral-сессиях. Это 15-минутные устные выступления, которые скорее про пиар докладов — исследователи успевают немного рассказать о теме статьи, основных результатах и ответить максимум на 1–2 вопроса, поэтому если хочется углубиться, всё равно лучше найти постер после выступления.
Более камерный формат — воркшопы. Они занимают больше времени, привлекают экспертов, которые хотят детально обсудить какую-то узкую тему, поэтому обычно на воркшопе присутствует человек 30 (по ощущениям), а если тема хайповая, то можно собрать и 50+. На наших глазах вечерние воркшопы периодически меняли формат — когда время на обсуждение заканчивалось, компании исследователей перетекали в близлежащие бары и продолжали общаться — кажется, так и должна выглядеть настоящая научная дискуссия ?
Ещё были туториалы — это самый большой формат с массой технических деталей и глубоким погружением в тему. Почти 2 часа рассказа от авторов и подробных ответов на вопросы. Отличный вариант для тех, кто хочет разобраться, что происходит у коллег в смежных направлениях или прийти на интересующую тему с конкретными вопросами и обсудить технические детали. Самым хайповым оказался туториал о физике LLM — о нём подробнее расскажу в разделе о трендах на ICML 2024.
Статьи от Yandex Research на ICML
В этом году 3 статьи от наших исследователей были представлены на постер-сессиях.
Extreme Compression of Large Language Models via Additive Quantization
В этой статье ребята совместно с исследователями из Института науки и технологий Австрии (ISTA) и Технического исследовательского университета в Саудовской Аравии (KAUST) предлагают улучшение для метода квантизации AQLM — продвинутый алгоритм файн-тюнинга PV-tuning, с которым модифицируются все параметры модели, включая дискретные.
На данный момент AQLM + PV-tuning — лучший алгоритм двухбитной квантизации LLM с точки зрения качества. Он сжимает Llama 2 13b до эффективного размера в 6,9b, лишь немного не дотягивая до 7b-модели. Кстати, историю появления метода мы уже рассказывали на Хабре.
Sarah Frank-Wolfe: Methods for Constrained Optimization with Best Rates and Practical Features
В этой статье авторы оптимизируют метод Фрэнка-Вульфа (FW) — один из классических и популярных подходов к решению задач оптимизации с «простыми» ограничениями (шары, симплексы и т. д.) в приложениях машинного обучения. В последние годы набрали популярность стохастические версии FW, мотивированные большими наборами данных, для которых вычисление полного градиента становится очень дорогим.
Наши ребята предложили два новых варианта алгоритмов FW для стохастической минимизации с конечной суммой. Изменения основаны на методах уменьшения дисперсии, в частности, SARAH и PAGE .
Робастное обучение с подкреплением (RRL) — многообещающий подход к RL, направленный на подготовку моделей, устойчивых к неопределенности или искажениям, что повышает эффективность их применения в реальном мире. В этом подходе неопределенность или искажения интерпретируются как действия враждебного агента, и, таким образом, проблема сводится к выработке политики агентов, устойчивой к действиям любого оппонента.
В этой статье впервые предлагается рассмотреть проблемы RRL в рамках теории дифференциальных игр. Авторы доказывают, что при выполнении условия Исаака (достаточно общем для реальных динамических систем) одну и ту же Q-функцию можно использовать в качестве приближенного решения как максиминных, так и минимаксных уравнений Беллмана. Основываясь на этих результатах, авторы предлагают свои алгоритмы и демонстрируют их преимущества по сравнению с другими базовыми алгоритмами RRL и мультиагентными алгоритмами RL в разных условиях.
Тренды
Было много работ из мира LLM и на связанные темы, например, RLHF. Отдельно RL и CV — активно развивающиеся направления исследований — интересные статьи на эти темы нам тоже попадались.
LLM и все, что связано с текстом
Туториал Physics of Language Models
Пожалуй, самый популярный доклад первых двух дней, по крайней мере у нас внутри компании о нём говорили много ?
Авторы предлагают разделить концепцию «интеллекта» на несколько измерений: структуры, знания, рассуждения и т. д. Для каждого измерения создают синтетические данные и идеализированную среду для обучения LLM, позволяющую модели понимать теорию и максимально расширять свои возможности в этом измерении. Большое количество контролируемых экспериментов помогло выявить универсальные законы работы всех LLM, а не только конкретной версии GPT-4. Подробности можно найти на очень хорошем и очень подробном сайте авторов статьи.
Далее рассмотрим статьи об SFT и Reward/RL для LLM. За помощь в подготовке этой части большое спасибо Андрею Буту, руководителю команды YandexGPT Alignment.
Supervised fine-tuning (SFT)
Understanding Finetuning for Factual Knowledge Extraction
Гипотеза авторов состоит в том, что файн-тюнинг на малоизвестных фактах ухудшает качество моделей и приводит к галлюцинациям. Результаты экспериментов подтверждают эту гипотезу на синтетических и обычных данных. Другой интересный вывод — качество при обучении на случайных фактах лучше, чем только на малоизвестных.
A Closer Look at the Limitations of Instruction Tuning
В этой работе авторы задаются вопросом: какие есть минусы у Supervised Finetuning (SFT) и может ли обучение с LoRA побороть их? Исследователи опираются на тот факт, что при SFT модель чаще галлюцинирует и подстраивается под SFT-датасет. Проводятся различные эксперименты, чтобы доказать эту гипотезу. В статье показано, что LoRA выдаёт лучший результат на нескольких общепризнанных датасетах — например, SFT-Alpaca-52k, SFT-Wizard-LM и других.
Long Is More for Alignment: A Simple but Tough-to-Beat Baseline for Instruction Fine-Tuning
Как выбрать данные для SFT? Основной вывод статьи — вам нужны длинные ответы, так как модели сложнее просто запомнить их. При оценке с помощью GPT-4 предложенный подход превзошел LIMA и другие бейзлайны. При этом качество ответов замеряется другими моделями, которые могут быть склонны к более длинным ответам, и авторы дополнительно проверяют, чтобы длины ответов моделей, обученных на длинных инстрактах, не отличались от обычного обучения. Исследователи также повышают качество ответов с помощью GPT-3.5 и NEFTune.
Reward-модели
Существует немало проблем, связанных с reward-моделями. Две следующие статьи исследуют, как LLM’ки учатся использовать недостатки моделей вознаграждения и что делать, когда разные аспекты вознаграждения плохо агрегируются.
Transforming and Combining Rewards for Aligning Large Language Models
Авторы статьи предлагают использовать лог-сигмоидную функцию. Использование такого подхода оказывается строго лучше, чем простое взвешивание нескольких ревордов.
WARM: On the Benefits of Weight Averaged Reward Models
Авторы из DeepMind обучают несколько разных reward-моделей и усредняют их веса, получая таким образом улучшения даже относительно ансамбля моделей. Сетап эксперимента:
модель — PALM-XXS,
датасет — TLDR-суммаризации,
разметка — PALM-L,
RL — Reinforce.
Self-Rewarding Language Models
В этой работе исследователи задаются вопросом: можно ли отказаться от дорогой человеческой разметки пар? Авторы предлагают подход, в котором исходная модель используется для генерации новых инструкций и ответов, а также для их оценки! За три итерации такой метод выдаёт сильные результаты, превосходящие Claude 2, Gemini Pro и GPT-4 0613.
RLHF
Is DPO Superior to PPO for LLM Alignment? A Comprehensive Study
Авторы этой публикации рассматривают преимущества двух популярных алгоритмов для RLHF: DPO и PPO. В работе есть как интересные теоретические находки (область решений PPO строго вложена в область решений DPO), так и практические советы о том, как добиться лучших результатов для каждого из подходов. В экспериментах авторы тестируют DPO и PPO на множестве типичных для RLHF задач, начиная с диалога и заканчивая генерацией кода. Результаты показывают, что PPO может превзойти другие методы элаймента и достигать лучших результатов в сложных тестах на написание кода.
Авторы утверждают, что PPO-алгоритм сильно переосложнен для LLM, поэтому предлагают использовать Reinforce, немного улучшив его — убрав дисперсию алгоритма. Преимуществ относительно PPO получается много — от меньшего использования памяти GPU до более быстрой сходимости.
Суперэлаймент
Weak-to-strong Generalization: Eliciting Strong Capabilities With Weak Supervision
Пейпер от OpenAI (уже довольно старый), в котором авторы рассуждают о том, что популярные методы элаймента, такие как RLHF, основаны на способности людей контролировать поведение модели — например, оценивать, точно ли модель следует инструкциям и выдает ли безопасные результаты. Однако будущие модели станут вести себя иначе, и людям будет слишком сложно надежно их оценить. Поэтому авторы решили исследовать вопрос: сможет ли слабая модель выявить все возможности гораздо более мощной модели?
Авторы обучают умную модель (GPT-4) на разметке от более слабой модели (GPT-2). При этом сильная модель существенно превосходит слабую, вплотную приближаясь к результатам, которые получаются при обучении сразу на правильной разметке.
Debating with More Persuasive LLMs Leads to More Truthful Answers
Статья получила награду организаторов конференции. В ней исследуется примерно тот же вопрос, которым задавались авторы предыдущей статьи от OpenAI, но у исследователей получается улучшить слабую модель (не эксперта) с помощью интерактивных дебатов двух более сильных моделей-экспертов.
Еще из интересного: с помощью метода дебатов, когда два эксперта LLM отстаивают разные варианты ответа, а итоговую версию выбирает неспециалист, получается улучшить качество ответов не только для нейросетей, но и для человека.
Несколько интересных статей на тему RL
Находками поделился руководитель R&D в Геосервисах Дмитрий Бабаев.
Stop Regressing: Training Value Functions via Classification for Scalable Deep RL
Oral-статья от авторов из DeepMind. В ней прекрасно не только название, но и содержание. Авторы развивают идеи из старых статей — например, из Improving Regression Performance with Distributional Losses — о том, что замена MSE-функции потерь на нечто, похожее на классификацию, делает обучение нейросетей более стабильным. Исследователи показывают, что такая замена очень полезна для обучения прогнозу будущих наград во многих задачах в RL-постановке. Статья не только представляет интерес для исследователей и пользователей RL, но и наводит на мысли о том, где еще такая модификация задачи регрессии может помочь.
Individual Contributions as Intrinsic Exploration Scaffolds for Multi-agent Reinforcement Learning
Авторы предлагают оценивать индивидуальный вклад агента как встроенный механизм разведки (ICES) для мультиагентного обучения с подкреплением, с учетом того, к насколько интересному глобальному состоянию приведет работа агента. В частности, ICES создает механизмы разведки с байесовской неожиданностью, способствуя глобальному трансферу информации. Эти механизмы, используемые только во время обучения, помогают отдельным агентам ориентироваться в действиях, существенно влияющих на глобальное состояние.
In-Context Reinforcement Learning for Variable Action Spaces
Трансформеры, предварительно обученные на наборах данных с многоэпизодными контекстами, могут выполнять новые задачи обучения с подкреплением в контексте. Ключевым ограничением ранее предложенных моделей является их зависимость от заранее определенного размера и структуры пространства действий. Внедрение нового пространства действий часто требует восстановления данных и переподготовки моделей, а это стоит дорого.
Авторы статьи показывают, что проблему можно решить, предложив Headless-AD модель, которая, несмотря на то, что была обучена только один раз, может обобщаться на пространства действий с переменным размером, семантическим наполнением и порядком. Экспериментируя с Bernoulli и contextual bandits, а также со средой gridworld, авторы показали, что Headless-AD обладает большими возможностями для обобщения на пространства действий, с которыми она не сталкивалась, даже лучше некоторых специализированных моделей.
Learning to Model the World with Language
Oral-статья от авторов из Беркли, в том числе от таких известных исследователей как Данияр Хафнер и Питер Аббил. Интересно, что предыдущую версию этой публикации не взяли на ICLR, а на ICML она попала сразу в список oral-статей.
Авторы использовали DreamerV3 и добавили к входным наблюдениям-картинкам еще и полезный текст. Оказалось, что агент начинает эффективно использовать текст и неявно учится связывать текстовую и картиночную информацию.
DreamerV3 и сам по себе достаточно интересен. Например, с его помощью впервые удалось решить задачу получения алмазов в Minecraft без каких-либо подсказок или демонстраций.
Рекомендательные системы
Самая трендовая тема в сфере рекомендаций — масштабирование и применение техник из мира LLM для решения задач рекомендательных систем — об этом было много интересных статей. Собрать подборку по направлению мне помогли коллеги из департамента рекламных технологий и группы разработки рекомендательных сервисов — Даниил Лещев и Андрей Мищенко.
Статья на актуальную тему — о новой архитектуре ML-моделей в рекомендациях, позволяющей использовать все преимущества скейлинга. Результаты впечатляют — нам и самим захотелось попробовать!
Wukong: Towards a Scaling Law for Large-Scale Recommendations
Еще один интересный пейпер, тоже от Meta, на тему масштабирования моделей в рекомендательных системах.
xLSTM: Extended Long Short-Term Memory
Авторы применяют методы и техники из мира новейших LLM, чтобы улучшить архитектуру, увеличить масштаб и повысить производительность LSTM-моделей.
Inferring the Long-Term Causal Effects of Long-Term Treatments from Short-Term Experiments
Статья от Netflix — авторы замеряют долгосрочные эффекты от внедрений через краткосрочные эксперименты. Рассматривая задачу в RL-постановке, получают теоретические оценки на результат и проверяют подход в симуляционных средах.
Диффузия
Статьями о своей предметной области поделился Александр Шишеня, ведущий разработчик генеративных моделей в Поиске.
Scaling Rectified Flow Transformers for High-Resolution Image Synthesis
Довольно старая статья от Stability. Из разговора с авторами удалось выяснить, что они пытались менять архитектуру Unet, но она все равно работает хуже трансформеров. На вопрос, пробовали ли добавлять больше attention-слоев, сказали, что получится почти то же, что UVit, а он по их экспериментам тоже хуже трансформеров.
Также авторы пришли к выводу, что валидационный лосс хорошо согласуется с предпочтениями пользователей, что не противоречит и нашим выводам, а еще рассказали, что помимо DPO пытались использовать PPO, но узнать больше о результатах мне не удалось.
Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution
Авторы адаптируют диффузию к дискретному распределению, в частности, генерируют текст. Для этого они зашумляют строку с помощью марковского процесса с матрицей перехода Q. Обратный марковский процесс (который расшумляет) будет иметь матрицу перехода Q * p(i) / p(j), поэтому достаточно выучить отношение p(i) / p(j). Оказывается, что лучше всего работает не зашумление случайными токенами, а маскирование, поэтому сам метод становится похож на предобучение BERT. Сравниваются с GPT-2, признавая, что их модель медленная и довольно слабая по качеству. Концептуально интересная статья, но результаты пока оставляют желать лучшего.
Zero-Shot Unsupervised and Text-Based Audio Editing Using DDPM Inversion
В статье утверждается, что DDPM-инверсия работает стабильнее, чем DDIM. Также авторы используют собственные вектора какой-то матрицы ковариации, чтобы не редактировать аудио без использования промта, но я не вполне понял, как и зачем.
Slicedit: Zero-Shot Video Editing With Text-to-Image Diffusion Models Using Spatio-Temporal Slices
Редактирование видео с использованием DDPM-инверсии от близкой к авторам прошлой статьи команды. Основная фишка работы в том, что авторы инвертируют видео покадрово и послайсово (слайс — это вертикальный срез по всем кадрам), после чего кадры и слайсы снова мерджатся. За счет этого достигается плавность в итоговом видео.
Немного статей о картинках и видео
Показалось, что было не так много докладов по компьютерному зрению. Возможно из-за того, что есть хорошие специализированные конференции. Почти не попадались статьи о классическом ML. Но все же интересные работы, связанные с CV, мы увидели. Находками поделились Александр Шишеня и Сергей Овчаренко из службы компьютерного зрения.
Genie: Generative Interactive Environments
Доклад от DeepMind — исследователи обучили две модели на датасете из видеоигр — в основном на 2D-платформерах. Одна модель кодирует возможные действия игрока в латентное дискретное пространство, а другая — предсказывает следующие фреймы по предыдущим. В итоге Genie способна генерировать видеоигровые уровни из текстовых промтов, рисунков и фотографий. Статья получила награду Best Paper Award.
Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization
Доклад об авторегрессионной модели, способной предсказывать текстовые токены и видео. Она обучена на next-token prediction с диффузионной моделью для генерации кадров в пиксельном пространстве и motion-векторы. С помощью DDIM-инверсии авторы получают «шумную» версию последнего кадра и сопоставляют ее с предыдущими. Получившаяся модель умеет генерировать длинные видео по промту или первому кадру.
LCA-on-the-Line: Benchmarking Out of Distribution Generalization with Class Taxonomies
Если обобщать, авторы говорят следующее: пусть у нас есть сильная корреляция таргета с фичами, которые будут не очень полезны в проде по тем или иным причинам. Объясняют идею на основе классификатора картинок, где по фону объекта можно найти неплохую корреляцию, а оставшиеся примеры — просто запомнить. Но тогда классификатор легко обмануть. В статье предлагается метод автоматического поиска строчек без лика таргета. На них нужно поднимать вес в датасете или файн-тюниться в конце — интересный подход для решения специфических задач.
Полезное и забавное на разные темы
Pi-DUAL: Using privileged information to distinguish clean from noisy labels
Статья о том, как бороться с шумом асессоров. Разметка неизбежно содержит ошибки, и мы тратим capacity модели на «заучивание шума». Ошибки асессоров могут быть системными, следовательно, можно научиться их распознавать. Для этого авторы предлагают end-to-end обучить несколько моделей: основной предиктор, модель для «оверфита» в шум и модель-gate для переключения между первыми двумя. В результате основная модель лучше учится и обобщается.
Discovering environments with XRM
Одна из немногих статей об обучении в целом. Авторы предлагают метод перекрестной минимизации рисков (XRM) — учат 2 сети, каждая из которых использует случайную половину обучающих данных, тем самым повышая внимание к примерам, на которых ошибается текущая версия модели.
Enforced Amnesia as a Way to Mitigate the Potential Risk of Silent Suffering in Conscious AI
Не обошлось без забавного — здесь название говорит само за себя. Да, на ICML попадают и такие статьи. Едва ли их можно назвать практичными, но внимание публики подобные темы, конечно, привлекают!
A Touch, Vision, and Language Dataset for Multimodal Alignment
Еще одна оригинальная тема — авторы обучали роборуку осязанию — трогать разные поверхности и описывать их: «мягкое, с пупырышками», «гладкое и твердое» и т. д.
Self-Correcting Self-Consuming Loops for Generative Model Training
Еще один важный тренд — синтетические данные. Именно им посвящена статья от DeepMind, суть которой можно описать просто и элегантно: если обучать генеративную модель на ее же генерациях, могут возникать проблемы, такие, как например, mode collapse. НО! Если обучать генеративную модель на ее же скорректированных генерациях, все будет хорошо. В тексте авторы предлагают теоретическую базу и конкретные техники, позволяющие улучшить работу моделей на синтетических данных.
Все вечеринки вчерашнего дня
О науке поговорили, теперь можно перейти к мирскому ? Я уже упоминал, что нетворкинг — одна из самых важных составляющих таких больших конференциях, которая порой даже затмевает научную сторону. Живое общение заменить невозможно — в диалоге рождаются мысли и идеи, которые ни за что не посетили бы вас во время одинокого бдения и размышлений о проблеме. Поэтому (а также ради найма, чего уж греха таить) компании, представленные на ICML, старались и организовывали неформальные мероприятия вне расписания. Каждый день появлялось несколько вариантов — было куда пойти. На некоторые участников активно зазывали, а другие наоборот были максимально закрытыми, и люди охотились за приглашениями. Чаще всего это были ужины или фуршеты, главный бонус которых — познакомиться и пообщаться с представителями компаний и просто интересными исследователями из своей (и не только) предметной области.
Яндекс возродил вечеринку для русскоязычных ML-специалистов KOI8-R, которая не проводилась со времён пандемии. Единой темы не было — только свободное общение, приятная и местами ностальгическая музыка, вкусная еда и хорошие люди. В итоге на вечеринку пришло больше 95 человек — много бывших коллег и «выпускников» Yandex Research, которые работают в самых разных компаниях и исследовательских институтах по всему миру. Было очень душевно (надеюсь, фотографии передают атмосферу), а приятным открытием для меня стало, что ICML — это не только про науку и технологии, но и про дружное международное сообщество исследователей, которые сообща ищут решения для самых сложных проблем в сфере машинного обучения и готовы делиться друг с другом опытом и знаниями
Кстати, другими обзорами свежих научных статей мы с коллегами делимся в канале Душный NLP →