Почти детективное расследование провели в Калифорнийском университете. Авторы взяли 12 разных LLM, включая GPT-3, и проверили их на датасетах, созданных в разное время — до и после обучения моделей. Обнаруженные артефакты указывают на то, что one-shot и few-shot задания улучшают работу модели просто потому, что она уже встречала эти данные в процессе обучения. Авторы назвали это загрязнением заданий, task contamination.
Начиная с появления GPT-3, стало понятно, что от промпта сильно зависит качество работы модели. Активно стали развиваться различные zero-shot подходы (например, когда к запросу нужно добавить “давай рассуждать пошагово”) и few-shot подходы (когда достаточно дать на вход несколько примеров). Вместе с этим стал подниматься и вопрос о загрязнении данных: данные, которые используют для оценки модели, уже могли быть в обучающем наборе. С few-shot и zero-shot заданиями может быть то же самое. Возможно, LLM хорошо справляются с one-shot и few-shot задачами не потому, что подхватили несколько примеров, а потому что такие и похожие примеры уже были в обучающем датасете. Получается zero-shot и few-shots задания нельзя считать таковыми — примеров у нейросети было гораздо больше.
Ключевая предпосылка zero-shot и few-shots заданий заключается в том, что модели ранее не сталкивались с конкретной задачей, что обеспечивает справедливую оценку их способности к обучению. Загрязненные модели, однако, создают ложное впечатление о его zero- или few-shots компетентности, поскольку они уже были обучены на примерах заданий. — Task Contamination: Language Models May Not Be Few-Shot Anymore
Обвинение довольно сильное, учитывая текущую популярность промпт-инжиниринга. Какие же доказательства предъявляют авторы?
Какие ваши доказательства?
Улика первая. На датасетах, которые появились уже после того, как LLM-ки обучали, результаты получаются хуже.
Улика вторая. Для тех задач классификации, которые загрязнить невозможно, различий на разных датасетах почти не наблюдалось.
Улика третья. Тест на присутствие данных в обучающем датасете (membership inference attack) дал показал большую корреляцию (88%) количества примеров с accuracy модели на данном задании
Улика четвертая. Для моделей серии GPT-3 можно извлечь обучающие примеры. Их количество увеличивалось от версии к версии (от davinci до GPT-3.5-turbo) и совпадало аккурат с увеличением качества моделей.
Как проводили следственный эксперимент
12 моделей проверили на 16 задачах классификации и одной задаче семантического анализа. Проверку проводили четырьмя разными способами. Во-первых, хронологический анализ: сравнили результаты на датасетах, полученных до и после обучения. Во-вторых, искали примеры заданий в обучающих данных. В-третьих, пытались извлечь примеры заданий из модели. В-четвертых, проводили тест на membership inference: проверяли, выдает ли модель на заданный пример в точности то же самое, что было в обучающих данных (здесь, в отличие от предыдущего пункта требуется именно точное совпадение).
Для хронологического анализа авторы не усредняли результаты по разным датасетам, а сравнивали с работой модели, которая на задаче классификации относит каждый пример к классу, который встречается чаще всего в датасете — majority baseline.
На датасетах, созданных до обучения модели, они превышают majority baseline для zero-shot и few-shot заданий. На датасетах, которые появились позже, — с меньшей вероятностью. Статистические тесты дают доверительный интервал 99%.
Но ведь сами датасеты со временем усложняются. Поэтому вполне естественно, что на более сложных датасетах меньше вероятность превысить majority baseline. Авторы тоже так подумали и даже убрали некоторые задания (GSM8K, TrackingShuffledObjects), которые могут быть слишком сложными. Корреляции accuracy с датой выхода задания не заметили.
Для открытых LLM (Alpaca и Vicuna, обе - это дообученные LLaMa) авторы проверили сами обучающие датасеты. Искали похожие на инструкции паттерны, подходящие к заданиям и вручную проверяли, есть ли в них готовые примеры, Спорить с результатами статьи можно и нужно, но, кажется, уже за одну ручную работу можно давать авторам медаль преданности делу. Результаты показаны в таблице ниже. Первое число — количество найденных примеров. Через запятую — разница в качестве модели по сравнению с оригинальной LLaMa.
Следующее испытание проводили на Spider, переводе текста в SQL. Количество ответов, в точности совпадающих с development set возрастало от версии к версии у GPT-3. А между количеством точных совпадений и качеством ответов модели обнаружилась 88%-ая корреляция.
Неопределенностей в работе много, кто-то даже ругает её за слишком громкий заголовок. На самом деле команда исследования не настаивает на сенсационности, но всё-таки советует публиковать обучающие датасеты в открытую. Это поможет провести точную диагностику и понять проблему загрязнения заданий, определить правда это или нет. Даже если правда, то остается спорным вопросом проблема это или нет. Один из авторов в своем твиттере написал, что это просто нужно иметь в виду. Будем иметь в виду.
Больше наших обзоров AI‑статей на канале Pro AI.