В последнее время в медиаполе было много сообщений о том, что закончились данные для обучения новых больших языковых моделей. Не просто размеченные данные, а новые, с которыми можно работать, включая их разметку. Проще говоря: большие модели теперь знают все, что есть в интернете. И это серьезный вызов как для отрасли AI, так и для развития нашей цивилизации в целом. 

С вами Павел Бузин из Cloud.ru, я каждый день работаю с данными для машинного обучения, и сегодня мы разберемся, что будем делать, когда у моделей закончится «еда». 

Чем чревата нехватка данных для обучения

Подтверждение нехватки данных уже неоднократно появлялось как на отечественных (РБК, Ведомости, VC) ресурсах, так и в зарубежных СМИ (The New York Times, Time). Более того: осенью 2024 тестировщики Open AI обнаружили, что, несмотря на общий рост производительности самой последней языковой модели под кодовым названием Orion, прогресс при переходе на нее менее заметен, чем при переходе от Chat GPT-3 к Chat GPT-4. Они связывают это с тем, что модель обучили уже на всех легкодоступных данных. 

Это может повлечь за собой сокращение темпов прогресса в обучении новых моделей, в том числе через резкое увеличение стоимости. 

Но спойлер — катастрофы не случится. Прогресс в области нейронных сетей связан не только с наличием данных в интернете, есть и другие пути повышения качества моделей, которые мы рассмотрим в этой статье. 

Применение ранее не использованных данных

В интернете практически закончились тексты и картинки для разметки, но живая речь, библиотеки мира, архивы периодики на разных языках, произведения искусства, археологические находки, к счастью, еще не иссякли и даже не полностью оцифрованы, не говоря уже о разметке этой «цифры».

Практически каждая компания располагает огромным массивом неиспользуемых данных. Таких, как:

  • архивы телеметрии оборудования какой-нибудь промышленной установки; 

  • метеосводки по определенной местности;

  • логи работы информационных систем;

  • электронные архивы и базы данных;

  • статистика рекламных кампаний;

  • статистика и логи работы игровых серверов и другого.

Просто сложено все в хранилищах, не структурировано, и владельцы пока не знают, как использовать эти данные эффективно. 

Развитие LLM дает нам возможность структурировать и в дальнейшем использовать эти данные для обучения новых моделей.

Вовлечение труднодоступных данных

Есть категории данных, которые компании-владельцы не имеют права передавать. Это медицинские карты, данные об абонентах сотовой связи, геофизические данные, финансовая информация и многое другое. 

Здесь приходит на помощь федеративное обучение. Это один из методов, когда обучение модели происходит без передачи чувствительных данных от владельца датасета к владельцу модели. Основная цель федеративного обучения — обеспечение безопасности и конфиденциальности исходных данных.

В процессе федеративного обучения на одном из этапов модель передается владельцу чувствительных данных для дообучения в его контуре и на его данных. После этого модель возвращается разработчику. В зависимости от задач и данных различают вертикальное и горизонтальное федеративное обучение.

Плюсы такого подхода: 

  • Можно обучать модели на закрытых данных, не показывая их посторонним. Это используется для обучения рекомендательных систем, моделей оценки кредитных рисков, медицинских информационных систем и т. д.

  • У каждого участника процесса есть возможность получить модель, обученную в том числе на данных других участников. 

Но и без минусов не обходится:

  • Процесс организационно сложный, требует координации усилий разных участников.

  • При неправильной организации процесса федеративного обучения могут возникать риски утечки данных, в том числе через веса обученной модели. 

Тема настолько сложная и объемная, что тянет на отдельную статью. Дайте знать в комментах, если она вам интересна — расскажу подробнее. 

Увеличение сложности моделей

В настоящее время наиболее активно развиваются архитектуры трансформеров, генеративные и диффузионные модели. При этом развитие идет в сторону увеличения числа параметров и размеров обучающих датасетов, а оптимизация архитектуры моделей и новые интерпретации данных (включая переразметку и очистку датасетов от ошибок) все еще ждут своего часа. 

Увеличение числа слоев и нейронов в каждом слое в целом ведет к повышению точности работы через увеличение объема данных, которые может запомнить и осмыслить нейронная сеть. Практика показала, что этот путь не дает 100% точности модели. 

Увеличение числа параметров. Для «интеллекта» нейронной сети, важнее не количество нейронов, а количество связей между ними. Связь между количеством нейронов N, параметрами сети P и связями L можно записать в виде выражения  L = P + N.

Логика этой формулы очень проста: количество входных связей равно числу весов, количество выходных связей — числу смещений. На вход каждого нейрона сети подаются сигналы, которые умножаются на веса нейрона, добавляется смещение (bias), к результату применяется функция активации, результат передается дальше.  Итак, количество параметров в нейронной сети равно сумме всех весов и всех смещений. Это определяет сложность модели и ее способность к обучению. Казалось бы — проблема решена, просто увеличиваем количество параметров и наслаждаемся результатом, но у этого, как и у всего, есть цена. 

Во-первых, увеличение количества параметров требует больше вычислительных ресурсов. В некоторых случаях это настолько увеличивает стоимость и сложность обучения, что процесс теряет экономический смысл. Во-вторых, процесс не гарантирует 100% точности. Именно поэтому и возникает потребность в новых архитектурах сетей и алгоритмах. 

Генерация новых данных

Новые данные появляются непрерывно: онлайн-издания выпускают новые статьи, в публичный доступ выкладываются новые презентации с разнообразных конференций, множатся стримы и видеосервисы. В последнее время и сами нейронные сети начали генерировать огромный объем текстов, картинок, видео. Весь корпус новых данных можно разметить и дообучить на нем будущие модели. Но, как водится, есть нюанс…

Давайте попробуем оценить, насколько много данных рождается каждый год. По прогнозам IDC и Seagate в 2025 году будет сгенерировано примерно 30 ZB новых данных, которые в теории можно использовать для обучения. Это несколько терабайт на каждого жителя планеты и равносильно ежедневному 12-часовому стриму индивидуальному для каждого человека. Разметить такой объем данных можно только автоматически, получая при этом новые синтетически сгенерированные данные. 

Синтетические данные и аугментация

Данные как мыши в мультике про Простоквашино: если их нет, их надо завести. 

Синтетические данные — это те, что сгенерированы нейросетями, включая картинки, видео, тексты, выдуманные данные пользователей и т. д. Одновременно с этим существует другой способ искусственного создания данных: внесение изменений в существующие данные. Результат при этом сохраняет правдоподобие, такой процесс называется аугментацией. Существенная разница между синтетическими данными и аугментацией в том, что во втором случае все-таки сохраняется контакт с реальностью.

Пример аугментации: зеркально отображаем картинку с котиком, искажаем цвет глаз или выкручиваем контрастность. Такие изображения эффективно используются для обучения моделей, поскольку как бы котика не потрепала жизнь, он все еще остается котиком.

Источник: https://newtechaudit.ru/wp-content/uploads/2023/03/bezymyannyj-1.png
Источник: https://newtechaudit.ru/wp-content/uploads/2023/03/bezymyannyj-1.png

А вот с синтетическими данными работать нужно очень аккуратно, ведь модель не может определить сама, когда она ошибается, и последующее использование полученных результатов работы такой модели влечет катастрофическое накопление ошибок. Для желающих погрузиться в детали есть недавняя статья в Nature. Экспериментаторы раз за разом обучали модель на сгенерированных данных, в итоге случилось то, что они назвали коллапсом модели. К таким же результатам приходит другой автор

Синтетические данные можно и нужно использовать эффективно. Ярчайшим успехом на этом фронте является вычислительное решение задачи свертывания белков, отмеченное Нобелевским комитетом, про которое я уже подробно писал. В этой работе авторы генерировали синтетический датасет, контролируемо используя только одну итерацию синтеза. 

Выводы 

Несмотря на исчерпание источников доступных данных, возможностей для развития нейросетей еще очень много. Наилучших результатов можно добиться, комбинируя различные методы. При этом работа с новыми архитектурами нейронных сетей и является тем, что, скорее всего, принесет наибольшую отдачу исследователям. 

Комментарии (8)


  1. CrazyElf
    23.01.2025 12:24

    этот путь не дает 100% точности модели

    процесс не гарантирует 100% точности

    А что такое "точность" в данном случае? Одно дело определяем ли мы, является ли спамом письмо или есть ли у пациента злокачественная опухоль. Да и то могут быть какие-то пограничные состояние, которые непонятно как трактовать. А если мы, например, генерируем картинки на основании "переваренного" моделью массива картинок и словесного описания того, что мы хотим получить, то как тут понять, выдала ли модель "на гора" 100% точность, если она в принципе каждый раз может генерить довольно разные картинки, как и человеческий художник?

    Так что я бы вообще поостерегся в данном контексте говорить о какой-то "точности". Критерии тут какие-то другие должны быть. Например, насколько выглядят естественными картинка или текст, сгенерированные моделью. Хотя тут тоже может быть много субъективизма. Но за некоей "100% точностью" тут точно гоняться не нужно. Она возможна только в двух случаях: когда модель настолько сложная, что она просто запоминает все возможные варианты входных данных (которые не противоречивы при этом) и потом просто выдаёт запомненный ответ. Но такое никому не нужно, это не ИИ а просто хранилище данных. И второй вариант - когда имеется чёткая зависимость в данных, там нет никаких выбросов, никаких вариаций, опять же никаких противоречий и их можно как-то "генерализовать". Но это опять же задача для каких-то простых моделей, не для ИИ.


    1. pbuzin Автор
      23.01.2025 12:24

      Для разных задач ML применяются разные метрики, единой универсальной метрики пока не существует. Но можно сравнить результаты предсказаний и ожидаемые ответы для большого числа предсказаний. 100% точности работы модели будет соответствовать результат когда модель всегда дает правильный (или ожидаемый) ответ.

      Есть ряд задач, где 100% точность нужна и практически достижима. Примеры - распознавание автомобильных номеров, проверка наличия объекта в заданной зоне и ряд схожих задач.

      На практике гораздо важнее обеспечить увеличение точности в сравнении с конкурирующим решением. Условно, сравнивают долю правильных диагнозов, которые ставит врач и ИИ-модель. Увеличение доли правильных диагнозов на 10%, с 80% до 90%, означает снижение доли неверных диагнозов с 1/5 до 1/10, или в 2 раза, что в случае медицины - очень хороший результат.


    1. puchuu
      23.01.2025 12:24

      При оптимизации можно выставлять неравные веса для разных результатов. Например модель можно заставить более серьёзно относится к постановке диагноза, чем к его отсутствию. В таком случае модель будет как правило ошибаться в постановке диагноза, но почти никогда не ошибаться в его отсутствии. Для этого например в pytorch есть pos weight для разных ф-ий потерь, самая простая из них bcewithlogitloss.


  1. Dron007
    23.01.2025 12:24

    Для «интеллекта» нейронной сети, важнее не количество нейронов, а количество связей между ними. Связь между количеством нейронов N, параметрами сети P и связями L можно записать в виде выражения  L = P + N.

    Логика этой формулы очень проста: количество входных связей равно числу весов, количество выходных связей — числу смещений. 

    Что-то тут странноватое в формуле и в комментарии к ней. Вообще там же есть какое-то эмпирическое правило, сколько данных для какого размера сети требуется для нормального обучения.

    Вообще, думаю, подход к обучению будет меняться. Человеку не скармливают миллионы вариантов написания букв и произношения слов чтобы он обучился. Некоторые слова с первого раза запоминаются благополучно. Ребёнок в 3-4 года уже отличит любую кошку от собаки, а сколько кошек он там в своей жизни видел и сколько их должна увидеть нейросеть, чтобы научиться.


  1. KonstantinTokar
    23.01.2025 12:24

    Не хватает вывода о том, что текущая архитектура ИИ подошла к своему пределу, и надо придумать другую. Пока проблему недостатка данных не решил ChatGPT .


    1. pbuzin Автор
      23.01.2025 12:24

      Из текущей архитектуры трансформеров выжали практически все что было можно. Иначе не возникла бы проблема недостатка данных для обучения новых версий. В то же время разработка и тестирование новых архитектур - невероятно сложный процесс поиска среди очень большого количества вариантов, исследований и разработок. При этом достижение пределов текущей технологии не исключает перехода в новое качество. Аналогичная ситуация в космонавтике - переход от химических двигателей к ионным, в вычислениях - попытки развития квантовых вычислений, огромное количество новых методов в биологии и медицине - CRISPR, ПЦР и секвенирование ДНК, криоэлектронная микроскопия, клик-химия, фемтосекундные лазеры, применение ML как AlphaFold и многое другое.


  1. Juf8887
    23.01.2025 12:24

    Вопрос из зала, почему ллм повсеместно обзывают ии? Как по мне - это в корне не верно на данном этапе развития.


  1. alexxxdevelop
    23.01.2025 12:24

    Что будет дальше? Уже сделали: одна нейросеть генерит данные для другой нейросети, и может выдумывать свою галюны бесконечно