LLM требуют все больше данных для обучения, но обучаться постепенно становится не на чем: аппетиты ИИ-систем превосходят возможности человечества по генерации контента, к тому же использовать реальные данные в одних случаях дорого, в других — не очень-то законно.

Спасти ситуацию может «синтетика», но и с ней не все гладко. Мы в beeline cloud решили разобраться, какие риски несут в себе подобные датасеты, что такое «ML-аутофагия» и как с ней борются разработчики LLM.

Изображение — Logan Voss — Unsplash
Изображение — Logan Voss — Unsplash

«Нам нужно больше минералов»

В начале года Илон Маск заявил, что данные для обучения систем ИИ подошли к концу. До этого аналогичную мысль высказал Илья Суцкевер и предсказал, что нехватка фактуры для обучения станет катализатором развития новых форматов разработки ML-моделей. Кто-то может посчитать подобные утверждения излишне драматичными, но доля истины в этих словах все же имеется. 

Ученые из организации Epoch (занимается анализом тенденций в области машинного обучения и масштабирования систем ИИ) разработали модель, которая изучила более 250 млрд веб-страниц в архиве Common Crawl, а также оценила доступное количество токенов в «глубоком вебе»: социальных сетях и мессенджерах. По их оценкам, в интернете содержится порядка 2550 трлн токенов, но доступные текстовые данные будут полностью использованы/задействованы к 2028 году.

Возможная нехватка реальных данных — лишь одна из проблем, связанных с развитием нейросетей. Эти данные необходимо очистить, отсортировать и разметить, прежде чем они станут пригодными для машинного обучения. И весь этот процесс может занимать до 80% времени разработки системы ИИ. При этом компании, которые занимаются разметкой данных, во многом полагаются на ручной труд. Они делегируют задачи по разметке выходцам из «стран третьего мира», что накладывает на всю эту историю этический отпечаток. Например, почасовая ставка для «разметчиков» в Венесуэле варьируется от 90 центов до 2 долларов США. На Филиппинах работники, обрабатывающие данные для многомиллиардных компаний вроде Scale AI, вообще зарабатывают ниже прожиточного минимума.

Неудивительно, что условия труда у таких специалистов тоже зачастую тяжелые: они работают в переполненных и пыльных помещениях, у них нет медицинской страховки, они не могут взять больничный. Крупные технологические компании, по некоторым данным, даже препятствуют созданию профсоюзов в Кении, из-за чего работники не могут организоваться и запросить лучших условий.

Дополнительно ситуацию с использованием реальных данных усложняют законы об авторском праве. Медиакомпания Thomson Reuters, которой принадлежит юридическая платформа Westlaw, подала в суд на стартап Ross Intelligence. В Ross создали систему ИИ для правовых исследований и без разрешения использовали для ее обучения выдержки и комментарии к правовым актам, составленные специалистами из Westlaw. В начале этого года суд встал на сторону истца, признав, что действия ответчика нарушили закон и навредили бизнесу.

Однако подобная практика далека от устоявшейся. Буквально на днях суд Сан-Франциско вынес решение по коллективному иску писателей, которые обвинили компанию Anthropic в том, что она использовала пиратские копии их произведений для обучения языковой модели Claude. Судья признал такое поведение добросовестным использованием, при этом сам факт хранения миллионов пиратских книг в датасете для обучения он все же посчитал нарушением авторских прав. В целом в США сейчас идут более 25 подобных дел, и учитывая отсутствие однозначных практик, предсказать их исход крайне затруднительно.

В то же время судебное разбирательство — это дорогой и сложный путь, доступный далеко не всем. У простых художников, которые выкладывают свои арты на стоки, нет за плечами опыта и ресурсов юридической фирмы. Так что они пытаются бороться с незаконным использованием своего контента другими способами. В 2022 году художники выступили против распространения изображений, сгенерированных системами ИИ. А некоторые стали использовать инструмент Nightshade, который позволяет модифицировать цифровое изображение перед загрузкой в сеть, тем самым «отравляя» его. Использование таких данных для обучения систем ИИ приводит к хаотичным и непредсказуемым результатам.

Изображение — Jon Tyson — Unsplash
Изображение — Jon Tyson — Unsplash

Решить проблему с обучением на данных, защищенных авторскими правами, пытались с помощью датасетов, собранных с согласия контент-мейкеров или построенных на основе материалов, переданных в public domain. В 2024 году такой набор данных был опубликован на площадке HuggingFace — Common Corpus. Он заточен под обучение LLM и содержит 500 млрд слов на нескольких языках. Однако разработка подобных датасетов требует времени, а их наполнение может быстро устаревать. В результате ИИ-системы, обученные на таких данных, уступают по качеству менее «разборчивым» коммерческим моделям, которые метут все подряд.

Если данных не хватает, нужно их придумать

В условиях, когда пул реальных данных постепенно истощается, многие крупные компании все чаще прибегают к синтетическим данным для обучения своих ML-моделей. Так, OpenAI использовала «синтетику» при тонкой настройке GPT-4o во время разработки функции Canvas. Аналогично Amazon дополняет реальные данные искусственно сгенерированными при тренировке моделей распознавания речи в голосовом помощнике Alexa.

Компании обращают внимание на синтетические данные по нескольким причинам. Во-первых, считается, что они содержат меньше ошибок. Исследователи из MIT еще в 2021 году показали, что даже в топовых датасетах, таких как ImageNet и MNIST, встречаются грубые ошибки разметки: грибы классифицируются как ложки, лягушки — как кошки, а вокал Арианы Гранде — как свист (она, конечно, и правда поет в свистковом регистре, но вот с грибами и кошками все же вышел перебор). Синтетические данные, созданные алгоритмически, минимизируют подобные искажения, что делает их привлекательными для обучения моделей.

В то же время синтетические датасеты могут гарантировать, что в них не содержатся персональные данные, позволяющие идентифицировать конкретного человека. Так, Mostly AI запустила генератор синтетического текста, который создает анонимизированные версии клиентских данных. Компании-клиенты загружают исходники (письма, транскрипты чатов) на платформу, система преобразует их в синтетические аналоги, сохраняя структуру, но удаляя персональные данные, а итоговый контент можно использовать для обучения ИИ или тестирования ПО.

Наконец, нейросети позволяют генерировать данные, которые трудно получить на практике. Это могут быть редкие события, которые сложно зафиксировать в реальных датасетах: например, предвестники финансовых кризисов, дорожные аварии для обучения беспилотных автомобилей и другие сценарии. Для генерации подобных данных даже разрабатываются специализированные фреймворки, такие как NVIDIA Cosmos Predict-2. Он способен делать качественные синтетические видеоролики, имитирующие езду в тумане, дождь и другие сложные условия, что ускоряет обучение систем ИИ для автономного вождения.

Нейронки взбунтовались! Говорят, контент ненастоящий!

Один из нюансов, на которые обращают внимание специалисты, — до сих пор нет единого понимания о том, что вообще считать синтетическими данными. Этот вопрос подняла интернациональная группа специалистов, которая опубликовала статью в Proceedings of the National Academy of Sciences — ведущем американском научном журнале. Они проиллюстрировали ситуацию на примере изображений галактик и газовых облаков, полученных радиотелескопами. Такие данные проходят через разнообразные фильтры, преобразуются — чтобы их можно было воспринимать визуально. Тем не менее, несмотря на всю обработку, такие изображения считаются «реальными». Почему же данные, сгенерированные алгоритмически, не могут рассматриваться аналогичным образом?

И здесь возникает вторая проблема, которая беспокоит исследователей. Уже сейчас системы ИИ способны создавать правдоподобные изображения из сфер радиологии или географии, а также генерировать данные для клинических и эпидемиологических исследований. Такие сведения достаточно легко выдать за реальные, что в отсутствие тщательного контроля может приводить к искажению научных результатов и способствовать появлению ложных гипотез. Более того, существует мнение, что применение синтетических датасетов при тестировании лекарств или медицинского оборудования способно дать неточные результаты, что в конечном счете может создать угрозу для здоровья людей.

Изображение — Zack Walker — Unsplash
Изображение — Zack Walker — Unsplash

В прошлом году исследователи из Хуачжунского университета науки и технологий изучили широкий спектр публикаций, связанных с использованием синтетических данных. Они отметили, что такие датасеты могут содержать шум или ошибки, вызванные алгоритмическими ограничениями: некоторые модели при генерации данных чрезмерно упрощают их, упуская детали и разнообразие сценариев. В результате ML-модель, обученная на таких данных, усваивает неверные паттерны, становится менее эффективной на практике.

Еще одной серьезной проблемой является феномен «схлопывания моделей», описанный в 2024 году группой ученых, включая известного исследователя и профессора Илью Шумайлова из Оксфордского университета. В статье «Модели ИИ терпят крах при обучении на рекурсивно сгенерированных данных» авторы описывают ситуацию, когда нейросеть, обученная на своде, сформированном другой системой ИИ, начинает буквально «терять связь с реальностью». Её ответы получаются однообразными и искаженными, тексты выходят излишне упрощенными и неуникальными, с большим количеством галлюцинаций.

Эти выводы подтверждает другое исследование — «Генеративные модели сходят с ума и пожирают себя», проведенное учеными из Университета Райса в Техасе. В своей работе они описали феномен MAD (Model Autophagy Disorder) — «расстройство модельной аутофагии». Искусственный интеллект, обученный на данных, созданных его «собратьями», сходит с ума. Если модель постоянно использует «синтетику», ее ответы ухудшаются: становятся менее разнообразными и неточными. В целом эксперты сходятся во мнении, что проблему «схлопывания» и упрощения синтетических данных нельзя игнорировать, иначе нейросети вскоре станут бесполезными. В свою очередь, Илья Шумайлов подчеркивает необходимость сохранения доступа к правдивой информации и контенту, созданному людьми, чтобы предотвратить деградацию моделей. 

Выход из положения: «натуральная» синтетика

Поскольку радикально увеличить объем «человеческого» контента (а также разрешить этические и юридические вопросы его использования) в ближайшие годы вряд ли получится, выход у разработчиков ML-моделей просматривается только один: улучшать качество «синтетики». Поэтому мировое экспертное сообщество активно работает над совершенствованием моделей для генерации искусственных датасетов. Например, в прошлом году компания NVIDIA представила Nemotron-4 340B. Она уже превосходит конкурентов, таких как Mixtral-8x22B, Claude-Sonnet, Llama3-70B и Qwen-2, по производительности и универсальности. Она обучена на 9 трлн токенов, знает больше 50 естественных языков и 40 языков программирования.

Изображение — Caleb Jack — Unsplash
Изображение — Caleb Jack — Unsplash

В медицине Nemotron-4 340B используется для генерации синтетических данных, которые помогают в поиске лекарств и диагностике болезней без раскрытия ПД пациентов. В банковской сфере модель может генерировать данные и правдоподобные сценарии, чтобы обучать системы ИИ выявлять мошеннические схемы. Nemotron-4 340B даже использует собственные данные для самостоятельного «развития».

Появляются не только новые модели, но и подходы к генерации синтетических данных. В 2024 году ученые из Китая представили мультимодальную языковую модель ChatTS, разработанную для анализа временных рядов. ChatTS генерирует реалистичные синтетические временные данные с подробными текстовыми описаниями. Вместе с ней был предложен метод Time Series Evol-Instruct, который формирует разные вопросы и ответы по временным данным, чтобы улучшить логику модели.

Сэм Альтман, генеральный директор OpenAI, тоже недавно предупредил, что запасы реальных данных для обучения систем ИИ могут истощиться уже к 2028 году. Однако синтетические данные могут стать почти бесконечным ресурсом. Для обеспечения надежности таких данных эксперты предлагают сформировать международную систему контроля их качества и происхождения. В частности, для того, чтобы информацию на всех этапах обучения проверяли люди. Эти меры повысят прозрачность процессов, снизят количество ошибок и сделают синтетические данные более достоверными для использования в научных и коммерческих целях. Такой подход позволит преодолеть ограничения, связанные с нехваткой реальных данных, и открыть новые перспективы для технологического прогресса.

beeline cloud — secure cloud provider. Разрабатываем облачные решения, чтобы вы предоставляли клиентам лучшие сервисы.

Комментарии (0)