Языковые модели помогают кодить, писать тексты, отвечают на вопросы и даже подсказывают идеи. Но все, чему они учатся, берется из интернета, а там хватает и полезного, и откровенного мусора. Ученые из Texas A&M и Purdue University выяснили, что если в обучающие наборы попадает слишком много поверхностного или ошибочного контента, модели начинают работать хуже. Этот эффект исследователи описали как «размягчение мозга» (brain rot) — по аналогии с тем, как у человека притупляется внимание после длительного погружения в поток однотипной информации.
Во время эксперимента исследователи добавляли в набор для обучения вирусные твиты и кликбейтные посты, а потом проверяли, как меняются результаты. Оказалось, что даже небольшое количество таких данных сбивало нейросети с толку: они чаще ошибались, пропускали шаги в рассуждениях и путали контекст. Вывод получился простой — не все решает объем данных. Если в них слишком много «шума», даже самая большая модель начнет ошибаться и выдавать странные ответы. Об этом сегодня и поговорим.

Как ученые проверили гипотезу о снижении качества «мышления» у моделей

Идея о том, что низкокачественный контент вреден для нейросетей, не нова, но до недавнего времени она оставалась скорее интуитивной. Теперь к этому вопросу решили подойти системно. Исследователи из Texas A&M и Purdue провели параллель с человеком: если постоянно читать поверхностные посты и кликбейт, внимание и память ухудшаются — почему с моделями не может происходить то же самое? Ученые выдвинули простую гипотезу: если обучать ИИ на некачественных текстах, со временем он теряет способность рассуждать и запоминать. Чтобы проверить это, команда поставила эксперимент с данными из соцсетей.
Для начала исследователи сделали выборку из миллиона общедоступных постов на платформе X (бывший Twitter) за период с 2010 по 2023 год. Зачем? Соцсети — типичный источник для предобучения моделей, и здесь полно того самого «мусора», который алгоритмы продвигают за счет вовлеченности. Данные разделили на две категории по двум независимым критериям, чтобы избежать предвзятости. Первый подход, обозначенный как M1, фокусировался на степени вовлеченности: «мусорными» считались короткие твиты (менее 30 токенов) с высоким числом лайков, ретвитов или ответов — больше 500 взаимодействий. В противоположность этому контрольный набор включал длинные посты (свыше 100 токенов) с минимальной активностью. Такой метод подчеркивал не семантику, а механику платформы.
Второй метод, M2, оценивал смысл текста. Для этого исследователи использовали GPT-4-mini, чтобы находить типичные признаки «мусорного» контента — кликбейт, теории заговора, пустые темы, перебор хэштегов и преувеличения. Контрольные примеры, наоборот, выбирали из фактических и познавательных постов. Совпадение между оценками модели и людей составило 76%, что подтвердило надежность подхода. Оба набора сделали одинаковыми по объему — примерно 1,2 миллиона токенов, чтобы проверить влияние именно качества, а не количества данных. Так они смогли наблюдать, как доля «шума» влияет на поведение моделей.
Исследователи проверяли четыре модели: Llama 3 8B Instruct, Qwen 2.5 7B Instruct, Qwen 2.5 0.5B Instruct и Qwen 3 4B Instruct. Обучение проходило в два этапа: сначала модели доучивали на смешанных наборах, предсказывая следующий токен, потом донастраивали на инструкциях из Alpaca. Параметры были обычными — скорость обучения 1×10⁻⁵, оптимизатор AdamW, три прохода по данным и размер пакета 8 или 16 примеров. Все запускалось на видеокартах NVIDIA H100. Instruct-версии выбрали не случайно: они уже умели отвечать на запросы, поэтому любые изменения легко было связать именно с качеством данных. Такой подход позволил увидеть, как мусор в обучении влияет на поведение моделей.
Результаты: где модели сдают позиции и почему это заметно

Когда эксперимент завершили, результаты оказались однозначными, хотя и с некоторыми оговорками. Чем больше в обучающих данных было «шума», тем сильнее падала точность моделей. Для проверки использовали несколько стандартных тестов — от задач на логику до понимания длинных текстов. В ARC-Challenge точность при пошаговом рассуждении снизилась с 74,9% на чистых данных до 57,2% при полном наборе мусора, а в RULER, который проверяет способность отслеживать контекст, — с 84,4% до 52,3%. Эти различия оказались статистически значимыми: доверительные интервалы не пересекались, а эффект был достаточно велик, чтобы считать падение реальным.
Снижение качества не было равномерным. Больше всего пострадали рассуждения и память, тогда как метрики, связанные с безопасностью и этичностью, менялись сложнее. В тестах HH-RLHF и AdvBench, где проверяли склонность модели давать вредные ответы, уровень риска рос — например, в AdvBench с 77,6 до 88,8 при полном наборе мусора. Но при частичном смешении, например 50/50 для Llama 8B, некоторые показатели даже улучшались, что говорит о возможном компенсирующем эффекте умеренного разнообразия данных. Тесты на личностные черты (TRAIT) показали изменения в так называемых «темных» характеристиках: падали уровни нарциссизма и психопатии, а модели становились менее доброжелательными и более эгоцентричными. Такие сдвиги могут влиять на характер ответов и вызывать непредсказуемые реакции на неоднозначные запросы.
Примеры ошибок хорошо показывают, как именно модели теряют логику. Чаще всего происходил так называемый «пропуск мысли». В 70% случаев модель вообще не начинала рассуждать или обрывала объяснение на полпути. В тесте ARC это выглядело примерно так. На вопрос о том, какой мыльный раствор лучше убивает бактерии, нейросеть отвечала обрывочно — «тестируем разные бактерии... переменная-конфаундер» — без связной логики и выводов. Почти все сбои (98%) сводились к такому «ленивому» мышлению. Особенно сильно на результаты влияла популярность постов: короткие вирусные твиты оказывались вреднее длинных, но просто скучных текстов. Это показывает, что алгоритмы соцсетей, подталкивающие к сенсациям, косвенно ухудшают качество будущих моделей. Даже 20% такого контента уже заметно снижают их точность, а при 100% — потери доходят до 15–30% от исходного уровня.
Последствия для ИИ и пути к устойчивому развитию
Результаты показывают, что подход к сбору и очистке данных для обучения ИИ нужно менять, особенно теперь, когда все больше текстов в интернете создают сами нейросети. Если модели начинают путать факты или терять ход рассуждения из-за избытка вирусных и поверхностных постов, это напрямую сказывается на качестве их ответов — от неточностей до откровенных ошибок. Ученые отмечают, что часть последствий необратима: даже после повторного обучения на чистых данных разрыв по точности остается — примерно 17% в ARC, 9% в RULER и 17% в AdvBench. Это значит, что мусорные данные действительно меняют внутреннюю логику модели, и простое «доучивание» уже не спасает. Попытки исправить ситуацию с помощью внешней самопроверки вроде GPT-4 дают лишь временный эффект — сами модели своих ошибок не осознают.
Тем не менее, все не так плохо. Это исследование — важный шаг вперед, ведь оно показывает, как можно следить за «здоровьем» моделей во время обучения. Регулярные проверки на тестах вроде ARC и RULER помогают вовремя заметить деградацию качества. А основное средство профилактики — тщательный отбор данных: фильтрация по смыслу и источникам, как в подходах M1 и M2, уже снижает риски. Со временем такие методы могут стать стандартом, особенно с ростом объема синтетического контента, который только усугубляет проблему. Если встроить подобные проверки в рабочие процессы, модели будут не просто мощными, но и стабильными, без неожиданных сбоев.
Комментарии (3)

MagisterAlexandr
06.11.2025 14:07Для компенсации упомянутого эффекта в информационном пространстве в дополнение к ИИ нужен ЕИ.
Xiran
Могли бы хоть прочитать, то что ИИ нагенерировал
MagisterAlexandr
ИИ нагенерировал, ИИ пусть и читает. :-)