Авторегрессионные языковые модели, которые продолжают удивлять своими возможностями, занимают сейчас почти всё AI-пространство и забирают на себя почти всё внимание. В тени этого триумфа, однако, продолжают развиваться альтернативные подходы. Один из самых ярких — дискретные диффузионные модели для генерации текста. Понятно, что у авторегрессионных моделей множество принципиальных недостатков, которые вряд ли получится устранить в рамках той же архитектуры. Поэтому параллельно нужно не только совершенствовать этот подход, но и развивать совсем другие направления. Когда (или если) текущие триумфаторы упрутся в потолок своих возможностей, понадобится альтернатива. 

О каких недостатках авторегрессионных моделей идет речь? В первую очередь, ограничение самой генерации — последовательно, слово за словом, токен за токеном, слева направо и только так. Локальная согласованность гарантируется, два соседних токена будут друг с другом связаны, а вот два далеких — уже не факт. Согласованность будет экспоненциально убывать, и в итоге конец текста с его началом могут значительно разойтись. С сохранением глобальной согласованности справляются диффузионные модели, которые генерируют изображения. Поэтому перенос диффузионных моделей в дискретное поле языка считается перспективной альтернативой и вероятным будущим соперником авторегрессии. 

Дискретные диффузионные модели восстанавливают весь текст разом из полностью “зашумленного” текста. Под зашумлением подразумевается простая маскировка слов. Преимуществ два. Во-первых, глобальная согласованность, о которой мы уже сказали. Во-вторых, потенциальное ускорение за счет того, что генерация происходит параллельно, а не токен за токеном. Пока эти преимущества именно потенциальные, догнать авторегрессионные модели дискретная диффузия еще не может, но всё-таки уверенно к этому идет. 

Проводить параллели между AI-моделями и работой живого интеллекта — это, наверное, плохой тон, но в данном случае удержаться тяжело. Диффузионные текстовые модели больше, чем авторегрессионные, похожи на то, как мысль превращается в сказанный или записанный текст. Сначала в голове есть просто представление или просто понимание, еще не выраженное словами — “зашумленная” или замаскированная картинка. Самому человеку эта мысль понятна, но нужно её формализовать словами, структурировать и превратить в текст, чтобы передать ее другому человеку. Можно даже попробовать проследить этот процесс внутри головы, он действительно похож на постепенное проявление из шума. 

“Авторегрессионный” режим превращения мысли в текст тоже доступен человеку, но он больше описывает ситуацию, когда сказать что-то нужно, а что именно — еще неизвестно. Например, ответить на экзамене по билету, который не знаешь. Слова появляются одно за другим по порядку, и друг с другом, конечно, согласованы. Даже кажется что речь стройная и понятная, но к середине можно забыть, что было в начале, а закончить вообще о другом. В результате, если посмотреть на весь получившийся текст, то он может оказаться малосвязным. На троечку. Или на пересдачу.

Дискретная диффузия обнаруживает помимо прочего глобальный недостаток — несоответствие процессов обучения и генерации.Предполагается, что “зашумление” ( маскировка) происходило одновременно для всего текста, и цель модели, постепенно снимая маски, восстановить его. Но при этом сам процесс представляется как произведение независимых вероятностей для каждого токена, то есть связь между словами игнорируется. 

На этот недостаток обращают внимание в Energy-based diffusion language models for text generation (EDLM). Статья вышла в октябре, но пока незаслуженно осталась не особо замеченной. Чтобы устранить этот недостаток дискретной диффузии — игнорирование локальной связности токенов — авторы из NVIDIA предлагают вспомнить energy-based models. Кратко суть этих “энергетических” моделей в следующем: каждому конкретному распределению (состоянию) ставится в соответствие некоторая скалярная величина, энергия; чем меньше энергия, тем это состояние “лучше”.

Энергию можно ввести таким образом, чтобы она как раз оценивала локальную согласованность, которой так не хватает диффузионным текстовым моделям. Чем меньше энергия, тем более согласованы соседние токены друг с другом, тем лучше весь текст. Звучит хорошо, но отдельная сложность в данном случае будет заключаться в нормировочной функции Z. Если размер словаря около 50 тысяч токенов, и модель генерирует 1024 токена, то уже в этом (не самом хорошем) варианте возможных состояний будет 500001024. Чтобы избежать этого, авторы предлагают два возможных пути реализации — использовать для расчета энергии предобученную LLM или обучить ее с помощью Noise Contrastive Estimation, то есть, научить отличать реальные данные от шума (чем больше похоже на реальный текст, тем ниже энергия). 

Итак, на каждом шаге обратной диффузии EDLM генерирует сразу несколько возможных вариантов. Токены восстанавливаются из масок без учета связи между собой, но это и не нужно. 


Полученные варианты отправляются на оценку энергии, каждый получает свою энергию. Побеждает вариант с наименьшей энергией, он будет считаться наиболее вероятным то есть наиболее соответствующим хорошему тексту. В случае с примером на картинках модель вернет предложение “I love Energy-based diffusion language model for text generation” из частично замаскированного “I _ Energy-based _ _ model for text!”


Для проверки EDLM использовали два датасета: основанный на англоязычной википедии Text8 и OpenWebText, на котором обучали GPT-2. Следили за перплексией (PPL, Gen PPL) и Bits Per Character (BPC).

EDLM уверенно обошла другие модели с дискретной диффузией и подобралась до transofrmer AR (это впервые для дискретной диффузии)

EDLM хорошо себя показывает и с точки зрения соотношения перплексия-время. На графике снизу авторегрессионная модель это GPT2. Кривые EDLM выглядят практически наравне с ним.

О прорыве моделей с дискретной диффузией речи пока не идет, но новые подходы продолжают появляться, так что есть вероятность, что когда-то накопление дойдет до критической точки и мы увидим диффузионные модели в рядах соперников GPT и DeepSeek

Больше наших обзоров AI‑статей — на канале Pro AI.

Комментарии (1)


  1. Gutt
    31.01.2025 16:31

    А как они справляются с задачами, подразумевающими операции над N-мерным пространством, где N>1? Представляется, что такая модель, натасканная, к примеру, на решение шахматных задач, должна справляться лучше классической LLM, у которой токены приходят на вход последовательно. Или нет?