Привет, Хабр. Меня зовут Никита Драгунов, я из команды «Интерпретируемый ИИ» лаборатории FusionBrain AIRI. У себя в группе мы активно пытаемся понять, почему большие языковые модели и другие архитектуры ведут себя так или иначе, и разрабатываем инструменты, которые помогают нам в этом разобраться.
Среди прочего нас очень заинтересовал сравнительно свежий подход, в котором предлагается перейти от генерации токенов к генерации целых предложений — Large Concept Models, LCM. Мы углубились в эту тему и смогли предложить новый способ, как использовать идею LCM эффективнее.
О том, что мы сделали — в статье ниже.

Представьте, что вы пытаетесь написать роман. Но писать вы можете только по одному слову за раз. Причём перед написанием каждого нового слова вам необходимо перечитывать весь текст с самого начала. Примерно так работают современные языковые модели (Large Language Models, LLM) — они генерируют текст токен за токеном, но генерация каждого нового токена требует просмотра всех предыдущих.
LLM достаточно хорошо умеют создавать связные тексты в потокенном режиме. Но у такого подхода есть фундаментальные ограничения — квадратичный рост вычислительной сложности с длиной текста и проблемы с пониманием глобальной структуры документа.
Конечно, для ускорения инференса в трансформерах используется так называемый KV‑кеш: модель сохраняет уже вычисленные представления прошлых токенов и переиспользует их. Это позволяет заметно сократить время генерации, однако скорость всё равно существенно зависит от длины генерируемой последовательности.
Думать предложениями
В декабре 2024 года исследователи из FAIR из Meta* (организация Meta признана экстремистской, и ее деятельность запрещена на территории РФ) предложили кардинально другой подход — Large Concept Models. Вместо генерации токенов они решили генерировать целые предложения (эмбеддинги предложений). Это существенно уменьшает длину обрабатываемого контекста.
Ключевой компонент их решения — SONAR, текстовый автоэнкодер, который умеет «сжимать» целое предложение в вектор из 1024 чисел, из которых потом можно достаточно точно восстановить исходный текст.
Но как можно заставить модель генерировать эмбеддинги предложений? Самый простой способ выглядит следующим образом: берём непредобученный трансформер‑декодер (например, архитектуру LLama 3), во время обучения подаём ему последовательность SONAR‑эмбеддингов предложений и учим через MSE‑лосс генерировать эмбеддинг следующего предложения. Это один из вариантов обучения LCM, который попробовали авторы идеи LCM. Другой вариант — использовать вместо авторегрессионной модели диффузионную и обучаться на диффузионный лосс.
Авторегрессионный подход с MSE показывал слабые результаты — модель генерировала тексты низкого качества. Диффузионный вариант работал значительно лучше, но генерация текста была дорогой и медленной по сравнению с классическими LLM.
SONAR-LLM
Мы предложили новый способ обучения авторегрессионной LCM: модель по‑прежнему предсказывает эмбеддинг следующего предложения, но обучается через стандартную потокенную кросс‑энтропию через замороженный SONAR‑декодер. Такой подход мы назвали SONAR‑LLM.
Фактически, вместо того чтобы пытаться напрямую предсказать «правильный» эмбеддинг (как в MSE), мы обучаем LCM генерировать такие эмбеддинги, которые позволят SONAR‑декодеру максимально точно воспроизвести правильный текст.
Как обучается SONAR-LLM
Текст разбивается на
предложений с помощью NLTK или SAT.
В конец полученной последовательности предложений добавляется специальное предложение “End of sequence.”, которое служит аналогом eos‑токена в LLM.
Каждое предложение
кодируется в вектор
размерности 1024 при помощи замороженного SONAR‑энкодера.
Предсказанный эмбеддинг подаётся в замороженный SONAR‑декодер, который восстанавливает предложение в токенах
.
При этом используется teacher forcing: на каждом шаге SONAR‑декодер получает на вход не только эмбеддинг предложения, но и предыдущие токены правильного предложения
и предсказывает следующий токен.
-
На этом предсказанном токене и минимизируется cross‑entropy loss по параметрам SONAR‑LLM:

Результаты экспериментов
Сначала мы изучили работу SONAR‑LLM на небольшом, но удобном для экспериментов датасете TinyStories. Он состоит из коротких рассказов, что позволяет быстро тестировать разные архитектуры и анализировать свойства моделей. Мы сравнили SONAR‑LLM с авторегрессионной LCM (MSE), диффузионной LCM и LLM, предобучив модели размером 39, 100, 300, 600 и 900 миллионов параметров. Каждая модель обучалась 4 эпохи.
Масштабируемость: кто лучше работает с ростом числа параметров
Способность модели эффективно использовать дополнительные параметры — ключевой фактор успеха в современном машинном обучении. Хорошая масштабируемость означает, что увеличение размера модели даёт пропорциональный прирост качества.
Для того чтобы оценить возможность масштабируемости исследуемых моделей, мы аппроксимировали классический закон масштабирования на валидационных лоссах 4-й эпохи, где
— число параметров модели.
Результаты оказались показательными:
— LLM (архитектура Llama 3): лидер масштабируемости (α ≈ 0.79)
— SONAR‑LLM: уверенное второе место (α ≈ 0.57)
— MSE и Diffusion LCM: масштабируются хуже (α ≈ 0.51 и α ≈ 0.48)
Во всех случаях , что свидетельствует о высокой достоверности полученных результатов.
SONAR‑LLM может и не дотягивает до классических LLM по скорости роста качества, но заметно опережает другие LCM подходы.
Качество генерации
Мы оценивали качество двумя способами — классическими NLG-метриками (BLEU, ROUGE‑L, METEOR) и с помощью GPT-4o по четырём критериям: грамматика, связность, креативность и цельность сюжета.
NLG-метрики мы считали следующим образом. Взяли 512 примеров из тестовой выборки, в каждом примере извлекли предложений и сгенерировали следующее предложение рассматриваемыми моделями. Сравнили сгенерированное предложение с
предложением из соответствующего тестового примера. В экспериментах рассматривали
или
, где
— число предложений в тексте. Для LLM тестировались greedy и beam search (4 луча) генерации.

При оценке качества генерации с помощью GPT-4o первые два предложения брались как префикс, далее модели генерировали предложения либо пока их число не достигало 32, либо до генерации “End of sequence.”

Неожиданный результат: по формальным метрикам (BLEU, ROUGE‑L, METEOR) SONAR‑LLM даже немного превзошёл классические LLM! Но GPT-4o, как строгий критик, поставил LLM выше по общему качеству.
Вот пример генерации SONAR‑LLM с 900M параметрами:
Префикс:
Once upon a time, in a small yard, there was a small daisy. The daisy had a name.
Сгенерированное продолжение:
Her name was Daisy. Daisy lived in a garden full of flowers. She loved to play with her friends. One day, Daisy saw a big butterfly. The butterfly was very pretty. Daisy wanted to be friends with the butterfly. She said, 'Hi, butterfly! Do you want to play with me?' The butterfly said, 'Yes, I want to play with you!' Daisy and the butterfly played all day. They had so much fun. At the end of the day, Daisy was happy to go home. She knew she would have a new friend to play with.
Как видно из примера, SONAR‑LLM генерирует связную историю с логичным развитием сюжета, диалогами и эмоциональной составляющей.
Суммаризация
Суммаризация — это как раз та задача, где мышление на уровне предложений может давать преимущество. Мы предобучили модели размером 1.3 миллиарда параметров на объединении семи открытых датасетов (TinyTextbooks, TinyOrcaTextbooks, TinyStrangeTextbooks, TextbooksAreAllYouNeed, Wikitext-103-detokenized, XSum, CNN/DailyMail) и протестировали их на стандартных бенчмарках суммаризации (CNN/DailyMail, XSum). Мы замерили ROUGE‑L и METEOR метрики между сгенерированными и референсными суммаризациями.
SONAR‑LLM показал отличные результаты на CNN/DailyMail и XSum, сопоставимые с LLM и заметно превосходящие другие LCM‑подходы.

Эффективность на длинных текстах
Мы сравнили теоретическую сложность инференса (в FLOPs) у SONAR‑LLM и стандартной LLM в зависимости от длины входной последовательности. Мы рассматривали одинаковые архитектуры на 600 миллионов параметров, а в случае SONAR‑LLM дополнительно учитывали вычисления SONAR-энкодера и декодера, при этом средняя длина предложения принималась равной 60 токенам.
Результаты оказались следующими:
До 4096 токенов: классические LLM работают быстрее.
После 4096 токенов: SONAR‑LLM вырывается вперёд.

Секрет в том, что SONAR‑LLM оперирует сжатым представлением. Вместо тысяч токенов он обрабатывает десятки эмбеддингов предложений. Это как разница между чтением книги по словам и мгновенным восприятием целых предложений — за время обработки LLM одного токена SONAR‑LLM улавливает смысл целого предложения.
Формально сложность у обеих моделей квадратичная, но для SONAR‑LLM рост затрат фактически близок к линейному вплоть до миллиона токенов!
Заключение
С помощью SONAR‑LLM мы доказали важную вещь: генерация на уровне предложений — это не академическая игрушка, а вполне серьёзная альтернатива классическому подходу, которая может найти практическое применение.
Да, пока LCM не всегда превосходят LLM по качеству генерации, но потенциал очевиден:
LCM эффективнее в генерации текстов, что особенно критично для работы с большими документами, книгами, аналитическими отчётами.
LCM лучше понимают глобальную структуру: модель «видит» весь смысл предложения, а не собирает его по крупицам.
LCM перспективны для суммаризации и уже сейчас их результаты сопоставимы с LLM.
Подход с генерацией на уровне предложений открывает интересные перспективы для развития генеративных моделей. Несмотря на то, что сегодня LCM не всегда превосходят LLM по качеству генерации, потенциал подхода очевиден. Нам хочется верить, что дальнейшее развитие техник обучения, масштабирование и улучшение архитектур превратят sentence‑level‑модели в полноценных конкурентов классических LLM. А возможно, и в их преемников для задач, где важна работа с длинным контекстом и сложной структурой текста.
Нашу статью можно прочитать здесь, весь код доступен на GitHub.