
Задача генерации коротких аудио давно решена. Но стоит попросить модель создать несколько минут цельного звукового повествования — с плавными переходами, повторяющимися темами, меняющейся эмоцией — всё рассыпается. Теряется логика и заметны артефакты. Именно за эту связность сегодня отвечает человек. Команда AudioStory предлагает сделать из ИИ настоящего звукорежиссера.

Идея в двух словах
AudioStory — единая система, где большая языковая модель (LLM) планирует сюжет, а диффузионный генератор реализует его в виде звука. Модель не просто получает длинный промт и пытается выдать минуту аудио. Сначала она разбирает запрос, выделяет события, ставит им временные метки, описывает тон и переходы, а затем по очереди генерирует аудио, которые логично стыкуются друг с другом. Этот режим авторы называют "чередующим пониманием": рассуждение и синтез идут рука об руку, шаг за шагом.

Как устроен мост между словами и звуком
Главная инженерная находка — разделение между LLM и аудио-диффузором. Вместо одного компактного промта модель выдаёт два вида токенов:
Семантические токены — высокоуровневая семантика события: что звучит, какой характер, какая роль у клипа в истории;
Остаточные токены — низкоуровневые акустические детали и клей между клипами: тембр, амбиент, ритмика, согласованность переходов.
Семантические токены привязывают замысел к тексту, а остаточные учатся автоматически на сигнале генератора, восполняя всё, чего не хватает словам. Далее оба вида сливаются через перекресное внимание и подаются в диффузионную модель, где учитывается и длительность клипа.
Что внутри обучения
Команда отказалась от сборки из готовых модулей и обучает систему end-to-end, но постепенно:
Сначала оттачивают одиночную генерацию: семантика, потом связка с диффузором.
Затем добавляют задачи понимания аудио (вопросы-ответы, подписи).
В финале переходят к длинным историям с чередующим пониманием.
Абляции показали: такой порядок лучше других альтернатив. Полное совместное обучение LLM и диффузора работает лучше заморозок весов; остаточные токены снижают конфликты оптимизаций; оптимально около восьми таких токенов — меньше не хватает деталей, больше перегружает обучение.

Откуда данные и как мерили
Авторы собрали бенчмарк AudioStory‑10k — 10 тысяч пар аудио с нарративными промтами, таймстампами и цепочками рассуждений. Половина — натуральные звуки (дождь, шаги, разговоры), половина — анимационные эпизоды в стиле "Tom & Jerry", где важна монтажная логика и экспрессия. Оценивали не только качество звука, но и следование инструкции и согласованность сюжета, включая автоматические и человеческие оценки.

Что получилось на практике
В длинных историях AudioStory заметно обходит как чисто диффузионные, так и мультимодальные базовые системы. По CLAP система прибавляет около 17.85%, а длительность без потери связности растёт до 150 секунд. Звук становится более реалистичным и устойчивым. На коротких клипах результат не ухудшается: по стабильным бенчмаркам AudioStory сопоставима или лучше лучших TTA (text-to-audio). На задачах понимания аудио система превосходит большие мультимодальные модели, что подтверждает ценность единого обучения рассуждению и звуку.
Как это слышится
В демонстрациях модель уверенно делит повествование на сцены, удерживает повторяющиеся мотивы и аккуратно проводит слушателя через смену настроений — от шёпота дождя к шагам по гравию и дальше к хлопку двери, без швов и конфликтов среды. В анимационном разделе — характерные оркестровые акценты, комичные эффекты и чёткая синхронизация с действием.

Применения: от дубляжа до продолжения
AudioStory умеет озвучивать видео, если подать кадры и инструкцию: LLM извлекает сцену, разбивает её на события и задаёт синхронные клипы — получается естественнее, чем у простого подхода через общий захват видео.


Есть и режим продолжения аудио: система анализирует уже звучащую сцену и достраивает следующие эпизоды с нужным тембром и атмосферой.

Выводы и дальнейшие шаги
Пока модель хуже справляется с перекрывающимися событиями и сложной многослойной сценографией. Авторы видят путь в сторону нескольких специализированных генераторов, более тесного объединения текста и аудио в одном авторегрессионном ядре и ещё более глубокой связки понимания и синтеза.
Но несмотря на это, AudioStory уже показывает, что ИИ научился генерировать длинные аудио-дорожки. Система меняет роль человека: он превращается в редактора, который задаёт направление и атмосферу, а машина берёт на себя рутину синтеза и поддержания связности. Это открывает путь к новым форматам: интерактивные аудиокниги, адаптивные подкасты, где сюжет подстраивается под слушателя, или даже полностью процедурные аудио для игр и VR.
***
Если вам интересна тема ИИ, подписывайтесь на мой Telegram-канал - там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.