Задача генерации коротких аудио давно решена. Но стоит попросить модель создать несколько минут цельного звукового повествования — с плавными переходами, повторяющимися темами, меняющейся эмоцией — всё рассыпается. Теряется логика и заметны артефакты. Именно за эту связность сегодня отвечает человек. Команда AudioStory предлагает сделать из ИИ настоящего звукорежиссера.

AudioStory разбивает инструкцию на согласованные аудиосегменты с учётом сцен, эмоций и времени.
AudioStory разбивает инструкцию на согласованные аудиосегменты с учётом сцен, эмоций и времени.

Идея в двух словах

AudioStory — единая система, где большая языковая модель (LLM) планирует сюжет, а диффузионный генератор реализует его в виде звука. Модель не просто получает длинный промт и пытается выдать минуту аудио. Сначала она разбирает запрос, выделяет события, ставит им временные метки, описывает тон и переходы, а затем по очереди генерирует аудио, которые логично стыкуются друг с другом. Этот режим авторы называют "чередующим пониманием": рассуждение и синтез идут рука об руку, шаг за шагом.

Обзор AudioStory: LLM планирует и порождает токены для звука, DiT генерирует клипы; обучение идёт поэтапно.
Обзор AudioStory: LLM планирует и порождает токены для звука, DiT генерирует клипы; обучение идёт поэтапно.

Как устроен мост между словами и звуком

Главная инженерная находка — разделение между LLM и аудио-диффузором. Вместо одного компактного промта модель выдаёт два вида токенов:

  • Семантические токены — высокоуровневая семантика события: что звучит, какой характер, какая роль у клипа в истории;

  • Остаточные токены — низкоуровневые акустические детали и клей между клипами: тембр, амбиент, ритмика, согласованность переходов.

Семантические токены привязывают замысел к тексту, а остаточные учатся автоматически на сигнале генератора, восполняя всё, чего не хватает словам. Далее оба вида сливаются через перекресное внимание и подаются в диффузионную модель, где учитывается и длительность клипа.

Что внутри обучения

Команда отказалась от сборки из готовых модулей и обучает систему end-to-end, но постепенно:

  • Сначала оттачивают одиночную генерацию: семантика, потом связка с диффузором.

  • Затем добавляют задачи понимания аудио (вопросы-ответы, подписи).

  • В финале переходят к длинным историям с чередующим пониманием.

Абляции показали: такой порядок лучше других альтернатив. Полное совместное обучение LLM и диффузора работает лучше заморозок весов; остаточные токены снижают конфликты оптимизаций; оптимально около восьми таких токенов — меньше не хватает деталей, больше перегружает обучение.

Исследование слияния токенов и его влияние на качество.
Исследование слияния токенов и его влияние на качество.

Откуда данные и как мерили

Авторы собрали бенчмарк AudioStory‑10k — 10 тысяч пар аудио с нарративными промтами, таймстампами и цепочками рассуждений. Половина — натуральные звуки (дождь, шаги, разговоры), половина — анимационные эпизоды в стиле "Tom & Jerry", где важна монтажная логика и экспрессия. Оценивали не только качество звука, но и следование инструкции и согласованность сюжета, включая автоматические и человеческие оценки.

Примеры из набора данных AudioStory‑10k.
Примеры из набора данных AudioStory‑10k.

Что получилось на практике

В длинных историях AudioStory заметно обходит как чисто диффузионные, так и мультимодальные базовые системы. По CLAP система прибавляет около 17.85%, а длительность без потери связности растёт до 150 секунд. Звук становится более реалистичным и устойчивым. На коротких клипах результат не ухудшается: по стабильным бенчмаркам AudioStory сопоставима или лучше лучших TTA (text-to-audio). На задачах понимания аудио система превосходит большие мультимодальные модели, что подтверждает ценность единого обучения рассуждению и звуку.

Как это слышится

В демонстрациях модель уверенно делит повествование на сцены, удерживает повторяющиеся мотивы и аккуратно проводит слушателя через смену настроений — от шёпота дождя к шагам по гравию и дальше к хлопку двери, без швов и конфликтов среды. В анимационном разделе — характерные оркестровые акценты, комичные эффекты и чёткая синхронизация с действием.

Качественный пример генерации длинного аудио.
Качественный пример генерации длинного аудио.

Применения: от дубляжа до продолжения

AudioStory умеет озвучивать видео, если подать кадры и инструкцию: LLM извлекает сцену, разбивает её на события и задаёт синхронные клипы — получается естественнее, чем у простого подхода через общий захват видео.

Простой дубляж: сначала субтитры, затем генерация — синхронизация страдает.
Простой дубляж: сначала субтитры, затем генерация — синхронизация страдает.
Совместный анализ видео и инструкции даёт точное разбиение и выравнивание аудио.
Совместный анализ видео и инструкции даёт точное разбиение и выравнивание аудио.

Есть и режим продолжения аудио: система анализирует уже звучащую сцену и достраивает следующие эпизоды с нужным тембром и атмосферой.

Примеры продолжения аудио.
Примеры продолжения аудио.

Выводы и дальнейшие шаги

Пока модель хуже справляется с перекрывающимися событиями и сложной многослойной сценографией. Авторы видят путь в сторону нескольких специализированных генераторов, более тесного объединения текста и аудио в одном авторегрессионном ядре и ещё более глубокой связки понимания и синтеза.

Но несмотря на это, AudioStory уже показывает, что ИИ научился генерировать длинные аудио-дорожки. Система меняет роль человека: он превращается в редактора, который задаёт направление и атмосферу, а машина берёт на себя рутину синтеза и поддержания связности. Это открывает путь к новым форматам: интерактивные аудиокниги, адаптивные подкасты, где сюжет подстраивается под слушателя, или даже полностью процедурные аудио для игр и VR.

? Оригинальная статья

? Код

***

Если вам интересна тема ИИ, подписывайтесь на мой Telegram-канал - там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.

Комментарии (0)