Введение

VALL-E 2, последнее достижение в области нейронных кодировочных языковых моделей, которое стало вехой в синтезе речи в zero-shot, достигнув человеческого уровня впервые. Zero-shot - способность модели генерировать речь для голоса, который она не слышала во время обучения. Другими словами, модель может синтезировать речь для нового диктора, основываясь лишь на коротком аудио образце его голоса (prompt).

Основанная на своем предшественнике VALL-E, новая итерация вводит два значительных улучшения: Repetition Aware Sampling и Grouped Code Modeling.

Repetition Aware Sampling (Выборка с учетом повторений) решает проблему зацикливания, с которой сталкивался предыдущий VALL-E. Если модель начинает повторять одни и те же звуки, она автоматически переключается на более точный метод выбора, чтобы избежать "застревания". Grouped Code Modeling (Моделирование групп кодов) - звуковые коды группируются и обрабатываются вместе, как слоги в словах. Это ускоряет синтез речи и позволяет модели лучше учитывать контекст, делая речь более естественной и связной.

Синтез речи из текста (TTS) направлен на генерацию высококачественной речи из текстового ввода с высокой степенью ясности и разборчивости.

Качество на уровне человека

VALL-E 2 обучается на крупномасштабном наборе данных Libriheavy (60000 часов речи). Последующие оценки показывают, что он достигает производительности, сопоставимой с человеческими способностями, как на наборе данных LibriSpeech, так и на наборах данных VCTK. Как показано на рисунке 1, VALL-E 2 значительно превосходит VALL-E и другие предыдущие работы на наборе данных LibriSpeech по показателям устойчивости, естественности и сходства, достигая производительности на уровне человека.

Более того, VALL-E 2 может ускорить процесс декодирования в несколько раз с почти нулевым ухудшением качества (означает, что VALL-E 2 генерирует речь значительно быстрее, чем предыдущие модели, при этом качество генерируемой речи практически не страдает).

Архитектура VALL-E 2

VALL-E 2 использует нейронные кодеки, которые преобразуют аудиоинформацию в дискретные коды. Эти коды представляют собой компактное представление акустических характеристик речи. Эффективность обработки кодов достигается за счет того, что:

  • Коды позволяют значительно сократить объем данных, необходимых для представления аудио, что упрощает обучение и ускоряет процесс синтеза.

  • Нейронные кодеки сжимают информацию о речи в коды, которые отражают важные акустические особенности, позволяя модели обобщать и воспроизводить различные голоса и интонации.

  • Преобразование кодов обратно в аудио (декодинг) происходит очень быстро, что важно для интерактивных приложений и генерации речи в реальном времени.

  • VALL-E 2 использует комбинацию авторегрессионной (AR) и неавторегрессионной (NAR) моделей. AR модель обеспечивает высокую точность синтеза, обрабатывая коды последовательно, а NAR модель ускоряет процесс, генерируя коды параллельно. Такое сочетание позволяет достичь оптимального баланса между качеством и скоростью.

Обучение VALL-E 2

Во-первых, для обучения VALL-E 2 нам требуется лишь простая пара данных речь – транскрипция для каждого высказывания. Это означает, что мы не нуждаемся в сложной разметке, такой как результаты принудительного выравнивания, или в дополнительных аудиоклипах того же говорящего для справки. Такой подход значительно упрощает процесс сбора и обработки обучающих данных, делая его более доступным и менее затратным по времени и ресурсам.

Во-вторых, мы используем кодировщик аудио и токенизатор текста для обработки наших данных. Для каждого аудиофайла из набора данных кодировщик аудио преобразует его в последовательность кодов кодека. Одновременно с этим, токенизатор текста преобразует соответствующую транскрипцию в текстовую последовательность.

Наконец, полученные коды кодека и текстовая последовательность используются для обучения двух моделей:

  • Авторегрессионной модели (AR), которая предсказывает следующий элемент последовательности на основе предыдущих.

  • Неавторегрессионной модели (NAR), которая генерирует всю последовательность одновременно, что ускоряет процесс синтеза.

Обзор обучения модели VALL-E 2. Следует отметить, что для обучения VALL-E 2 требуется лишь простая пара данных речь-транскрипция для каждого высказывания, без каких-либо сложных данных, таких как результаты принудительного выравнивания или дополнительные аудиоклипы одного и того же говорящего для справки.
Обзор обучения модели VALL-E 2. Следует отметить, что для обучения VALL-E 2 требуется лишь простая пара данных речь-транскрипция для каждого высказывания, без каких-либо сложных данных, таких как результаты принудительного выравнивания или дополнительные аудиоклипы одного и того же говорящего для справки.

Обучение AR и NAR моделей

AR модель работает последовательно, предсказывая каждый код на основе предыдущих, подобно тому, как мы пишем текст - буква за буквой. Это обеспечивает высокую точность, но занимает больше времени. NAR модель, напротив, генерирует все коды параллельно, как принтер, печатающий готовый документ. Это значительно ускоряет процесс, хотя и может незначительно сказаться на качестве в некоторых случаях. Совместное использование этих двух моделей позволяет VALL-E 2 достичь оптимального баланса между скоростью и качеством генерируемой речи.

Вывод VALL-E 2

VALL-E 2 генерирует речь в режиме zero-shot, то есть может синтезировать голос говорящего, которого не слышала во время обучения. Всё, что нужно - это текст, который нужно озвучить, и короткий, всего 3-секундный, образец речи целевого говорящего. EnCodec кодирует образец речи в специальные токены. Затем VALL-E 2, используя AR и NAR модели, генерирует коды на основе входного текста и токенов речи. Наконец, EnCodec декодирует эти коды обратно в речь. В результате мы получаем синтезированную речь, которая сохраняет тембр и интонации оригинального образца.

На изображении представлена архитектура модели синтеза речи, использующей как авторегрессивный трансформер (AR), так и неавторегрессивный трансформер (NAR).
На изображении представлена архитектура модели синтеза речи, использующей как авторегрессивный трансформер (AR), так и неавторегрессивный трансформер (NAR).

Метрики оценки

  • SMOS (Средняя оценка мнения о сходстве): Насколько голос сгенерированной речи похож на голос в исходном образце. Оценивается людьми по шкале от 1 (совсем не похоже) до 5 (идентично).

  • CMOS (Сравнительная средняя оценка мнения): Насколько естественно звучит сгенерированная речь в сравнении с эталонным образцом (с исходной записью). Шкала от -3 (намного хуже эталона) до 3 (намного лучше эталона).

  • SIM (Сходство говорящих): Автоматическая оценка сходства голосов с помощью модели WavLM-TDNN. Чем ближе к 1, тем больше сходство.

  • WER (Коэффициент ошибок слов): Измеряет, сколько ошибок делает система распознавания речи при расшифровке сгенерированной речи. Чем ниже WER, тем чище и понятнее речь для машин. Используется для оценки устойчивости — насколько хорошо модель генерирует корректную с точки зрения слов речь.

  • DNSMOS (Средняя оценка мнения о подавлении глубокого шума): Автоматическая оценка общего качества сгенерированной речи. Модель DNSMOS обучена предсказывать оценки, которые бы дали люди. Шкала от 1 (плохое качество) до 5 (отличное качество).

В сущности, SMOS и CMOS основаны на субъективном мнении людей, а SIM, WER и DNSMOS — объективные, автоматические метрики. Все вместе они дают полную картину качества сгенерированной речи. DNSMOS: Качество речи (1-5).

Параметры оценки

Также для zero-shot оценки VALL-E 2 могут быть использованы два датасета: американский LibriSpeech и британский VCTK. Важно отметить, что ни один из дикторов этих датасетов не участвовал в обучении модели, что позволяет оценить её способность работать с совершенно новыми голосами. VCTK добавляет сложности, так как включает дикторов с разными акцентами. Мы использовали различные длины образцов речи в качестве подсказок для оценки производительности VALL-E 2 в разных условиях.

Вывод

VALL-E 2 — революционная TTS модель, которая впервые достигла человеческого уровня синтеза речи и способная генерировать высококачественную персонализированную речь, используя всего лишь 3-секундный образец голоса. В отличие от традиционных систем TTS, VALL-E 2 работает в режиме zero-shot, озвучивая текст голосами, которых не было в обучающих данных. Это достигается благодаря сочетанию авторегрессионной (AR) и неавторегрессионной (NAR) моделей, обеспечивающих баланс между точностью и скоростью генерации. AR модель последовательно обрабатывает каждый звуковой код, в то время как NAR модель генерирует все коды параллельно, значительно ускоряя процесс. Для оценки качества VALL-E 2 используются как субъективные метрики, основанные на оценках людей (SMOS, CMOS), так и объективные, измеряемые алгоритмически (SIM, WER, DNSMOS). Тестирование на датасетах LibriSpeech и VCTK с дикторами, не участвовавшими в обучении, подтверждает способность VALL-E 2 синтезировать естественно звучащую речь с сохранением тембра и интонаций образца. VALL-E 2 открывает новые горизонты в области синтеза речи, обещая широкие возможности применения в различных сферах, от персонализированных голосовых помощников до создания аудиоконтента.

Полезные ссылки

Полная статья

Звуковые сэмплы

Комментарии (4)


  1. Noizefan
    06.12.2024 12:22

    ох, времена дикого запада, когда все корпы свои сетки так нехило нахваливают, потому что доступ по приглашениям, конкурировать открытостью еще не надо

    что из этого всего по результату тихонечько, без понтов, анонсов, научных публикаций, не может elevenlabs?

    https://github.com/ex3ndr/supervoice-vall-e-2 полная репродукция за парой фиксов


    1. ceoofmsc Автор
      06.12.2024 12:22

      Спасибо за ваш комментарий!

      Вы правы, есть открытые проекты, такие как supervoice-vall-e-2, которые достигают впечатляющих результатов без лишнего шума. И ElevenLabs также предлагает качественные решения в области синтеза речи. Круто, что у нас есть выбор между открытыми и коммерческими инструментами, поэтому каждый может найти то, что ему подходит.


  1. ivan_storozhev
    06.12.2024 12:22

    Спасибо за полезную статью!


  1. ENick
    06.12.2024 12:22

    ", достигнув человеческого уровня впервые. " Это только мне режет глаз или уже норма?