Синтез речи виртуальных ассистентов Салют: как мы отошли от классических научных статей, чтобы сделать его человеческим / forpes.ru

Главная
Синтез речи виртуальных ассистентов Салют: как мы отошли от классических научных статей, чтобы сделать его человеческим

Синтез речи виртуальных ассистентов Салют: как мы отошли от классических научных статей, чтобы сделать его человеческим +44

25.03.2021 07:01

sterling239 30 3700 Источник

Автор исходного изображения: Blue Flourishes/Shutterstock.com

Всем привет! В этом посте мы расскажем про синтез голосов Сбера, Афины и Джой — виртуальных ассистентов семейства Салют. О том, как мы в SberDevices обучали модели, чтобы сделать синтез живым и специфичным для каждого персонажа, а также с какими проблемами столкнулись и как их решали.

Согласно нашей «библии ассистентов», Сбер — энергичный гик, Афина — взрослая и деловая, а Джой — дружелюбная и веселая. Они отличаются не только уникальными характерами, обращением на «ты»/«вы» и предпочтениями в шутках. Мы попытались сделать так, чтобы их личности отражались и в голосах, которыми они разговаривают.?

Персонажей озвучили телеведущая Анастасия Чернобровина (Афина) и актёры дубляжа Даниил Щебланов и Татьяна Ермилова (Сбер и Джой). Виртуальных ассистентов можно услышать в приложениях Сбер Салют, СберБанк Онлайн, нашем колл-центре по номеру 900, а также в устройствах SberBox и SberPortal. Всё, что вы услышите, — это синтез речи, реализованный с помощью нейросетей. Он работает на связке Tacotron 2 и LPCNet.

Но, чтобы было понятно, что, зачем и почему, — немного теории и истории.

1. Теория

Автор изображения: ioat/Shutterstock.com

Звук — это волна, распространяющаяся в упругой среде — воздухе. Человеческое ухо воспринимает её примерно так: волна, прошедшая через ушную раковину, колеблет барабанную перепонку среднего уха, с которой связаны органы молоточек и наковальня. Они передают колебания во внутреннее ухо с улиточкой и нервами.

1 — височная кость; 2 — слуховой канал; 3 — ушная раковина; 4 — барабанная перепонка; 6 — молоточек; 7 — наковальня; 8 — стремечко; 5 — овальное окно; 9 — полукружные каналы; 10 — улитка; 11 — нервы; 12 — евстахиева труба.

Источник изображения.

Похожим образом работают цифровые устройства для записи звука: обычно в микрофонах есть мембрана, которая колеблется от звуковых волн. Отклонения мембраны от первоначального положения записываются микрофоном несколько тысяч раз в секунду (обычно от 8000 до 48000, чаще всего 24000). Получается дискретизованный аудиосигнал, так называемое time domain-представление звука. Синтезировать звук в таком виде — значит авторегрессионно, шаг за шагом, предсказывать 24 тысячи чисел в секунду. Единственный успешный (и революционный) проект, работающий в time domain, — WaveNet от DeepMind, но добиться realtime-синтеза в нём можно только ухищрениями в ущерб качеству.

В задачах speech processing лучше пользоваться time-frequency-представлением звука с помощью спектрограмм (short time Fourier transform, STFT). Математически это временная последовательность модулей преобразования Фурье от коротких (10-20 мс) отрезков звука, внутри которых сигнал можно считать стационарным, то есть его спектральные характеристики почти не меняются за это время. Причины того, почему такой подход работает, тоже можно найти в биологии речевого тракта.

Источник изображения.

Человек разговаривает с помощью голосовых связок и других органов речи. Воздух выдыхается из легких, колеблет мембраны голосовых связок, получается периодический сигнал. Затем он резонирует, проходит через несколько фильтров (горло, нёбо, язык, зубы, губы), обрастает дополнительными гармониками (модулируется) и выходит изо рта в таком виде, в каком мы его слышим. Голосовые связки — это не главный орган речи человека. Например, они никак не участвуют при произнесении глухих согласных — с, п, к, … . На спектрограмме они выглядят как высокочастотные равномерно раскрашенные области, а вокализованные звуки (все гласные и звонкие согласные) — как несколько ярких полос, с наибольшей амплитудой в низкочастотной области (в нижней части спектрограммы). Самая первая (нижняя) полоса называется fundamental frequency (частота основного тона, F0) — это и есть частота колебаний голосовых связок. Следующие гармоники (полосы F1, F2, ...) могут иметь бoльшую амплитуду, но кратны F0.

На мел-спектрограммах каждый столбец на ней представляет собой rFFT от короткого фрагмента аудио. По оси X отложено время, по Y — номер мел-фильтра. Мел-шкала — это такой способ снизить разрешение спектрограмм по частоте с 2000 до 128 (или даже 80) без особенной потери информации. Он основан на психоакустике: восприятие человеком высоты и громкости звука логарифмическое. То есть нам кажется, что звук стал выше на какую-то величину, когда в действительности высота звука выросла в какое-то количество раз. Более подробно про процессинг мел-спектрограмм можно почитать тут.

Несмотря на то, что голосовые связки работают не всегда, они являются очень важной частью речевого тракта человека. Мы управляем их натяжением, что для слушателя звучит как проявление интонаций. Попробуйте шепотом, когда связки не включаются, сказать что-нибудь эмоционально — это будет намного сложнее, чем обычным голосом. Так что, если мы хотим делать интонационно богатый синтез речи, то необходимо каким-то образом контролировать F0.

2. История

Синтезировать речь — значит озвучить заданный текст человеческим голосом. Исторически первый качественный способ решить эту задачу — так называемый concatenative text-to-speech (иногда его называют unit selection). Как текст состоит из букв, так и звук здесь рассматривается как склейка коротких фрагментов аудио — фонем. В русском языке около 47 звуков, но современные concatenative-системы синтеза требуют огромных речевых корпусов (около нескольких гигабайт, это сотни тысяч аудио длиной от нескольких десятков миллисекунд). Это связано с тем, что звучание конкретной фонемы зависит от многих факторов, особенно от её соседей. Синтезированная речь получается монотонной, а артефактов на стыках фрагментов всё равно не удаётся избежать.

Более перспективным выглядит параметрический синтез речи. Это целый класс методов, которые могут быть совсем не похожими друг на друга. Их объединяет то, что синтез происходит в два этапа: сначала одна модель предсказывает параметры речи, а затем вторая по этим параметрам синтезирует нужный звук. Обе модели не обязаны быть нейросетями. Долгое время использовались скрытые марковские модели (HMM) и преобразование Griffin-Lim.

О Griffin-Lim преобразовании

Преобразование Фурье в общем случае комплекснозначное, но для звука физический смысл имеют только вещественные амплитуды, а не фазы (тут комплексные числа представляют в экспоненциальном виде), которые обычно отбрасывают. Поэтому задача восстановления звука из спектрограммы не решается обычным обратным преобразованием Фурье, и приходится делать это приближённо. Например, с помощью алгоритма Гриффина-Лима. Он итеративно применяется к вещественной спектрограмме, чтобы восстановить фазы для обратного преобразования Фурье.

До эпохи нейросетей такой подход проигрывал concatenative-синтезу со всеми его недостатками — так ужасно он звучал. Что-то похожее вы уже слышали — в фантастических фильмах роботы звучат очень механически, железно, и точно также долгое время звучал параметрический синтез. Возможно, тогда появились стереотипы, что синтезированная речь может звучать только так.

В 2017 году Google представил архитектуру нейросети Tacotron, а через полгода — Tacotron 2. Это далеко не первый параметрический синтез с помощью нейросетей, но впервые удалось добиться качества, сравнимого с естественной человеческой речью. Авторы предложили авторегрессионно генерировать по тексту столбцы на мел-спектрограмме. Обучающая выборка — это десятки тысяч пар из текстов и соответствующих им аудиодорожек.

Модель состоит из нескольких модулей. Сначала эмбеддинги букв проходят через энкодер, состоящий из нескольких сверточных слоев и bidirectional LSTM. Так получаются 512-мерные представления букв с учётом контекста. Затем включается авторегрессионный декодер. На каждом его шаге в предсказании участвуют предыдущий сгенерированный столбец на спектрограмме (прошедший через prenet, играющий роль bottleneck) и текст. Attention-механизм смотрит на все буквы в предложении, но показывает декодеру, какую из них мы сейчас синтезируем.

Последняя часть такотрона — Postnet. Она немного сглаживает предсказания и улучшает конечное качество. Сам модуль состоит всего из пяти 1d-сверток по времени.

Затем, когда спектрограмма сгенерировалась целиком, её нужно перевести из time-frequency domain обратно во временное представление. Это делается с помощью отдельной модели — вокодера. Авторы оригинального Tacotron-2 использовали WaveNet, но с тех пор появились более быстрые архитектуры, работающие почти так же качественно. Мы используем LPCNet.

Пример работы первой версии Tacotron. Интонации приятные, но звук звучит железно из-за Griffin-Lim вокодера.

Тот же текст, озвученный Tacotron-2 с вокодером WaveNet. Распознать, что это говорит робот, почти невозможно.

3. Из коробки всё работает плохо

Опыт использование такотрона показывает, что он хорош только в тепличных условиях. Недостатки оригинальной архитектуры проявляются в корнер-кейсах, когда синтез делает явные ошибки. Наиболее частые из них — это неправильно расставленные паузы и ошибки в интонациях. Последнее особенно заметно в вопросительных предложениях: иногда нужной интонации вообще нет, или неправильно выделено вопросительное слово (интонационное ударение на слово называется эмфазой). На слух это звучит неестественно, сразу становится понятно, что говорит робот, а не человек.

Обе проблемы возникают из-за того, что такотрон ничего не знает о смысле слов, которые озвучивает. Причём, даже если он и выучит что-то о языке из обучающей выборки, то что делать со словами, которых он не видел?

GST — попытка хоть каким-то образом контролировать интонацию в такотроне. В статье описано, как их модель обучалась на корпусе из детских книжек, где автор озвучила персонажей разными голосами, а на инференсе хотелось указать персонажа и сгенерировать аудио его голосом. Модуль GST работает так: на обучении спектрограмма всего аудио проходит через bottleneck (несколько свёрточных слоев и один GRU, затем multihead attention на обучаемых токенах), выучивая стиль всего аудио. Под стилем понимается то, как был произнесен текст. Style embedding кодируется 128-мерным вектором, который используется дальше декодером. C одной стороны это позволяет делать перенос стиля, хотя на практике это работает не всегда качественно. А с другой — помогает такотрону лучше выучиться, ведь capacity модели не будет тратиться на предсказание громкости, скорости и тембра каждого слова — за это отвечает стилевой вектор.

Схемы работы модуля GST из оригинальной статьи на этапах обучения и инференса.

Задача style transfer

Перенос стиля — задача style transfer. В ней мы хотим скопировать стиль речи (тембр, скорость, громкость и т.д.) от имеющегося референсного аудио и озвучить заданный текст с этим стилем.

На инференсе нам доступны несколько стратегий: скопировать стиль от референсного аудио, сэмплировать случайный стиль из распределения или попробовать предсказать стилевой вектор по тексту. Последнюю идею авторы предложили в отдельной статье (TP-GST). В ней предлагается предсказывать style embedding по выходу текстового энкодера такотрона.

4. Улучшаем такотрон

Очень хочется использовать в синтезе какую-нибудь языковую модель. Например, самую известную из них — BERT от Google. Мы используем его сразу в нескольких местах: для расстановки пауз, в модуле TP-GST и для предсказания формы контура F0 каждого слова.

О нашем BERT мы уже писали — это текстовый энкодер, обученный на очень большом корпусе русского языка. Модель для каждого слова в предложении (в более строгом смысле — не слова, а bpe-токена) возвращает 768-мерный вектор, кодирующий его смысл с учётом контекста. В наших экспериментах общее качество синтеза растёт, если в предсказании TP-GST использовать не только выход энкодера такотрона, но и эмбеддинг предложения от BERT. А можно ли по таким данным предсказать, в каких местах предложения синтезу стоит сделать паузу?

Оказывается, точность расстановки пауз при генерации речи можно повысить, если предсказывать их с помощью отдельной модели. Для этого нужно обучить такотрон на текстах, в которых в нужных местах стоит специальный символ — пауза. На тех же данных мы обучаем паузную сетку предсказывать, после каких слов нужно поставить этот символ. Простая модель из нескольких слоев над эмбеддингами от BERT прекрасно справляется с такой задачей.

В первом аудио паузы предсказываются текст-энкодером такотрона, во втором — синтез звучит с автоматической расстановкой пауз с помощью отдельной модели. Причём она иногда ошибается: в третьем примере есть пропущенная пауза.

Похожим образом мы контролируем интонации в синтезе. В естественной речи экспрессия выражается в повышении-понижении высоты звука, громкости, скорости (это на уровне слов) и восходящей-нисходящей интонацией всего предложения. Эти характеристики легко формализовать числами — существуют простые алгоритмы для их подсчёта.

На картинке буквы примерно соотнесены с вейвформой (синий цвет), оранжевым нарисован контур F0, а капсом выделено слово с эмфазой. Чаще всего оно характеризуется растущим или просто высоким F0, и это слышно ушами.

В нашем такотроне используются квантизованные признаки, посчитанные для слов, вместо настоящих (непрерывных) значений. Под квантизацией имеется ввиду, что всё множество значений признака разбивается на несколько бинов, и для конкретного слова смотрится, в какие бины попали его фичи. Это играет роль бутылочного горлышка при обучении такотрона, мешая ему переобучиться, а также упрощает их предсказание.

Благодаря квантизации можно контролировать эмфазу: либо вручную задавать вопросительное слово, либо предсказывать его автоматически.

На инференсе набор меток для каждого слова предсказывает отдельная модель. Её дизайн похож на паузную сетку — используются эмбеддинги от BERT и несколько простых слоёв. Это работает неплохо, но квантизация открывает ещё одну приятную возможность — контролировать интонации вручную, несмотря на предсказания модели. Автор текстов для синтеза может вручную указывать, какое слово произнести громче или быстрее, но есть более интересный юзкейс. В русском языке существует не так много интонационных паттернов в вопросительных предложениях. Например, почти всегда есть вопросительное слово, которое мы выделяем особенной восходящей интонацией. Этого легко добиться, назначив нужным словам метки, отвечающие за восходящий контур F0 (наклон контура, наряду с самим значением фундаментальной частоты, — очень информативная фича). Интересно, что простые rule-based-алгоритмы справляются с автоматическим поиском таких слов в вопросительных предложениях лучше нейросетей, которые работают в остальных случаях.

В вопросительных предложениях правильные интонации особенно важны. Обычный такотрон часто ошибается, и общее качество синтеза сильно вырастет, если управлять интонацией с помощью простой модели, использующей знания о русском языке.

Обычно корпусы обучающих текстов собираются из разных источников. У нас были например, новости, анекдоты, редакторские реплики ассистентов и книги. Мы просили наших дикторов прочитать каждое предложение выразительно и максимально естественно. Но сухие выдержки из новостей и «Всем салют!» разумно читать с совершенно разным настроением. Так мы получили довольно разнообразную выборку, а синтез говорил с неестественно усредненной интонацией. Чтобы решить эту проблему, каждое предложение в обучении мы пометили one-hot-меткой, из какого источника оно взято, и добавили дополнительный вектор (topic embedding) к энкодеру. Это позволило такотрону более качественно обучиться, а нам — выбирать более подходящий стиль голоса для разных текстов.

О влиянии текста на качество синтеза. Оба примера озвучены одной и той же моделью, но во втором используется метка assistant. При обучении в этот topic попали тексты ассистента (их писали редакторы), а в other — остальные (новости, книги, ...).

Увеличить схему

Все эти модули можно собрать в одну модель. Мы назвали ее q-Tacotron. Каждый из модулей по отдельности улучшает качество, что видно по росту метрик качества. К сожалению, их никак не измерить автоматически, приходится привлекать сервисы crowdsourcing.

5. Меряем качество

В статьях про синтез речи в качестве основной метрики обычно используется MOS — mean opinion score. Респондентам предлагается оценить качество аудио по шкале от 1 до 5. Затем их голоса усредняются, и получается число, обычно около 3.8-4.5. Метрика показывает общее впечатление от синтеза. У нее есть несколько недостатков, поэтому мы разработали другие метрики оценки качества.

Сравнивая 2 похожие модели, по MOS сложно увидеть статистически значимую разницу: результаты получаются одинаковыми в пределах погрешности. Для этих целей разумнее использовать side-by-side тест, или SBS. Он похож на упрощенный до 2 моделей тест MUSHRA. Здесь респондентам даётся выбрать более понравившееся из двух аудио, где один и тот же текст озвучен двумя системами синтеза. Тут становится понятно преимущество этой метрики по сравнению с MOS: если обе модели хорошие, но одна всегда чуть лучше другой, то в SBS будет 100/0, а MOS будут похожими величинами.

Также MOS не говорит ничего конкретного об ошибках модели. Они могут быть нескольких типов: ошибки в произношении (читает мягко модель вместо модэль), в расстановке пауз, в интонациях, а также артефакты аудио (посторонний шум, нечётко выговоренные слова). Помимо SBS с бейзлайном мы меряем также PSER — pronunciation sentence error rate. Эта метрика показывает процент аудио, в которых синтез допускает ошибки. У наших дикторов это число обычно около 5-10% — то есть всего 90-95% предложений человек говорит правильно. Ошибки возникают в основном в корнер-кейсах: мы специально стараемся делать наши тестовые сеты сложными, чтобы видеть узкие места. Оригинальный Tacotron 2 с TP-GST ошибался на нём в более чем 50% предложений. У нашего q-Tacotron — 14% ошибок.

Пример синтеза, когда модель не делает ошибок.

Одним из признаков хорошего синтеза является такой уровень качества, когда на слух невозможно распознать, перед нами искусственная речь или речь живого человека. Для этого мы используем четвёртую метрику — robotness. Для её измерения мы в пропорции 50/50 смешиваем реальные записи от диктора и синтез, и просим респондентов угадать, какое аудио откуда. Затем для искусственных аудио считаем разницу между голосами за синтез и за человека. Если у нас получился идеальный синтез, который говорит неотличимо от человека, то мы должны получить 50/50, то есть метрика robotness будет 0%. Значение метрики в 50% соответствует 25% синтезированным аудио, которые респонденты посчитали произнесёнными человеком. Not great, not terrible.

Примеры синтеза голоса Татьяны Ермиловой (Джой), которые респонденты посчитали произнесёнными человеком (распределение голосов: 3 – за синтез, 7 – за человека).

Сравнение q-Tacotron (кандидат на внедрение в production) с прошлой архитектурой (актуальный на момент измерений production, prod), в которой квантизация каждой фичи была заменена на кластеризацию по всем фичам. She — синтез голоса персонажа Сбер — в озвучке Даниила Щебланова.

SBS-тест самой первой версии Tacotron 2 + TPGST против q-Tacotron, который оказался почти в 3 раза лучше. Che — голос Анастасии Чернобровиной. На нём наиболее заметен прирост качества от использования паузной модели: диктор делала много лишних пауз, Tacotron-2 это выучил, и синтез звучал хуже

Одно из аудио в тестовом сете, на котором заметно, как сильно выросло качество синтеза.

6. Заключение

У нас получился крутой синтез речи. Это видно по метрикам: по PSER мы по чуть-чуть подбираемся к пределу — человеческим 90-95%. А значение MOS 4.59 сравнимо с 4.526, которое авторы из DeepMind сообщили для оригинального Tacotron 2. В то же время разница между метрикой robotness и идеальным значением 0% пока остаётся большой. То есть синтез разговаривает приятно, но всего 25% синтезированных фраз звучат неотличимо от человека. Помимо очевидных случаев с характерными для синтеза ошибками, на эту метрику влияет общее качество аудио. Оно напрямую зависит от вокодера, который используется для озвучивания предсказанных такотроном спектрограмм. В нашем стеке используется LPCNet, он позволил нашему синтезу работать всего на 2 ядрах CPU в потоковом режиме. Но об этом вокодере мы расскажем в отдельном посте, там много всего интересного.

На самом деле работа над нашим синтезом только начинается. Каждую из метрик можно и дальше оптимизировать, делая синтез ещё лучше. Для этого мы продолжаем записывать дикторов и проводим research в области синтеза речи, NLP и около. Приходите к нам решать интересные задачи :)

Комментарии (30)

vagon333
25.03.2021 19:05
#22848034
Не нашел ссылок.
Есть ресурсы, где можно протестировать ваш движок, или это просто реклама «Приходите к нам решать интересные задачи»?
1. sterling239 Автор
  25.03.2021 19:37
  #22848138
  привет! Синтез можно послушать в устройствах Сбера (SberBox и SberPortal) и в мобильных приложениях СберБанк Онлайн и Сбер Салют
  1. vagon333
    25.03.2021 20:15
    #22848294
    +1
    Т.е. нужно приобрести устройства SberBox или SberPortal чтоб послушать синтез?
    
    JohnSmith2
    25.03.2021 21:40
    #22848688
    -2
    Не только. Можно еще поставить СберБанк Онлайн, который конечно получит доступ ко всем вашим контактам и секретикам, составит на вас социальный профиль, и проверит не оппозиционер или террорист ли вы.
    
    fminkin
    26.03.2021 17:34
    #22852202
    Привет! Голоса наших ассистентов, конечно, эксклюзивно доступны в наших девайсах и приложениях с ассистентами.
    
    Следите за анонсами в том числе и на хабре, скоро будут крутые новости по вашему вопросу :)
1. snakers4
  30.03.2021 07:17
  #22862580
  -1
  Попробуйте вот эту статью на Хабре — https://habr.com/ru/post/549480/
  Тут можно потестировать прямо в публичном колабе, доступном в репозитории
  1. snakers4
    30.03.2021 07:23
    #22862588
    И не надо покупать никакие боксы и вот это тоже естественно не надо
    
    конечно получит доступ ко всем вашим контактам и секретикам, составит на вас социальный профиль, и проверит не оппозиционер или террорист ли вы.
    =)

spiral17
25.03.2021 23:09
#22848930
Парни, а вы не пробовали финально доучивать сетку с помощью GAN-механизма? Думаю, это как раз с метрикой robotness помогло бы ;-)
1. oulenspiegel
  26.03.2021 15:01
  #22851398
  +1
  Мы довольно много проделали с GAN'ами экспериментов в своё время, особенно когда занимались синтезом речи знаменитостей (Смоктуновский, Винни-Пух и т.д.). В целом GAN'ы хорошо помогали на старых такотронах, где спектрограмма на выходе сетки при не очень хороших записях в трейне получалась несколько подразмытой. Сейчас на текущих моделях GAN'ы дают прирост в пределах погрешности, но мы продолжаем с ними экспериментировать.

2PAE
26.03.2021 09:19
#22849804
Как бы это дело к чтению электронных книг прикрутить? Пользовался бы однозначно.
1. Mingun
  26.03.2021 16:15
  #22851774
  Ещё лучше — в озвучку игр, которые по каким-либо причинам не имеют русской озвучки. Я бы с удовольствием послушал бы Снейка (Metal Gear Solid) или Шепарда (Mass Effect 2/3).
  1. QtRoS
    28.03.2021 19:43
    #22857564
    Для кого лучше, а для кого нет — у каждого свои интересы. В любом случае было бы здорово получить в открытом доступе такую модель, способную принимать текст и отдавать хорошо озвученный голос.
    
    Mingun
    29.03.2021 17:58
    #22860882
    Ну, озвучку второго Mass Effect'а (а потом и третьего) на русском, насколько я знаю, не делали в том числе и потому, что было много негативных отзывов на озвучку первого. А представьте: прикрутить машину и Шепард тем же самым оригинальным голосом заговорит по-русски :) По-моему, это однозначный win без компромиссов. Только надо, чтобы качество везде было таким же запредельно высоким, как в примерах из этой статьи.
    
    sterling239 Автор
    29.03.2021 19:36
    #22861182
    кстати у тех же авторов, которые придумали такотрон, была статья про speak fluently in foreign language, мы года полтора назад что-то попробовали, и наши голоса научились разговаривали по-английски, но со странным акцентом. История отложилась, но когда-нибудь точно докрутим качество до приличного
1. snakers4
  30.03.2021 07:19
  #22862584
  -1
  попробуйте какие-то голоса отсюда https://habr.com/ru/post/549480/
  там авторы как раз сделали некоммерческое решение, чтобы физики могли юзать для своих нужд бесплатно

dmzubr
26.03.2021 15:06
#22851432
Спасибо за материал, комплексное представление даёт!

При выборе вокодера рассматривали вариант MELGAN?
Если да — то в связи с чем сделали выбор в пользу LPCNet?
У вокодера модель на каждого спикера отдельно или «мульти спикер»?
1. sterling239 Автор
  26.03.2021 15:13
  #22851462
  +1
  Про GAN и в том числе MelGAN можете прочитать ответ выше. Мы много чего пробовали, но там проблемы с воспроизводимостью. В наших экспериментах single speaker LPCNet работает наиболее качественно из тех вокодеров, что могут держать реалтайм на 1 ядре цпу. С мультиспикером еще что-то пробовали, но работает хуже. А вообще про вокодеры тоже напишем статью, там было много подводных камней типа замены подсчета pitch от алгоритма Ына на Reaper
  1. dmzubr
    26.03.2021 15:43
    #22851602
    Если я правильно уловил посыл упомиания GAN в комменте выше, то он наверное не только про вокодер :)
    
    Мы много чего пробовали, но там проблемы с воспроизводимостью
    
    Могли бы мысль чуть раскрыть пожалуйста?
    
    Из своего опыта (справедливости ради — объективной оценки результата по MOS нет) — наиболее удачным сочетанием по скорости-качеству получилась связка: TacotronForward + MelGAN. По крайней мере при очень чистом тренировочном датасете.
    
    sterling239 Автор
    26.03.2021 15:55
    #22851682
    Про воспроизводимость: конечное качество вокодера зависит не только от самого вокодера, но и просто от голоса, на котором он обучается. LPCNet например на мужских голосах работает хуже, чем на женских (разница между ground truth и кописинтезом для мужских голосов на слух больше), или на одном голосе лучше LPCNet, а на другом — WaveGlow. Но еще и результаты из статей иногда не воспроизводятся, ParallelWavegan например у нас совсем плохо озвучивал
    
    dmzubr
    26.03.2021 16:02
    #22851716
    Спасибо!
    С ParallelWavegan тоже не удалось приемлемого получить.
    
    alxmamaev
    27.03.2021 01:33
    #22853554
    Странно, у нас ровным счётом все наоборот parallel wavegan показывает наилучшее качество по отношению звучания и стабильности обучения, в отличие от lpc

Grainne
26.03.2021 17:51
#22852272
Классная статья, спасибо. И супер качество голоса.

Если не секрет, сколько часов аудио было использовано для обучения модели?
1. sterling239 Автор
  27.03.2021 01:37
  #22853564
  Очень много:) После всех чисток 20-40 часов примерно
  1. QtRoS
    28.03.2021 19:45
    #22857572
    А 20-40 часов это реально много? Если не трудно, не могли бы Вы привести примерный расчет того, сколько времени нужно на разметку и предобработку, скажем, одного часа?
    
    sterling239 Автор
    29.03.2021 01:32
    #22858286
    Все дикторы работают по-разному, но в среднем это один час хороших данных за 4-5 часов работы диктора в студии

and7ey
26.03.2021 22:50
#22853268
Уже можно синтезировать свой голос или пока ещё нет? С удовольствием почитал бы статью как это сделать. Сбер, сделаете?)

(Есть сайт, который позволяет такое сделать с английской речью. Но с моим русским акцентом получилось плохо.)
1. fminkin
  29.03.2021 20:11
  #22861310
  Привет! Пока мы сконцентрированы на качестве нашего синтеза, но идея интересная, увидели, спасибо :)

ThePowerfulDeeZ
29.03.2021 14:40
#22860010
Привет! У меня много вопросов)
1. Как работает паузная модель? Я понимаю, как сделать разметку (алайнмент и отдельный токен на паузу если тишина была более x секунд внутри предложения), но как учить отдельную модель? Как seq2seq где на входе текст а на выходе текст с токенами пауз в нужных местах или классификатор для каждого слова нужно ли после него вставить паузу? И на инференсе это работает как препроцессинг текста получается?
2. Использовали ли вы фонемы? На схеме везде текст, берт может кушать текст, но ведь можно перед текст энкодером такотрона через g2p модель символы перегонять в фонемы. Были ли эксперименты с этим?
3. На схеме спектрограммы ты изображал ее с 120 бинами, а не 80, как обычно. Это сильно повлияло на качество голоса в вашем случае?
4. На схеме конечной архитектуры есть word labels predictor который возвращает предсказания для quantized loudness и тд. Выходной размер у сети – 64. Можно поподробнее что на выходе и как это получено? На разметке в том числе. На сколько бинов делилась громкость, как получалась (это норма магнитуды спектрограммы) и тд
5. Также на схеме декодер предсказывает выходной размер в 22 за шаг (хотя размер спектрограммы 120, или 80?) – так задумано?
1. sterling239 Автор
  29.03.2021 17:40
  #22860802
  привет! спасибо за вопросы :)
  
  1. Мы пользовались MFA (montreal forced aligner) со своей калдевой моделькой, чтобы посчитать тайминги слов, и найти места в предложениях, где есть паузы (длительность тишины больше x мс). На инференсе это действительно является частью препроцессинга текста (классифицируем каждый токен, нужно ли после него поставить паузу), запускается до такотрона, а в него подаем текст уже с токенами пауз
  
  2. Пробовали, и там шило на мыло. Сложность фонемного синтеза в том, чтобы построить качественную g2p модель. К сожалению, они ошибаются примерно также часто, как и такотрон, обученный на графемах. Вообще сейчас мы движемся в сторону гибридного синтеза, когда большинство слов озвучиваются как есть, а если синтез в каком-то слове ошибается, мы пишем текстом его транскрипцию (типа интернет -> интернэт)
  
  3, 5. Решили не нагружать текст деталями :) Выход такотрона полностью определяется вокодером, который потом озвучивает спектрограммы. Мы используем LPCNet, для него нужны особенные фичи (20-мерные bark-спектрограммы и 2 отдельных фичи — pitch и pitch gain, в сумме 22), и тако их предсказывает. Про вокодеры мы вообще планируем отдельный большой текст, там все подробно расскажем
  
  4. Размерность текст энкодера оригинального тако = 512. При добавлении новых модулей нам было важно, чтобы по скорости все было не хуже, поэтому, добавив topic embedding и word labels embedding, нам пришлось уменьшить text encoder. Мы уменьшили его до 384, и к нему конкатим дополнительные эмбеддинги (2 по 64). Все фичи делились на 5 бинов по 20%. Среди фичей — громкость (не честная, а просто std вейвформы слова, но этого хватает), скорость (тут сложнее: у нас есть средние длительности произнесения каждой буквы, и мы считаем ожидаемую длительность произнесения слова и фактическую; фича loudness — это отношение действительной к ожидаемой), и три фичи про pitch (наклоны и среднее). Word labels predictor для каждого слова предсказывает бин для каждой из 5 фичей (то есть размерность его выхода [1, num_tokens, 5]), потом для каждой фичи есть свой эмбеддинг слой (размерностями где-то 8, где-то 16), мы их конкатим и получаем финальные 64. Ну и в сумме получается 512 :) И сразу отвечу на возможный вопрос: конкатить оказывается лучше, чем суммировать
  1. ThePowerfulDeeZ
    30.03.2021 06:03
    #22862484
    точно, как в fastspeech2 эмбеддинги используются для бинов pitch и тд) Спасибо за подробный ответ!

Синтез речи виртуальных ассистентов Салют: как мы отошли от классических научных статей, чтобы сделать его человеческим +44

1. Теория

2. История

3. Из коробки всё работает плохо

4. Улучшаем такотрон

5. Меряем качество

6. Заключение

Комментарии (30)

sterling239 Автор

sterling239 Автор

sterling239 Автор

sterling239 Автор

sterling239 Автор

sterling239 Автор

sterling239 Автор