Некоторые клиенты Voicebox хотят, чтобы бот говорил особенным голосом. Что ж, раз нужно — значит, можно, и скоро адаптивный синтез будет доступен для всех. Пока же мы экспериментируем с голосами в тестовом режиме, и кое-чем я хочу поделиться с вами в этой статье.

Что такое адаптивный синтез

Под адаптивным синтезом понимается простая вещь: генерация голоса на основе представленных образцов речи. Тот, кто хочет, чтобы бот говорил его голосом, записывает определенное количество фраз, на основе которых программа создаст голосового бота. Часть слов будут переменными, то есть заменяемыми. И эти переменные, которые будут использоваться в речи, программа синтезирует на основе записанных фраз. Причем так, что голос будет звучать практически не отличимо.

Почему это важно

Главная проблема роботов в том, что люди не хотят с ними общаться. Как только большинство людей понимают, что говорят с роботом, они бросают трубку. Один из выходов в таком случае — просто надиктовать все нужные фразы. Но что если этих фраз сотни и тысячи? Уже запись одних только имён и отчеств затянется надолго. А ведь есть ещё суммы, товары и адреса, как в предыдущем примере.

Тут-то и приходит на выручку адаптивный ИИ, генерирующий переменные тем же голосом, что и диктор. В результате распознать робота становится куда сложнее. На примерах ниже вы в этом убедитесь. И потому существенно снижается и количество отказов. Кроме того, отпадает необходимость в записи тысяч слов и фраз, что тоже выгодно заказчику.

Да, развитие ИИ привело к появлению широкого спектра инструментов преобразования текста в речь (TTS). Но они уже давно не инновация. Максимум генераторов TTS вроде Murf.ai, Beyondwords, Play.ht, Lyrebird AI, Lovo.ai, Speechify — помочь в разработке голосовых помощников и озвучке текста, но сделать его человечнее такими средствами невозможно.

ChatGPT, DALL-E и VALL-E

После бурного спроса на ChatGPT некоторые умельцы сделали гайды по добавлению к нему функций озвучки. И, конечно, стоило ожидать появления VALL-E. Это инструмент Microsoft для того же TTS, но который может имитировать голос человека. Как уверяют, ему достаточно взять трёхсекундную запись чьего-то голоса, и он готов воспроизвести его, превратив любые написанные слова в речь с реалистичной интонацией и эмоциями.

Сервис анонсировали в январе, но он пока недоступен для публичного использования, хотя, вполне вероятно, его можно использовать для генерации любого текста из любого голоса.

VALL-E базируется на технологии EnCodec, её представили в октябре 2022 года. На GitHub уже есть неофициальная PyTorch-реализация VALL-E на этом токенизаторе.

В отличие от иных средств, VALL-E генерирует дискретные коды аудиокодеков на основе подсказок фонем и акустических кодов. Технологию можно комбинировать с GPT-3. По сути, VALL-E анализирует звук человека, далее EnCodec помогает разбить её на дискретные компоненты («токены») и при помощи обучающих данных пытается представить другие фразы с тем же голосом.

Как это работает у Voicebox

Мы уже работаем над внедрением таких решений в бизнес. Для адаптивного синтеза в Voicebox мы выбрали перспективную технологию Brand Voice Call Center. Её преимущество перед другими в том, что речь генерируется целиком, это не склейка заранее записанных шаблонов и переменной части. И при этом она лучше справляется, например, с генерацией интонаций, делая речь более живой.

Есть, конечно, и маленькое ограничение. Для синтеза нужны короткие тексты: фразы стоит дробить, стараться не доводить их до 24 секунд, а длина фразы не должна превышать 250 символов вместе с переменной частью.

Для робота в нашем случае достаточно нескольких фраз. Модель SpeechKit Brand Voice копирует голос из шаблона (аудиофайла, в котором диктор произносит определённую фразу) и озвучивает переменную часть. Результат — синтезированные цельные предложения вместо склейки голоса диктора и стандартного голоса робота.

А теперь давайте я покажу, как работает адаптивный синтез, а затем расскажу вкратце, почему он так важен для компаний.

Примеры

Возьмем пару наших сценариев, которые мы описывали в предыдущих статьях, и посмотрим, как синтезирует переменные бот. Синтезированные записи доступны по ссылке.

Сценарий №1. Секретарь

Взяли следующие фразы для озвучивания:

  • Здравствуйте, представьтесь, пожалуйста! Очень приятно, {name}! Вы хотите оставить сообщение для директора? Слушаю Вас, {name}, говорите!

Синтезировали несколько вариантов для переменной:

  • {name} 1) Виктор Сергеевич 2) Анна Евгеньевна 3) Антон Антонович

Сценарий №2. Менеджер интернет-магазина

Взяли следующие фразы для озвучивания:

  • Добрый день, {name}! Вы оформили у нас заказ на сумму {amount} рублей. В заказ входят следующие товары: {order}.

  • Мы доставим заказ по адресу {address}. Спасибо, {name}! Заказ будет доставлен вам {day}, в {time}.

Синтезировали следующие варианты для нескольких переменных:

  • {name} 1) Илья Юрьевич 2) Андрей Петрович

  • {amount} 1) семь тысяч восемьсот 2) девятнадцать тысяч пятьсот

  • {order} 1) свитер 2) кеды

  • {address} 1) улица Ленина, дом один, квартира два, 2) улица Счастливая, дом пять, квартира двенадцать 

  • {day} 1) первого апреля 2) пятого декабря

  • {time} 1) десять часов 2) двадцать часов

Точно так же робот сможет озвучить и любые другие слова и фразы, записанные в переменные заранее или по ходу диалога.

Вместо заключения

Итак, что мы получаем, используя технологию адаптивного синтеза? Две важные вещи:

  • Персонализация. Адаптивный синтез речи позволяет генерировать фразы, уникальные для каждого клиента. Благодаря этой технологии бот сможет обращаться к каждому по имени-отчеству, расскажет о заказе, назовет время доставки. При этом человек даже не всегда заметит, что разговаривает с роботом, что сделает общение более естественным и приятным и, конечно, снизит количество отказов.

  • Сокращение затрат. Адаптивный синтез речи может существенно снизить затраты на озвучивание контента для магазина или сервиса. Он позволяет быстро генерировать естественное озвучивание, без ограничений по количеству позиций каталога, имен и так далее. Представим, сколько времени уйдёт на озвучивание диктором тысяч фраз, а с адаптивным синтезом достаточно записать несколько образцов речи.

Таким образом, адаптивный синтез повышает лояльность клиентов и помогает существенно снизить затраты, особенно временные.

Автор: Роман Андреев

Комментарии (3)


  1. rsashka
    13.06.2023 07:17
    +2

    Главная проблема роботов в том, что люди не хотят с ними общаться. Как только большинство людей понимают, что говорят с роботом, они бросают трубку. Один из выходов в таком случае — просто надиктовать все нужные фразы.

    Уже сейчас голос робота не отличишь от голоса реального человека, и проблема не в его голосе, а самом факте того, что это робот.


    1. telecomgod Автор
      13.06.2023 07:17

      Но каждому человеку ещё нужно выяснить, что они действительно говорят с роботом. Неспециалисты в этой области не сразу понимают, как отличить человека от робота. И это же к лучшему, если робот ещё и эффективнее справляется со своей роботой, чем человек.


      1. rsashka
        13.06.2023 07:17
        +1

        И это же к лучшему, если робот ещё и эффективнее справляется со своей роботой, чем человек.

        Это с чего бы сделан такой вывод? Если только из-за сложности отличить речь человека от робота, то это опять же не показатель "эффективности", т.к. сейчас подобные роботы применяются в первую очередь в спамерских звонках, которые сбрасывают практически все, не зависимо от того, робот звонит или человек. А при работе с голосовым меню качество, точнее "неотличимость от человеческой речи" не важна, так как в этом случае и так понятно, что речь идет с автоматом.