Главная
Машинное обучение применили в звуке. Новый аудиокодек сжимает речь в 3 Кбита/с

Машинное обучение применили в звуке. Новый аудиокодек сжимает речь в 3 Кбита/с +25

03.03.2021 10:28

Data_center_MIRAN 23 5900 Источник

Сегодня видеочаты стали частью нашей повседневной жизни. Хотя пропускная способность сетей растёт, по-прежнему востребована качественная связь на низком битрейте. Проблема особенно для звука, потому что именно звук передаёт информацию в чате. На самом низком битрейте принято использовать параметрические кодеки с роботизированным голосом, а не нормальные кодеки, которые описывают форму сигнала.

Поэтому разработчики из компании Google разработали высококачественный речевой кодек Lyra с очень низким битрейтом. В разработке использованы генеративные модели, обученные на тысячах часов данных. Теперь машинное обучение применили и в этой области.

Lyra на 3kbps сжимает речь примерно как Opus на 8kbps.

Базовая архитектура кодека Lyra довольно проста. Признаки, то есть отличительные речевые атрибуты, извлекаются из речи каждые 40 мс, а затем сжимаются для передачи. Сами признаки представляют собой мел-спектрограммы (Mel Spectrogram) — список чисел, представляющих речевую энергию в различных частотных диапазонах, которые традиционно используются для перцептивной релевантности, поскольку они моделируются по образцу человеческого слуха. С другой стороны, генеративная модель использует эти признаки для воссоздания речевого сигнала. В этом смысле Lyra очень похожа на другие традиционные параметрические кодеки, такие как MELP.

Традиционные параметрические кодеки просто кодируют критические параметры речи, чтобы воссоздать её на стороне приёма. Они показывают низкий битрейт, но часто звучат роботизированно и неестественно. Эти недостатки привели к разработке нового поколения генеративных моделей звука, которые произвели революцию в этой области, сумев не только различать сигналы, но и генерировать совершенно новые.

Первой генеративной моделью была WaveNet от DeepMind. Она проложила путь для остальных. Кроме того, WaveNetEQ, основанная на генеративной модели система сокрытия потерь пакетов, используемая в настоящее время в Duo, продемонстрировала, как эта технология может быть использована в реальных сценариях.

Новый подход к сжатию

Для Lyra была разработана новая модель. Lyra использует низкий битрейт, как у параметрических кодеков, но за счёт генеративных моделей передаёт высокое качество звука, наравне с самыми лучшими кодеками формы сигнала (waveform codecs), которые используются в большинстве медиаплатформ. Недостатком кодеков формы сигнала является то, что они сжимают и передают по сети целые сэмплы, что требует более высокого битрейта и в большинстве случаев не является необходимым для достижения естественного звучания речи.

Одна из проблем генеративных моделей — их вычислительная сложность. Чтобы упростить вычисления, Lyra использует более дешёвую рекуррентную генеративную модель, вариацию WaveRNN. Она медленнее, но генерирует параллельно несколько сигналов в разных частотных диапазонах, которые позже объединяются в один выходной сигнал с требуемой частотой дискретизации. Этот трюк позволяет Lyra работать не только на облачных серверах, но и на устройствах среднего класса в режиме реального времени (с задержкой обработки 90 мс, что соответствует традиционным речевым кодекам). Эта генеративная модель затем обучается на тысячах часов речевых данных и оптимизируется, подобно WaveNet, для точного воссоздания входного звука.

Сравнение с существующими кодеками

Основная задача Lyra состояла в том, чтобы обеспечить наилучшее качество звука на битрейте конкурентов или лучше. В настоящее время самый популярный в VoIP-телефонии опенсорсный кодек Opus на битрейте 32 Кбита/с обычно обеспечивает качество речи, неотличимое от оригинала. Но его можно использовать и на низких битрейтах, вплоть до 6 Кбит/с. Другие кодеки способны работать со скоростью ещё ниже (Speex, MELP, AMR), но каждый из них страдает от артефактов и роботизированного звучания.

Lyra сейчас специализируется на битрейте 3 Кбита/с, и по тестам превосходит все кодеки на этом битрейте, даже Opus на скорости 8 Кбит/с. Lyra может использоваться везде, где пропускной способности недостаточно для более высокого битрейта.

Чистая речь

Оригинал
Opus@6kbps
Lyra@3kbps
Speex@3kbps

Шумное окружение

Оригинал
Opus@6kbps
Lyra@3kbps
Speex@3kbps

Образец

Opus@6kbps

Lyra@3kbps

Модель Lyra обучалась на тысячах часов звука на более чем 70 языках из опенсорсных аудиотек.

Сопряжение Lyra с новейшими видеокодеками типа AV1 позволит проводить видеоконференции даже для пользователей на коммутируемом соединении 56 Кбит/с.

Google продолжит улучшать Lyra, задействуя нейросети на GPU и TPU (тензорные процессоры). Возможно, получится обучить кодек сжимать музыку и другой звук.

Комментарии (23)

v1000
03.03.2021 13:42
#22759336
+1
Немного странное ощущение uncanny valley в голосе, вроде и звук лучше и речь чётче, но всё равно как-то не по себе.
1. ganzmavag
  03.03.2021 13:56
  #22759422
  Мне напомнило эффект автотюна, которым грешат исполнители поп-музыки.
  Кто не знаком со звукозаписью — это программа, которая позволяет подстроить голос под музыку, обычно используется, когда певец не попал в ноту, но вообще может собрать песню даже если человек вообще изначально не пел, а говорил. Вот там побочный эффект такие оттенки в голосе как раз.

amarao
03.03.2021 13:42
#22759340
Будущее приближается быстрее, чем мы ожидали.

У Винджа описывались видеоконференции будущего — там компьютер реконструировал и аудио и видео, и мог давать иллюзию общения даже на канале в несколько сот бод (бит в секунду) — в этой ситуации передавалось "содержание", а "оформление" воссоздавалось локально (включая мимику, пластику тела, интонации и т.д.).
1. S-trace
  03.03.2021 13:55
  #22759414
  Формально, бод != бит в секунду.
  Бод — изменение состояния сигнала (low->high, high->low), а скорость в битах в секунду будет равна скорости в бодах только для NRZ (no return to zero) кодирования, насколько я помню. Для других схем кодирования (когда нужна помехоустойчивость или самосинхронизация) скорость в бодах будет меньше скорости в битах.
1. 3263927
  04.03.2021 00:41
  #22762192
  я читал эту книгу!
1. dagen
  04.03.2021 17:54
  #22765606
  Ну правда у него они собирались только на месте по требованию, а пересылались без таких умных сжатий. Не помню, какой персонаж слежку вёл, но когда этому персонажу показалось, что реконструируется что-то не то, он тут же в сырые данные полез и сильно удивился (что нанороботы поздыхали почти все уже).
1. cepera_ang
  04.03.2021 20:46
  #22766192
  Уже есть такое, ага. Нвидия передаёт кипоинты лица и реконструирует ганом на второй стороне. Пока это станет реально трудноотличимо и голос начнёт передаваться чистым распознаванием и обратным TTS с учётом реального голоса говорящего — вопрос пары/пятка лет.

HardWrMan
03.03.2021 14:05
#22759462
Распознаём речь, передаём текст, реконструируем речь синтезатором. Для передачи текста достаточно сотен, а то и десятков бит/c.
1. vmkazakoff
  03.03.2021 14:11
  #22759506
  По сути да. Но тут ещё кроме текста передали интонации, паузы, темп, тембр и звучание.
  
  Я бы не хотел попасть на звонок, где бы все мои коллеги озвучивались одинаковым голосом робота )))
  1. Areso
    03.03.2021 16:01
    #22760104
    Нужны самплы коллег :)
    А потом можно будет делать синтез из их речи по их самплам.
    Будет все равно немного жутко, но голоса будут похожи на оригиналы. Жаль, что только голоса, не речь целиком.
    Но, если китайцы со своими тоновыми системами помогут, то и речь целиком будет доступна когда-то в будущем для восстановления (если кодировать не только текст, но и паузы, темп, выше-ниже и т.д.).
    
    vmkazakoff
    03.03.2021 16:12
    #22760162
    Что, собственно, уже и сделали. Кодируют паузы, темп, интонации и передают в виде потока сразу. Само собой можно передать не потоком, а записью. Но пока вместе с сэпмплом это все идёт неразрывно.
    
    Наверное можно сделать звонилку, которая в начале просит нового юзера "рассказать о себе" для анализа речи, делает из этого анализа слепок и при установлении нового контакта передает этот слепок, а потом отдельно только данные. Может быть это даже даст ещё экономию. Но мне кажется что это будет уже совсем незначительно влиять на битрейт.
    
    HardWrMan
    03.03.2021 18:20
    #22760774
    Наверное можно сделать звонилку, которая в начале просит нового юзера «рассказать о себе» для анализа речи, делает из этого анализа слепок и при установлении нового контакта передает этот слепок, а потом отдельно только данные. Может быть это даже даст ещё экономию. Но мне кажется что это будет уже совсем незначительно влиять на битрейт.
    
    Я помню первые попытки локального распознавания голоса. Была такая программка, работала под XP, лет 10 назад, а то и 15. Только английский. После установки она предлагала тебе прочитать несколько страниц текста и чем чище ты прочитаешь тем чётче она срабатывала. И ведь работала: можно было голосом управлять медиаплеером, например.
    
    Это я к чему. Если на каждого человека выводится определённая математическая формула параметров, которые описывают конкретный тембр, скорость и прочие параметры, то всегда можно при установке соединения же разом передавать такой пакет, а остальное уже в реальном времени слать как разобранную на параметры речь в реальном времени и реконструировать на стороне слушателя. Ведь уже и мобильные телефоны гораздо мощнее тех компьютеров, что были те же 15 лет назад.
    
    PS Я сварщик не настоящий, так что я ничего не понимаю в этих нейросетях и прочих кодеках. Но ведь технически что-то из вышесказанного можно же реализовать?
    
    cepera_ang
    04.03.2021 20:48
    #22766206
    Всё так и будет, рано или поздно будут делать эмбеддинг конкретного голоса. Да и уже делают, просто по сорок тысяч отсчётов в секунду и человеческое ухо супер-сильно палит фальш, и поэтому для качественной реконструкции нужно очень уж много вычислений. Но это пока, вот и эта работа лишь очередной шажок на пути, но прогресс за три-пять лет — фантастический.

osmanpasha
03.03.2021 14:08
#22759486
А что там с тяжеловесностью кодека? Надо иметь видеокарту с CUDA?
1. namikiri
  03.03.2021 15:56
  #22760078
  Тот же вопрос. Тактично умолчали. Да и вообще, кого нынче волнует производительность, у всех ведь дома суперкомпьютеры с фермами из видеокарт.
1. cepera_ang
  04.03.2021 20:50
  #22766222
  К тому моменту как пойдёт в массовый продакшн уже каждый телефон будет с десяти терафлопсным МЛ-ускорителем на борту (читай как 1080ти пять лет назад). И это не преувеличение — в айфонах такое уже пару лет, в топовых снапдрагонах есть, в киринах есть. Осталось только спуститься в массовый сегмент, устаканить API и вперед.

Schokn-Itrch
03.03.2021 14:31
#22759624
Модель Lyra обучалась на тысячах часов звука на более чем 70 языках из опенсорсных аудиотек.

1. Lyra обучалась на миллионах часов звука.
2. Lyra обучалась на более чем 70 языках из опенсорсных аудиотек.

Результат не был равен (1|2). Миллионы часов в основном английской речи. Причем вполне конкретной речи.

Можно привести в пример, хоть распиаренный OPUS/CELT, хоть SPEEX, хоть менее популярный codec2. Русская речь всегда задирает битрейт относительно примеров для подобного звучания.

Кроме того, соотношение «новое враг хорошего» должно быть очень велико. AMR/MP3/AAC в аудио и h.264 в видео настолько закрепились, что для «корпоративов», от которых зависит все, выгода должна быть тысячекратной. И пресловутые «коммьюнити» это изменить не способны от слова «никак». Железки стоят денег, очень больших денег. Много железок — много денег. Мало железок — мало денег.
1. Areso
  03.03.2021 16:02
  #22760114
  Интернет-полосы для корп клиентов тоже стоят денег, причем — больших.
1. amarao
  03.03.2021 18:38
  #22760874
  Приходит один zoom и всё поменялось. Условный teams рядом с ним уныл и вял.
  1. cepera_ang
    04.03.2021 20:54
    #22766240
    Ладно teams, представь если бы лучшее доступное в 2020 был какой-нибудь webex, а зума и хенгаутс и фейстайма не существовало и грянула эта пандемия с удалёнкой, вот это был бы номер.
1. cepera_ang
  04.03.2021 20:53
  #22766232
  Когда это появится в браузере и смартфонах гугла, а потом эпл ответит своим вариантов на айфон — все будут просто класть болт на "закреплённые корпоратами системы" и звонить с собственных девайсов, когда нужно на самом деле продуктивно пообщаться, а не провести время на митинге. Как мы прекрасно это увидели в 2020 году :)

makkarpov
03.03.2021 16:43
#22760320
+2
Ну, тот же MELPe 2400/1200/600 бит/с существует с лохматых годов, и в целом дает вполне неплохое качество звука. При этом работает на микроконтроллерах лохматых годов, не требуя генеративных моделей.

При этом вроде были сообщения, что "нейронные" кодеки могут "додумывать" и менять близкие по звучанию слова. Так что мне кажется, что куда-то не туда разработка кодеков повернула.

0x131315
04.03.2021 09:13
#22762888
Шикарно.
В отличии от классических кодеков, оно различает только речь, не воспринимая шумы.
Поэтому данные о шумах не сохраняются и не передаются.
Поэтому слышно только человека, чисто и ясно, как в тихой комнате. Хотя в оригинале уровень шумов существенный.
Такое нужно в телефоны внедрять, хотя бы даже просто как высокоэффективный фильтр для микрофона, с кодированием и декодированием на одной и той же стороне.
А если внедрить полноценно — там, где сейчас плохой сигнал и собеседника с трудом слышно, проблем со связью станет куда меньше.