Привет, Habr!

На связи МегаФон и в цикле наших статей поговорим о том, как меняется качество речи в мобильных сетях с развитием новых технологий.

Начнём с небольшого экскурса в историю. С момента изобретения телефона и до конца XX века голос преимущественно передавался по проводам в виде электрических сигналов. С проводами всё просто: звук был аналоговым, то есть не проходил оцифровку, а его качество определялось протяженностью и состоянием медной линии. Но, проводные системы очень плохо масштабировались, поэтому с приходом в жизнь оцифровки началась эра кодирования и сжатия голоса.  Начало кодированию речи положило использование импульсно-кодовой модуляции (ИКМ). ИКМ – это процесс, который позволяет преобразовать аналоговый звук в цифровой поток. Для разборчивой передачи речи достаточно, чтобы аналоговый звук находился в диапазоне 0.3-3.4 кГц, что, согласно теореме Котельникова (Найквиста — Шеннона), позволяет трансформировать его в цифровой поток 64 кБит/с.

К слову, ИКМ-64 кодек G.711 (PCM) до сих пор широко используется в телефонных сетях. Почему?

Данный кодек обладает рядом преимуществ:

  • Простое математическое кодирование, не требует высокой производительности со стороны DSP VoCoder-ов.

  • Нет потери качества при кодировании/декодировании.

Но у ИКМ-64 присутствуют и недостатки:

  • Кодек ограничен полосой речи в 0.3-3.4 кГц, что отсекает, приятную уху, окраску речи высокими гармониками.

  • Скорость передачи данных в 64 кбит/с занимает очень много ресурсов мобильной сети (в проводных сетях такой проблемы, как правило, нет, поэтому G.711, до сих пор крайне популярен в проводной VoIP-телефонии).

  • Отсутствует адаптация битейта кодека к потерям в передаче данных.   

Вернёмся к мобильным сетям и подробнее рассмотрим речевые кодеки.

Вышеупомянутая скорость 64 кбит/с крайне высока для передачи в мобильных сетях. Соответственно, использование такого потока существенно уменьшило бы ёмкость сети. Кроме того, чем больше скорость, тем сложнее её «вытянуть» на краю соты (Сота – это наименьшая единица покрытия сотовой связи). Следовательно, покрытие от базовой станции заметно бы снизилось. Поэтому на радио интерфейсе применяется сжатие. История развития «мобильных» кодеков заслуживает отдельной статьи, скажу лишь, что наибольшую популярность в современных сетях получили кодеки: AMR, WB-AMR, EVS.

AMR

Базовый кодек в мобильной сети.
Кодек преобразует голос в полосе 0.3-3.4кГц в цифровой поток от 4.75 до 12.2 кБит/с.
Имеет адаптацию (битрейт кодека выбирается в зависимости от радиоусловий).
Частота дискретизации: 8 кГц.
Применяется в сетях GSM, UMTS, VoLTE.

WB-AMR (wide-band AMR)

Базовый кодек в мобильной сети.
Частота дискретизации: 16 кГц.

В мобильных сетях используется в двух конфигурациях:

  1. Поток от 6.6 до 12.65 кБит/с передаёт голос в полосе 0.1-6.4 кГц Используется в сетях GSM, UMTS, VoLTE.

  2. Поток от 6.6 до 23.85 кБит/с передаёт голос в полосе 0.1-7.0 кГц    Является «базовым» кодеком в сетях VoLTE, опционально может применяться в сетях UMTS.

К слову, в России МегаФон первый, кто в большинстве регионов РФ внедрил в сети UMTS кодек 23.85 кБит/с, предоставив абонентам без поддержки VoLTE  высокое качество речи.

EVS

Самый современный на данный день кодек, использующийся в мобильных сетях. В возможности кодека заложен битрейт вплоть до 128 кбит/с, покрывающий весь слышимый диапазон (Full Band). Но, учитывая критерии разумности и баланса между качеством и ёмкостью, в мобильных сетях кодек применяется в режиме WB (частота дискретизации 16 кБит/с) и SWB (частота дискретизации 32к) с максимальной скоростью 24.4 кбит/с.

Кодек EVS-SWB позволяет кодировать голос в полосе 0.05-16кГц, кроме того, данный кодек изначально проектировался под мобильные IP сети и позволяет минимизировать влияние типовых проблем IP сетей на качество речи.

Кодек EVS применяется только в сетях VoLTE. Также, в отличии от базового WB-AMR, не все телефоны поддерживают данный кодек (обычно, EVS доступен в современных моделях смартфонов среднего и высокого ценового сегмента)  

Стоит заметить, что МегаФон первым в России запустил в коммерческую эксплуатацию кодек EVS, который с 2018 года работает в нашей VoLTE сети.

Оценить влияние кодека на воспринимаемое качество можно по графику ниже, где приведена оценка качества мобильных кодеков.

Качество речи в зависимости от используемого кодека и битрейта
Качество речи в зависимости от используемого кодека и битрейта

Адаптация (понижения скорости кодека) является базовым механизмом для мобильных сетей, поэтому при ухудшении качества канала связи, качество снижается незначительно в сравнении, например, с кодеком Opus, который используется в популярных приложениях, таких как Zoom, WhatsApp и других, что видно на графике ниже.

Зависимость качества речи MOS (8-бальная шкала) от кодека и битрейта.
(с) Anssi Rämö, Nokia Technologies. 
https://www.researchgate.net/figure/Clean-speech-MOS-scores-with-increasing-bitrate-in-kbit-s_fig3_282605143
Зависимость качества речи MOS (8-бальная шкала) от кодека и битрейта. (с) Anssi Rämö, Nokia Technologies. https://www.researchgate.net/figure/Clean-speech-MOS-scores-with-increasing-bitrate-in-kbit-s_fig3_282605143

А что будет дальше, например, в сетях 5G (VoNR)?

В настоящее момент разрабатывается кодек IVAS (Immersive Voice and Audio Services), который по своей сути будет являться продолжением развития кодека EVS, дополняя его рядом возможностей, таких как передача звуков с нескольких микрофонов телефона. Это позволит создать пространственный эффект присутствия, дополняющий, например, VR-картинку живой конференции, а также комфортно чувствовать себя в различных вариациях мета-вселенных, ощущая их как реальный мир. J

Как только технология появится в «железе», будем стараться, самыми первыми дать её нашим абонентам.

Как же операторы измеряют качество речи?

Для оценки качества речи используется такая характеристика как MOS (Mean Opinion Score)- как следует из названия это буквально субъективная средняя оценка качества по 5 бальной шкале.

Что это такое? Представим себе огромный актовый зал, где мы собрали большую выборку людей разного пола и возраста и попросили прослушать сначала оригинальный отрывок разговора двух людей, а потом этот же отрывок, прошедший через мобильную сеть. Речь в ней подвергалась процессам кодирования и декодирования, а также шумам в радиоканале, задержкам, потерям пакетов и прочим факторам.

После этого люди должны расставить оценки, на сколько они услышали разницу между изначальным звуком и сэмплом, прошедшим через мобильную сеть.

Оценка

Влияние

5

Нет разницы

4

Речь чёткая, разборчивая, но слышны незначительные искажения

3

Речь разборчивая, но отчётливо заметны искажения в речи

2

Из-за искажений часть слова не удаётся разобрать

1

Большинство слов не удаётся разобрать, разговаривать почти невозможно

Усреднив все полученные от разных людей оценки, мы получим ту самую среднюю оценку качества речи MOS.

Что характерно, эта оценка всегда будет строго меньше 5, так как даже если 2 раза подряд включить оригинальный сэмпл, то всё равно какая-то часть людей услышит разницу. Так устроено наше восприятие, иногда мы слышим то, чего нет.

И что же, чтобы узнать MOS операторы постоянно собирают людей для прослушивания?

Конечно, нет. Исследования в области восприятия человеком звуковых искажений позволили создать довольно точные математические модели, показывающие какую оценку поставили бы люди, если бы мы проводили тест на большой выборке. Наиболее популярные алгоритмы для оценки MOS это PESQ и POLQA. Данные алгоритмы анализируют характер искажений (это важно, так как некоторые искажения наше ухо не замечает совсем, в то время как другие сразу «режут слух»), взвешивают их влияние и рассчитывают финальную оценку MOS.

Сегодня анализ качества речи у оператора выглядит так: два тестовых телефона звонят друг на друга и проигрывают заранее известный диалог людей. Дальше специальное ПО сравнивает полученный сэмпл с оригиналом, определяет характер внесённых помех и по алгоритму POLQA (или PESQ) оценивает, какую бы среднюю оценку поставили бы люди.

МегаФон регулярно проводит измерения качества речи собственной сети и сети конкурентов, чтобы в каждой локации быть первым по качеству речи.

Для этого мы используем как драйв-тесты с измерительным оборудованием, так и современные системы CEM (Customer Experience Management), позволяющие удалённо контролировать качество речи каждого звонка абонента и выявлять места, где качество «проседает».

Пример того, как оператор видит в системе СЕМ качество звонка между двумя абонентами
Пример того, как оператор видит в системе СЕМ качество звонка между двумя абонентами

Если будет интересно в следующем цикле обязательно расскажу детально как в МегаФоне построен мониторинг качества услуг.

Кстати, ходят слухи, что HD голос работает только при звонках внутри сети МегаФон, а между операторами бегает старый добрый G.711.

Отчасти это правда, но уже не совсем. МегаФон активно продвигает тему перевода межоператорских стыков на SIP. Например, уже сейчас в Москве между МегаФон и МТС полноценно работают HD вызовы, надеюсь, что в скором будущем и другие операторы модернизируют архитектуру своих сетей и присоединятся к межоператорскому SIP обмену.

Подытожить тему качества речи хочется некоторыми исследованиями

Если говорить про Москву, то по качеству речи (MOS) МегаФону нет равных. Это подтверждается как регулярными внутренними драйв-тестами, так и независимым сравнением. Например, исследование от компании DMTel:

DMTel (www.dmtel.ru), «Под катком санкций. Мобильная связь в Москве», май 2022
DMTel (www.dmtel.ru), «Под катком санкций. Мобильная связь в Москве», май 2022

Надеюсь, Вам было интересно!

Про какие ещё мобильные технологии вы хотели бы узнать? Пишите в комментариях.

Валентин Кузьмин

Главный эксперт по сквозной оптимизации в компании «МегаФон»

Комментарии (13)


  1. Vyaza
    15.09.2022 19:47

    Очень заинтересовало утверждение

    Скорость передачи данных в 64 кбит/с занимает очень много ресурсов мобильной сети

    Как так получается, что типичная скорость доступа в интернет в современных мобильных сетях измеряется десятками мбит/с, а пережатый донельзя G.711 при этом считается тяжёлым кодеком?


    1. geher
      15.09.2022 20:44
      +1

      Скорее всего тут небольшая путаница во времени. Не занимает, а занимал много ресурсов.

      В те времена, когда в мобильной связи использовался GSM первого и второго поколения, линии связи были не столь развиты. Это сейчас линия в дом может гигабитами измеряться. А когда-то вся совокупная емкость каналов из немаленького города жалкими мегабитами могла измеряться.

      Впрочем, в сетях второго поколения, которые никуда пока не делись, скорость передачи данных до мегабита сильно не дотягивает. Да и в LTE местами не всегда даже несколько мегабит есть.


    1. Valen-rus Автор
      15.09.2022 23:36
      +2

      Хороший вопрос. Ответ я бы разделил на 2 части:

      1) Сети 2G и 3G. Это сети с так называемой "коммутацией каналов", то есть в этих системах под каждый телефонный звонок резервируется свой отдельный радиоканал. Количество каналов в соте ограничено и чем выше битрейт кодека, тем кратно меньше оставалось бы суммарно каналов. Или совсем по-простому, то каждая сота обслуживала бы меньше одновременных звонков.

      2) Пакетные сети (LTE, 5G) Тут всё намного интереснее. С одной стороны да, глядя на характеристики даже LTE, кажется, что при скоростях под 1 Гбит/с, 64к кодек это не серьёзно. Но тут есть несколько важных моментов: высокие скорости доступны только в идеальных радиоусловиях (когда нет помех и телефон около антенн базовой станции); передача "голоса" симметрична т.е. от БС к телефону(DL) и от телефона к БС(UL) необходим одинаковый битрейт.

      Ситуация в корне меняется, когда абонент находится, на краю соты, например за бетонными стенами квартиры. И в этих условиях именно телефон становится ограничивающим фактором. Если БС обладает достаточным запасом по мощности, то мощность телефона в LTE всего 200мВт (для сравнения, разрешенная в РФ мощность WiFi 100мВт). И несмотря на то, что LTE мощность в 2 раза выше, стоит понимать, что БС расположены, как правило, в десятки раз дальше, чем точки доступа WiFi. В этих условиях скорость в UL идёт уже на килобиты. Это основная причина. Есть ещё и ряд второстепенных причин, например, при меньшем битрейте- меньше расход АКБ смартфона вовремя разговора. Но главное, при битрейте 24кбит/с современными кодеками обеспечивается качество почти не отличимое от несжатого оригинала. Повышать битрейт уже не имеет смысла, т.к. куда большее влияние на звук начинает оказывать не кодек, а конструктивные ограничения микрофона и динамика телефона.


    1. Alpensin
      16.09.2022 14:38

      Он всегда 64 кбит/с. А современные адаптируются под состояние канала и нагруженность соты.


    1. edo1h
      17.09.2022 02:00

      а пережатый донельзя G.711

      вообще-то в g.711 по сути нет сжатия, только логарифмическое кодирование уровней.


  1. MechanicusJr
    15.09.2022 19:51

    С момента изобретения телефона и до конца XX века голос преимущественно передавался по проводам в виде электрических сигналов.

    А не преимущественно ???

    Но, проводные системы очень плохо масштабировались, поэтому

    Поэтому сначала в США появились первые АТС, потом в Кремле, а там и до России дело дошло.

    И что же, чтобы узнать MOS операторы постоянно собирают людей для прослушивания?

    Конечно, нет

    Конечно собирают, но не для этого


    1. Valen-rus Автор
      15.09.2022 22:23

      А не преимущественно ???

      Также, кроме проводов, использовались радиорелейные, тропосферные, чуть позже спутниковые системы телефонной связи.

      Поэтому сначала в США появились первые АТС, потом в Кремле, а там и до России дело

      Под масштабируемостью, конечно, имеются ввиду последние десятилетия. Остуствие места в кабельных канализациях; огромные площади в центре городов под АТС; значительное энергопотребление делали дальнейшее развитие "меди" крайне нерентабельным мероприятием.


      1. KbRadar
        16.09.2022 15:01

        Переговорная труба оказалась незаслуженно забытой.


      1. MechanicusJr
        17.09.2022 00:18

        Остуствие места в кабельных канализациях; огромные площади в центре городов под АТС; значительное энергопотребление делали дальнейшее развитие "меди" крайне нерентабельным мероприятием.

        The experimental TDM system was developed by RCA Laboratories between 1950 and 1953. In 1962, engineers from Bell Labs developed the first D1 channel banks, which combined 24 digitized voice calls over a four-wire copper trunk


    1. Sun-ami
      15.09.2022 22:27

      В конце XX века для межстанционной связи использовались уже преимущественно цифровые оптоволоконные каналы связи.


  1. Sun-ami
    15.09.2022 22:23

    G.711 (PCM) до сих пор широко используется в телефонных сетях. Почему?

    Нет потери качества при кодировании/декодировании.
    G.711 — это кодирование с потерями — по сути это преобразование 12..13 битных целых чисел в формат с плавающей запятой, с 5-битной мантиссой и 3-битным порядком. При таком преобразовании ошибки округления создают шум, который, хоть и маскируется голосом, хорошо заметен при разговоре по громкой связи.


    1. Valen-rus Автор
      16.09.2022 01:04
      +1

      В целом да, так и есть. Не все реализации G.711 в полном смысле являются LLC кодеками. Полноценным LLC можно назвать лишь G711.0. https://www.itu.int/rec/T-REC-G.711.0/en Но, в данном случае не хотелось сильно перегружать статью, на мой взгляд, малозначимыми подробностями.

      Что качается шумов на громкой связи, не уверен, что это именно ошибки кодера. Цифровое оборудование специально вносит в линию так называемый "комфортный шум", чтобы создать психологический эффект рабочего канала связи. (Про "Comfort noice" есть подробные статьи на WiKi)


      1. Sun-ami
        16.09.2022 10:38

        Шумы округления G.711 сильно отличаются от равномерного белого шума, который добавляет генератор комфортного шума — это треск с громкостью, меняющейся синхронно с громкостью речи — немного похоже на нелинейные искажения. Собственно, и слышно их тогда, когда уровень нелинейных искажений аудиотракта низкий.