Содержание:
Введение
Понятие объёмного звука и его восприятие человеком. Типы внешних акустических систем многоканального объёмного звука.
Эталонная модель, как способ реализации многоканальных форматов 3D звука в наушниках.
Модель «Сфера». Описание конструкторской части решения и принципа работы.
Мультидрайверные наушники VS стерео.
Выводы
1. Введение
Объёмный звук, в сочетании со зрительными образами, является неотъемлемой частью для создания эффекта присутствия как в виртуальной среде, так и находясь в кресле кинотеатра или перед игровым монитором. На сегодняшний день существует множество технологий позволяющих воспроизводить 3D звук как с внешней АС так и в наушниках.
В этой статье я хочу предложить новый подход по реализации многоканального объёмного звука в наушниках с системой из нескольких динамиков.
2. Понятие объёмного звука и его восприятие человеком. Типы внешних акустических систем многоканального объёмного звука.
Объёмный звук - звук воспроизводимый акустическими системами, дающий представление о среде и позиции источников на основе бинаурального восприятия.
Факторы, формирующие ощущения объёма:
-
Среда.
Сюда относится сама среда распространения звуковых волн: воздух, вода, различные газы, то есть любая упругая среда. И окружение: место где находится наша звуковая сцена, включая внутренние объекты.
В нашем случае среду не рассматриваем, так как это задача звукорежиссёра в случае кино или музыки, либо звукового движка в виртуальной сцене. Нас интересует только позиционирование.
-
Направление звуковых волн источников.
Сюда можно отнести: форму распространения звуковых волн от источников и их расположение (дистанция, угол, плоскость). В данной статье мы будем рассматривать системы из статичных источников, размещённых вокруг слушателя согласно стандартам форматов surround sound и Immersive audio.
-
Бинауральный эффект.
Это наш фундамент по формированию 3D звука. Основным фактором бинаурального слуха является разница по АЧХ между правым и левым ухом, обусловленная их геометрией, формой головы и дифракцией звуковых волн.
Если провести замеры при помощи бинаурального микрофона (манекен с большими ушами), то АЧХ одного и того же источника звука с различных направлений будут иметь свои особенности, видные на графике. К примеру, АЧХ с тыловых каналов будут иметь характерный завал в промежутке 2,5-3 кГц, потому как волна проходит через наибольшее препятствие через ухо.
Средние частоты являются нашим основным компасом, а вот АЧХ НЧ остаются практически без изменений с любых направлений и не участвуют в локализации. Откуда бас невозможно понять, как не крути головой.
Ещё одним важным моментом бинаурального восприятия является фазовый сдвиг, или как его ещё называют - временные задержки, обусловленные расстоянием между левым и правым ухом.
Вообще, бинауральный слух во многом схож с нашим зрением, когда две плоские картинки дополняя друг друга формируют объём.
Хорошо, со звуком разобрались. Теперь рассмотрим многоканальные акустические системы объёмного звука. Самый распространённый формат - surround sound, или звук вокруг. Представляет собой статичную систему источников (колонки различных типов), развёрнутую вокруг слушателя в горизонтальной плоскости и сфокусированную на нём под определёнными углами, где каждый из них воспроизводит свой отдельный канал. Формат и по сей день очень популярен за счёт своей практичности. Эффект объёма достигается за счёт подачи звука с разных направлений и бинаурального восприятия человеком.
Следующий формат, более продвинутый - Immersive audio. Название больше маркетинговое, чем техническое. Иммерсивный, можно перевести как полное погружение или эффект присутствия. Я бы дал название surround sound plus, ведь принцип остался тем же, что и у предшественника - объём за счёт подачи звука с разных направлений, с добавлением верхней и нижней плоскости. На данный момент, контента под данный формат довольно мало, но его возможности, особенно для виртуальной среды, значительно выше чем у surround sound.
Предложенная технология может быть применена как к Surround sound так и для Immersive audio.
3. Эталонная модель, как способ реализации многоканальных форматов 3D звука в наушниках.
Долгое время я искал способ как передать тот объём, который мы слышим с внешних АС, в наушники. Как минимум, понадобится некая модель, которая будет содержать все необходимые параметры, в числовом значении. И тут на помощь приходит замечательное решение, просто незаменимое для аналитики звука с точки зрения восприятия человеком, в виде микрофона для бинауральной записи. С помощью этого микрофона мы создадим эталонную модель восприятия внешних многоканальных систем человеком, а затем применим её к параметрам наших наушников. В результате чего, многоканальный звук в наушниках будет нами восприниматься как если бы мы его слышали с внешней АС.
Сейчас на рынке достаточно много моделей для бинауральной записи. Я бы отметил основные свойства, необходимые для наших исследований.
Микрофон должен находится внутри канала, на той же глубине как у человека, с тем же углом наклона как у барабанной перепонки. Его чувствительность должна соответствовать, оснащение модели сверхчувствительными микрофонами создают эффект «собачьего» слуха, что неприемлемо.
Поверхность ушей должна быть шероховатой, даже самый мягкий силикон имеет гладкую поверхность, что станет причиной резонансов
Виброразвязка бинауральных микрофонов с корпусом конструкции. Некоторые модели грешат этим недостатком.
Для исключения влияния среды, замеры должны проводится в безэховой камере. В качестве источника вполне подойдёт мониторная колонка полочного типа, нас интересуют прежде всего средние и высокие частоты как основа локализации звука.
Радиус должен быть наиболее эффективным, как правило это 1.5-2 метра для полочных типов, углы стандартные - 30, 90,120°.
Замеры проводим для каждого из направлений, в соответствии с форматом surround sound 5.1, 7.1 в горизонтальной плоскости и Immersive audio в вертикальной. Данные АЧХ прямого (ближнее к источнику ухо) и теневого (второе ухо за тенью головы) сигналов фиксируем в таблице. Таким образом мы получаем модель бинаурального восприятия звука с внешней АС, которую применим к АЧХ наших наушников.
4. Модель «Сфера». Описание конструкторской части решения и принцип работы.
Изначально, я разрабатывал модель в которой хотел задействовать геометрию уха, расположив систему динамиков вокруг, а амбушюры сделав из тонких ортопедических силиконовых прокладок, для полного погружения уха в камеру. При таком подходе, ассоциация с позиционированием источников формируется естественным образом за счёт дифракции.
Ещё одной важной особенностью модели является открытый тип акустической камеры, который препятствует появлению внутренних резонансов. Материал, уложенный на стенках, выполненный из тонкошерстного войлока, также препятствует их появлению и предотвращает акустическое замыкание. Такие наушники могут быть как открытого типа, так и закрытого. Во втором случае, на стенки внешнего корпуса укладывается слой акустического войлока для поглощения энергии волн обратной фазы, идущей от динамиков.
И действительно, даже выводя каналы напрямую к динамикам, локализация звуковых объектов определялась отчётливо. Однако просто вывести каналы недостаточно для достижения бинаурального эффекта. Тут к нам на помощь приходит эталонная модель, которая обеспечит восприятие объёмного звука как с внешней АС.
Схема адаптации довольно проста. Проводятся замеры АЧХ каждого из динамиков наших наушников, на том же устройстве бинауральной записи (манекен с большими ушами). И полученные графики, с помощью эквализации приводим к эталонной модели в соответствии с каналами. Теневые каналы (обязательный элемент для бинаурального восприятия) также получаем приведением посредством эквализации к эталонной модели и микшируем на соответственный кросс-канал. На примере правого бокового канала это будет выглядеть так:
АЧХ правого бокового канала приводим к АЧХ того же канала эталонной модели, получив фильтр бокового канала и таким же методом получаем АЧХ теневого канала, создаём виртуальный канал, который микшируем уже к левому боковому. Не забываем добавлять задержку между прямыми и теневыми каналами.
В случае центрального или диалогового канала, микширование его виртуального образа, созданного при помощи эталонной модели, производится на фронтальные левый и правый каналы, без добавления задержек.
Таким образом, мы слышим многоканальный контент, как бы его слышал наш манекен с внешней АС, что и требовалось.
5. Мультидрайверные наушники VS стерео
Вы меня наверняка спросите - зачем нам наушники с несколькими динамиками, когда можно купить обычные стерео и также получить объём применив программу виртуализации.
Здесь есть два момента:
Микширование нескольких каналов на одну диафрагму динамика создают искажения
Чтобы получить позиционирование из стерео, требуется значительная эквализация виртуальных каналов, что также даёт искажения первоисточника, звук в итоге не естественен, не смотря на его чёткую локализацию
Предложенная модель даёт гораздо более реалистичную картину, за счёт минимального изменения первоисточников. Становится возможным прослушивание музыки в 3D, что открывает новые возможности для композиторов.
Теперь по поводу бинауральной записи
Да, позиция слышится великолепно, однако практичность такого решения сильно ограничена. Во-первых, такая запись не применима для внешних АС, никто не будет делать отдельную бинауральную звуковую дорожку в кино или музыке применимую только для наушников, а для игр понадобится сложная система расчёта АЧХ, учитывающая направление звуковой волны и её дифракцию о геометрию уха, не говоря уже о просчёте среды. Бинауральная запись эффективна только при прослушивании через внутриканальные наушники, которые игнорируют геометрию уха, тем самым избегая повторной дифракции.
Модель микрофона бинауральной записи на мой взляд, пригодна больше для научных исследований, а не как способа звукозаписи.
6. Выводы
Предложенная модель является, пожалуй самым эффективным решением для воспроизведения многоканальных форматов объёмного звука, среди своих аналогов и будет оставаться актуальной ещё долгое время.
Очень хотелось бы видеть на прилавках такие наушники под российским брендом. Но реализация является весьма не простой задачей.
Если кого-то из Вас заинтересовала данная идея, буду рад сотрудничеству.
Комментарии (5)
GennPen
11.12.2022 11:11+1Но реализация инновационных решений,
Инновация это когда что то новое, а не технология которую пытались протолкнуть пол-века назад, но не взлетело.
SADKO
11.12.2022 11:58+1Ух, не всё так просто как кажется, идея мульти драйверных наушников эпизодически всплывает ещё со времён квадрофонии, и даже получает реализации...
...но основной мотив там, такой-же как в кино, но вот расстояния совсем не киношные, среди дешевых игровых наушников, такие конечно дадут какие-то новые ощущения, но вот в сравнении с дорогими, способными отыгрывать бинауралку, получается что скрипач не нужен.
Иллюзию сцены создают и обычные записи стереопарой воспроизведённые через колонки, ибо они не воспринимаются как источник звука, если тракт достаточно чистый.
А вот искажения приводят к тому, что вы идентифицируете колонки как источник звука и иллюзия рушится. (это я так, по верхам, но там ещё много нюансов)
Как компромиссное решение появляется многоканальный звук, позволяющий банальным матричным микшированием распять источники звука в пространстве зала, приблизительно но народу нравится...
Но это рядом не стоит с иллюзиями создаваемыми бинауральными процессорами, или прослушиванием оперы через ширики, где каждый инструмент в яме, где кажый артист на сцене имеет свою чёткую, пространственную локализацию.
ProLimit
12.12.2022 18:09" Микширование нескольких каналов на одну диафрагму динамика создают искажения " - расскажите подробней, откуда они возникают? есть теория за этим, или просто предположение?
3DSound Автор
13.12.2022 04:47Вывод сделан из практического опыта. Возможно, у динамической головки есть физические ограничение на одновременную отработку нескольких каналов со своими АЧХ и фазовым сдвигом. На слух, разница по позиционированию и натуралистичностью (если можно так выразиться) между раздельной системой динамиков и виртуального 7.1 в стерео, весьма ощутима.
amlproject
50 гц и выше - можно и ушами локализовать.
А ниже - уже как-то тушкой начинает человек ощущать. Старый пример с "квадро" расстановкой НЧ секций, с прогоном свипов/синглов 5-30 гц и моментальной сменой фазы в одном из каналов "квадро" - движения тела в этот момент весьма точно локализуют направление на источник/канал с поменявшейся фазой.