Не всегда можно записать аудио в идеальной тишине
Не всегда можно записать аудио в идеальной тишине


Довольно давно мы сделали у себя в целом простой нетребовательный денойз, а выложить модели как-то руки всё не доходили. Решили наконец-то исправить данное недоразумение.


Подходы к фильтрации шумов в аудио, содержащих речь, могут быть разные. Если подходить к этому с использованием нейросетей, можно объединить попытку избавиться от шума с попыткой улучшить звучание: уменьшить влияние различных эффектов, артефактов, например, эха или особенностей микрофона, попробовать повысить частоту дискретизации. Так мы и поступили.


Хотелось еще, чтобы модель была маленькой, работала быстро и качество на выходе было высоким.


Получилось, в целом, неплохо. Примеры будут ниже.


В сравнении с доступными претрейн моделями для денойзинга, наши модели отличаются высокой частотой дискретизации на выходе (denoiser от известной экстремистской организации работает лишь для 16кГц), работают быстрее (некоторые даже на порядок) на CPU (для замеров использовали 4 треда на Intel® Core(TM) i9-10940X CPU @ 3.30GHz) и легковесны.


Привожу сравнение пользовательских показателей с другими доступными системами (возможно, появились и другие доступные модели, уже давно детально не интересовались этим вопросом, если есть желание, можете поделиться ими в комментариях):


Модель Частота дискретизации на выходе Частота дискретизации на входе (см. прим.) RTF (меньше = быстрее)
Silero Denoise SNS 48000 24000 0.29
Silero Denoise LNF 48000 24000 0.12
Silero Denoise SNF 48000 24000 0.10
VoiceFixer 44100 44100 0.71
denoiser H=48 16000 16000 0.60
denoiser H=64 16000 16000 1.00

*Частота дискретизации на входе у silero-denoise и VoiceFixer может быть любой, но должна быть или будет приведена к указанной "рабочей" частоте сетки.


RTF — Real Time Factor (processing time / audio length); SNS — small, slow, LNF — large, fast, SNF — small, fast. Замеры на 4 тредах Intel® Core(TM) i9-10940X CPU @ 3.30GHz


Есть и другие, в том числе и более простые методы денойза, и в более узких применениях они могут справляться сильно лучше. Например, для стационарного шума неплохо работает и спектральный денойз.


С точки зрения звучания и эффективности фильтрации шума можете сделать выводы на примерах (не все эффекты представлены, слишком громоздко было бы), или попробовав самостоятельно:


Просто шум:










Просто реверб (эхо):










Восстановление частоты дискретизации:










Лоупасс фильтр:










Клиппинг:









Комментарии (23)


  1. snakers4
    18.10.2023 11:57
    +4

    Красиво выглядит, но звучит немного в ведро как будто.
    Красиво выглядит, но звучит немного в ведро как будто.

    Справедливости ради, нужно заметить, что если цель именно записать качественное аудио, то денойзеры в принципе плохо помогают. Мы недавно ради прикола пробовали пофиксить занойзенное аудио из студии (почему в студии был шум - хз, нам дали такое аудио) разными войс-фиксерами и:

    • Чистилка стационарного шума работает как надо, вот только шум по всем спектрам, и аудио немного "ухает";

    • Чистилки типа нашей работают, но иногда странные артефакты проскакивают;

    • Распиаренная чистилка от Adobe (tm) - вроде не ухает, но звук как будто немного из колодца или из ведра, и будто SR она подъедает;

    Но такие модели обычно помогают сильно понизить когнитивную нагрузку при восприятии аудио.


    1. Alexufo
      18.10.2023 11:57
      +1

      тут бы уже нужен некий синтез речи, воссозданный из образца, для наложения на оригинал для гашения артефактов сильного денойза.


  1. Alexufo
    18.10.2023 11:57
    +3

    Я в izotope rx денойз люблю, с аудишином не в какие сравнения не идет. С ним был опыт?


    1. snakers4
      18.10.2023 11:57

      Не пробовал.

      Некислый ценник.

      А туда можно залить много вложенных подпапок и пойти гулять? Или через локальное АПИ как-то послать много-много файлов?


      1. Alexufo
        18.10.2023 11:57
        +1

        инструмент для ручной реконструкции,пакетная обработка папок есть, апи-шки не наблюдаю.


        1. snakers4
          18.10.2023 11:57

          А оно само из папки чистит, или нужно каждое аудио как-то прокликивать?


          1. Alexufo
            18.10.2023 11:57
            +4

            ну как batch processing работает? Папку закинул, спискок фильтров указал, нажал старт

            Мне больше зашло поиск в большой аудио книге по образцу звука начала раздела. Выдал мне таймкоды на экспорт позиции этого звука. Таймкоды делать крайне полезно бывает. А в аудасити искал искал...


            1. snakers4
              18.10.2023 11:57

              А 100500 файлов можно залить, или загрустит?


              1. Alexufo
                18.10.2023 11:57

                Падает на 100499 файле))


  1. Irwin1138
    18.10.2023 11:57
    +3

    Увы сыровато, результаты так себе. Больше половины примеров после "чистки" для меня звучат хуже чем до. Скорее всего из-за провалов - до чистки звук равномерно хреновый, и от него проще абстрагироваться, а после качество начинает дико скакать, то чистый голос то бочка\ведро\робот, раздражает и отвлекает сильнее.

    П.С. Большой фанат Silero VAD, без него как без рук - все подкасты и лекции слушаю уже вот несколько лет с вырезанными благодаря silero участками где нет речи (в архиве 1200+ файлов так обработанных уже), даже многие видео смотрю с автопромоткой с его помощью. А записи стримов по программированию смотреть вообще сказка - пропускает все звуки набивания текста на клавиатуре на ура <3


    1. snakers4
      18.10.2023 11:57

      Это не коммерческий продукт. Дошли до какого-то уровня, подождали много времени из-за внешних причин, выложили модель, когда руки дошли наконец.

      VAD же это как раз часть коммерческого продукта, которую решили отпустить на волю.


      1. snakers4
        18.10.2023 11:57

        И да, программулю выше не знали, но когда пробовали подчищать шум коммерческими продуктами, тоже было не очень.


      1. Irwin1138
        18.10.2023 11:57
        +1

        Хм, возможно меня смутило заглавие "Быстрый денойз аудио в высоком качестве".

        Для меня всегда хватало Nvidia Broadcast (оболочка для их MAXINE AFX). Вот их денойзер настолько качественный что на микрофоне у меня всегда включен, а если смотрю видео с плохим аудио (как бывает во многих докладах) тогда и его пропускаю через денойзер. Но nvidia broadcast как и их maxine sdk приварен к их железу, очень хотелось бы конечно иметь более свободную альтернативу. Но даже их денойзер пасует в более тяжелых случаях, например вот тут половину слов невозможно разобрать после их денойза https://www.youtube.com/watch?v=lzRqZnPVeJI


        1. snakers4
          18.10.2023 11:57

          А что там под капотом не знаете? Когда оно вышло я не смог распарить.


          1. Irwin1138
            18.10.2023 11:57
            +1

            Скорее всего какие-то проприетарные модели от nvidia. Все в формате c расширением .trtpkg. Видеопамять и ресурсы видеокарты кушают прилично, даже на 3080 заметна разница на фпс если играть с микрофоном и денозом. Хотя файлы не превышают 50МБ


            1. snakers4
              18.10.2023 11:57

              Если кто-то знает как их распарсить будет интересно.


        1. snakers4
          18.10.2023 11:57
          +1

          Ещё такой момент. Наша модель дизайнилась как быстрая, но последнюю милю мы не добежали.

          Модель нвидии GPU only.


  1. stalinets
    18.10.2023 11:57
    +2

    Вот если говорить про обработку фото, в популярных фоторедакторах есть опции улучшения фото в один клик. Открываешь шумную, неконтрастную, блёклую фотку, с неправильными цветами, или скан с плёнки, раз - и вау-эффект, почти идеально, ещё чуть подкрутил параметры и готов отличный результат. Для новичков и дилетантов это прям супер-инструмент.

    А есть ли подобное для аудио? Чтобы дал на вход шумную, пережатую компрессией "под телеэфир", оцифрованную с затёртой плёнки или записанную на диктофон песню, нажал кнопку, а на выходе она становится почти как студийная запись. Просто такой инструмент порой очень нужен, но как-то возможностей улучшить звук, мне кажется, меньше, в звуковых редакторах есть всякое, но именно сделать, чтоб запись раз - и по всем параметрам зазвучала лучше, такого нет.


    1. PMA
      18.10.2023 11:57
      +1

      Мне izotope rx показалась как Фотошоп, но для звука. я только намного поигрался ею, возможно там есть "the magic button"


  1. Refridgerator
    18.10.2023 11:57
    +1

    Ещё более быстрый и качественный денойз аудио без смс и регистрации без нейросетей и GPU можно получить при помощи микрофонной решётки. Правда почему-то готовые решения до бытового сегмента так и не добрались - даже стерео-микрофон просто так не купить.


    1. snakers4
      18.10.2023 11:57

      Тут я солидарен, но иногда на студии люди умудряются записать всякое.


    1. Alexufo
      18.10.2023 11:57
      +1

      Потому что рынку этого не надо. Например, петлички Genius 01C стоимостью 50р в свое время уделывали по характеристикам/цене вообще все петличные микрофоны. Да, да. Даже с фантомным питанием и все такое, конденсаторное. (думаю и сейчас, но, возможно их сняли с производства) И этого было достаточно для не студийных задач. И ничего, не перевернули рынок, не вытеснили конкурентов.


      1. Refridgerator
        18.10.2023 11:57

        Так и именно, что при такой цене за штуку нет никаких сложностей в построении решёток. 4 штуки в узлах тетраэдра - и можно и 3D координаты источника звука определять, и фильтровать прямой сигнал от отражённого (что с одним микрофоном невозможно в принципе). Айфон с кучей камер никого же не смущает, а камеры таки значительно сложнее и дороже.