Быстрый денойз аудио в высоком качестве / forpes.ru

Главная
Быстрый денойз аудио в высоком качестве

Быстрый денойз аудио в высоком качестве +12

18.10.2023 11:29

nurtdinovadf 23 2100 Источник

Не всегда можно записать аудио в идеальной тишине

Довольно давно мы сделали у себя в целом простой нетребовательный денойз, а выложить модели как-то руки всё не доходили. Решили наконец-то исправить данное недоразумение.

Подходы к фильтрации шумов в аудио, содержащих речь, могут быть разные. Если подходить к этому с использованием нейросетей, можно объединить попытку избавиться от шума с попыткой улучшить звучание: уменьшить влияние различных эффектов, артефактов, например, эха или особенностей микрофона, попробовать повысить частоту дискретизации. Так мы и поступили.

Хотелось еще, чтобы модель была маленькой, работала быстро и качество на выходе было высоким.

Получилось, в целом, неплохо. Примеры будут ниже.

В сравнении с доступными претрейн моделями для денойзинга, наши модели отличаются высокой частотой дискретизации на выходе (denoiser от известной экстремистской организации работает лишь для 16кГц), работают быстрее (некоторые даже на порядок) на CPU (для замеров использовали 4 треда на Intel® Core(TM) i9-10940X CPU @ 3.30GHz) и легковесны.

Привожу сравнение пользовательских показателей с другими доступными системами (возможно, появились и другие доступные модели, уже давно детально не интересовались этим вопросом, если есть желание, можете поделиться ими в комментариях):

Модель	Частота дискретизации на выходе	Частота дискретизации на входе (см. прим.)	RTF (меньше = быстрее)
Silero Denoise SNS	48000	24000	0.29
Silero Denoise LNF	48000	24000	0.12
Silero Denoise SNF	48000	24000	0.10
VoiceFixer	44100	44100	0.71
denoiser H=48	16000	16000	0.60
denoiser H=64	16000	16000	1.00

*Частота дискретизации на входе у silero-denoise и VoiceFixer может быть любой, но должна быть или будет приведена к указанной "рабочей" частоте сетки.

RTF — Real Time Factor (processing time / audio length); SNS — small, slow, LNF — large, fast, SNF — small, fast. Замеры на 4 тредах Intel® Core(TM) i9-10940X CPU @ 3.30GHz

Есть и другие, в том числе и более простые методы денойза, и в более узких применениях они могут справляться сильно лучше. Например, для стационарного шума неплохо работает и спектральный денойз.

С точки зрения звучания и эффективности фильтрации шума можете сделать выводы на примерах (не все эффекты представлены, слишком громоздко было бы), или попробовав самостоятельно:

Просто шум:

Просто реверб (эхо):

Восстановление частоты дискретизации:

Лоупасс фильтр:

Клиппинг:

Комментарии (23)

snakers4
18.10.2023 11:57
#26068894
+4
Красиво выглядит, но звучит немного в ведро как будто.
Справедливости ради, нужно заметить, что если цель именно записать качественное аудио, то денойзеры в принципе плохо помогают. Мы недавно ради прикола пробовали пофиксить занойзенное аудио из студии (почему в студии был шум - хз, нам дали такое аудио) разными войс-фиксерами и：
- Чистилка стационарного шума работает как надо, вот только шум по всем спектрам, и аудио немного "ухает"；
- Чистилки типа нашей работают, но иногда странные артефакты проскакивают；
- Распиаренная чистилка от Adobe (tm) - вроде не ухает, но звук как будто немного из колодца или из ведра, и будто SR она подъедает；
Но такие модели обычно помогают сильно понизить когнитивную нагрузку при восприятии аудио.
1. Alexufo
  18.10.2023 11:57
  #26068986
  +1
  тут бы уже нужен некий синтез речи, воссозданный из образца, для наложения на оригинал для гашения артефактов сильного денойза.

Alexufo
18.10.2023 11:57
#26068980
+3
Я в izotope rx денойз люблю, с аудишином не в какие сравнения не идет. С ним был опыт?
1. snakers4
  18.10.2023 11:57
  #26069084
  Не пробовал.
  
  Некислый ценник.
  
  А туда можно залить много вложенных подпапок и пойти гулять? Или через локальное АПИ как-то послать много-много файлов?
  1. Alexufo
    18.10.2023 11:57
    #26069162
    +1
    инструмент для ручной реконструкции,пакетная обработка папок есть, апи-шки не наблюдаю.
    
    snakers4
    18.10.2023 11:57
    #26069188
    А оно само из папки чистит, или нужно каждое аудио как-то прокликивать?
    
    Alexufo
    18.10.2023 11:57
    #26069532
    +4
    ну как batch processing работает? Папку закинул, спискок фильтров указал, нажал старт
    
    Мне больше зашло поиск в большой аудио книге по образцу звука начала раздела. Выдал мне таймкоды на экспорт позиции этого звука. Таймкоды делать крайне полезно бывает. А в аудасити искал искал...
    
    snakers4
    18.10.2023 11:57
    #26071772
    А 100500 файлов можно залить, или загрустит?
    
    Alexufo
    18.10.2023 11:57
    #26071922
    Падает на 100499 файле))

Irwin1138
18.10.2023 11:57
#26069150
+3
Увы сыровато, результаты так себе. Больше половины примеров после "чистки" для меня звучат хуже чем до. Скорее всего из-за провалов - до чистки звук равномерно хреновый, и от него проще абстрагироваться, а после качество начинает дико скакать, то чистый голос то бочка\ведро\робот, раздражает и отвлекает сильнее.

П.С. Большой фанат Silero VAD, без него как без рук - все подкасты и лекции слушаю уже вот несколько лет с вырезанными благодаря silero участками где нет речи (в архиве 1200+ файлов так обработанных уже), даже многие видео смотрю с автопромоткой с его помощью. А записи стримов по программированию смотреть вообще сказка - пропускает все звуки набивания текста на клавиатуре на ура <3
1. snakers4
  18.10.2023 11:57
  #26069152
  Это не коммерческий продукт. Дошли до какого-то уровня, подождали много времени из-за внешних причин, выложили модель, когда руки дошли наконец.
  
  VAD же это как раз часть коммерческого продукта, которую решили отпустить на волю.
  1. snakers4
    18.10.2023 11:57
    #26069158
    И да, программулю выше не знали, но когда пробовали подчищать шум коммерческими продуктами, тоже было не очень.
  1. Irwin1138
    18.10.2023 11:57
    #26069244
    +1
    Хм, возможно меня смутило заглавие "Быстрый денойз аудио в высоком качестве".
    
    Для меня всегда хватало Nvidia Broadcast (оболочка для их MAXINE AFX). Вот их денойзер настолько качественный что на микрофоне у меня всегда включен, а если смотрю видео с плохим аудио (как бывает во многих докладах) тогда и его пропускаю через денойзер. Но nvidia broadcast как и их maxine sdk приварен к их железу, очень хотелось бы конечно иметь более свободную альтернативу. Но даже их денойзер пасует в более тяжелых случаях, например вот тут половину слов невозможно разобрать после их денойза https://www.youtube.com/watch?v=lzRqZnPVeJI
    
    snakers4
    18.10.2023 11:57
    #26069322
    А что там под капотом не знаете? Когда оно вышло я не смог распарить.
    
    Irwin1138
    18.10.2023 11:57
    #26069350
    +1
    Скорее всего какие-то проприетарные модели от nvidia. Все в формате c расширением .trtpkg. Видеопамять и ресурсы видеокарты кушают прилично, даже на 3080 заметна разница на фпс если играть с микрофоном и денозом. Хотя файлы не превышают 50МБ
    
    snakers4
    18.10.2023 11:57
    #26069442
    Если кто-то знает как их распарсить будет интересно.
    
    snakers4
    18.10.2023 11:57
    #26069450
    +1
    Ещё такой момент. Наша модель дизайнилась как быстрая, но последнюю милю мы не добежали.
    
    Модель нвидии GPU only.

stalinets
18.10.2023 11:57
#26069984
+2
Вот если говорить про обработку фото, в популярных фоторедакторах есть опции улучшения фото в один клик. Открываешь шумную, неконтрастную, блёклую фотку, с неправильными цветами, или скан с плёнки, раз - и вау-эффект, почти идеально, ещё чуть подкрутил параметры и готов отличный результат. Для новичков и дилетантов это прям супер-инструмент.

А есть ли подобное для аудио? Чтобы дал на вход шумную, пережатую компрессией "под телеэфир", оцифрованную с затёртой плёнки или записанную на диктофон песню, нажал кнопку, а на выходе она становится почти как студийная запись. Просто такой инструмент порой очень нужен, но как-то возможностей улучшить звук, мне кажется, меньше, в звуковых редакторах есть всякое, но именно сделать, чтоб запись раз - и по всем параметрам зазвучала лучше, такого нет.
1. PMA
  18.10.2023 11:57
  #26070108
  +1
  Мне izotope rx показалась как Фотошоп, но для звука. я только намного поигрался ею, возможно там есть "the magic button"

Refridgerator
18.10.2023 11:57
#26070600
+1
Ещё более быстрый и качественный денойз аудио ~~без смс и регистрации~~ без нейросетей и GPU можно получить при помощи микрофонной решётки. Правда почему-то готовые решения до бытового сегмента так и не добрались - даже стерео-микрофон просто так не купить.
1. snakers4
  18.10.2023 11:57
  #26070606
  Тут я солидарен, но иногда на студии люди умудряются записать всякое.
1. Alexufo
  18.10.2023 11:57
  #26072250
  +1
  Потому что рынку этого не надо. Например, петлички Genius 01C стоимостью 50р в свое время уделывали по характеристикам/цене вообще все петличные микрофоны. Да, да. Даже с фантомным питанием и все такое, конденсаторное. (думаю и сейчас, но, возможно их сняли с производства) И этого было достаточно для не студийных задач. И ничего, не перевернули рынок, не вытеснили конкурентов.
  1. Refridgerator
    18.10.2023 11:57
    #26074078
    Так и именно, что при такой цене за штуку нет никаких сложностей в построении решёток. 4 штуки в узлах тетраэдра - и можно и 3D координаты источника звука определять, и фильтровать прямой сигнал от отражённого (что с одним микрофоном невозможно в принципе). Айфон с кучей камер никого же не смущает, а камеры таки значительно сложнее и дороже.