Не всегда можно записать аудио в идеальной тишине
Довольно давно мы сделали у себя в целом простой нетребовательный денойз, а выложить модели как-то руки всё не доходили. Решили наконец-то исправить данное недоразумение.
Подходы к фильтрации шумов в аудио, содержащих речь, могут быть разные. Если подходить к этому с использованием нейросетей, можно объединить попытку избавиться от шума с попыткой улучшить звучание: уменьшить влияние различных эффектов, артефактов, например, эха или особенностей микрофона, попробовать повысить частоту дискретизации. Так мы и поступили.
Хотелось еще, чтобы модель была маленькой, работала быстро и качество на выходе было высоким.
Получилось, в целом, неплохо. Примеры будут ниже.
В сравнении с доступными претрейн моделями для денойзинга, наши модели отличаются высокой частотой дискретизации на выходе (denoiser от известной экстремистской организации работает лишь для 16кГц), работают быстрее (некоторые даже на порядок) на CPU (для замеров использовали 4 треда на Intel® Core(TM) i9-10940X CPU @ 3.30GHz) и легковесны.
Привожу сравнение пользовательских показателей с другими доступными системами (возможно, появились и другие доступные модели, уже давно детально не интересовались этим вопросом, если есть желание, можете поделиться ими в комментариях):
Модель | Частота дискретизации на выходе | Частота дискретизации на входе (см. прим.) | RTF (меньше = быстрее) |
---|---|---|---|
Silero Denoise SNS | 48000 | 24000 | 0.29 |
Silero Denoise LNF | 48000 | 24000 | 0.12 |
Silero Denoise SNF | 48000 | 24000 | 0.10 |
VoiceFixer | 44100 | 44100 | 0.71 |
denoiser H=48 | 16000 | 16000 | 0.60 |
denoiser H=64 | 16000 | 16000 | 1.00 |
*Частота дискретизации на входе у silero-denoise и VoiceFixer может быть любой, но должна быть или будет приведена к указанной "рабочей" частоте сетки.
RTF — Real Time Factor (processing time / audio length); SNS — small, slow, LNF — large, fast, SNF — small, fast. Замеры на 4 тредах Intel® Core(TM) i9-10940X CPU @ 3.30GHz
Есть и другие, в том числе и более простые методы денойза, и в более узких применениях они могут справляться сильно лучше. Например, для стационарного шума неплохо работает и спектральный денойз.
С точки зрения звучания и эффективности фильтрации шума можете сделать выводы на примерах (не все эффекты представлены, слишком громоздко было бы), или попробовав самостоятельно:
Комментарии (23)
Alexufo
18.10.2023 11:57+3Я в izotope rx денойз люблю, с аудишином не в какие сравнения не идет. С ним был опыт?
snakers4
18.10.2023 11:57Не пробовал.
Некислый ценник.
А туда можно залить много вложенных подпапок и пойти гулять? Или через локальное АПИ как-то послать много-много файлов?
Alexufo
18.10.2023 11:57+1инструмент для ручной реконструкции,пакетная обработка папок есть, апи-шки не наблюдаю.
snakers4
18.10.2023 11:57А оно само из папки чистит, или нужно каждое аудио как-то прокликивать?
Alexufo
18.10.2023 11:57+4ну как batch processing работает? Папку закинул, спискок фильтров указал, нажал старт
Мне больше зашло поиск в большой аудио книге по образцу звука начала раздела. Выдал мне таймкоды на экспорт позиции этого звука. Таймкоды делать крайне полезно бывает. А в аудасити искал искал...
Irwin1138
18.10.2023 11:57+3Увы сыровато, результаты так себе. Больше половины примеров после "чистки" для меня звучат хуже чем до. Скорее всего из-за провалов - до чистки звук равномерно хреновый, и от него проще абстрагироваться, а после качество начинает дико скакать, то чистый голос то бочка\ведро\робот, раздражает и отвлекает сильнее.
П.С. Большой фанат Silero VAD, без него как без рук - все подкасты и лекции слушаю уже вот несколько лет с вырезанными благодаря silero участками где нет речи (в архиве 1200+ файлов так обработанных уже), даже многие видео смотрю с автопромоткой с его помощью. А записи стримов по программированию смотреть вообще сказка - пропускает все звуки набивания текста на клавиатуре на ура <3
snakers4
18.10.2023 11:57Это не коммерческий продукт. Дошли до какого-то уровня, подождали много времени из-за внешних причин, выложили модель, когда руки дошли наконец.
VAD же это как раз часть коммерческого продукта, которую решили отпустить на волю.
snakers4
18.10.2023 11:57И да, программулю выше не знали, но когда пробовали подчищать шум коммерческими продуктами, тоже было не очень.
Irwin1138
18.10.2023 11:57+1Хм, возможно меня смутило заглавие "Быстрый денойз аудио в высоком качестве".
Для меня всегда хватало Nvidia Broadcast (оболочка для их MAXINE AFX). Вот их денойзер настолько качественный что на микрофоне у меня всегда включен, а если смотрю видео с плохим аудио (как бывает во многих докладах) тогда и его пропускаю через денойзер. Но nvidia broadcast как и их maxine sdk приварен к их железу, очень хотелось бы конечно иметь более свободную альтернативу. Но даже их денойзер пасует в более тяжелых случаях, например вот тут половину слов невозможно разобрать после их денойза https://www.youtube.com/watch?v=lzRqZnPVeJI
snakers4
18.10.2023 11:57А что там под капотом не знаете? Когда оно вышло я не смог распарить.
Irwin1138
18.10.2023 11:57+1Скорее всего какие-то проприетарные модели от nvidia. Все в формате c расширением .trtpkg. Видеопамять и ресурсы видеокарты кушают прилично, даже на 3080 заметна разница на фпс если играть с микрофоном и денозом. Хотя файлы не превышают 50МБ
snakers4
18.10.2023 11:57+1Ещё такой момент. Наша модель дизайнилась как быстрая, но последнюю милю мы не добежали.
Модель нвидии GPU only.
stalinets
18.10.2023 11:57+2Вот если говорить про обработку фото, в популярных фоторедакторах есть опции улучшения фото в один клик. Открываешь шумную, неконтрастную, блёклую фотку, с неправильными цветами, или скан с плёнки, раз - и вау-эффект, почти идеально, ещё чуть подкрутил параметры и готов отличный результат. Для новичков и дилетантов это прям супер-инструмент.
А есть ли подобное для аудио? Чтобы дал на вход шумную, пережатую компрессией "под телеэфир", оцифрованную с затёртой плёнки или записанную на диктофон песню, нажал кнопку, а на выходе она становится почти как студийная запись. Просто такой инструмент порой очень нужен, но как-то возможностей улучшить звук, мне кажется, меньше, в звуковых редакторах есть всякое, но именно сделать, чтоб запись раз - и по всем параметрам зазвучала лучше, такого нет.
PMA
18.10.2023 11:57+1Мне izotope rx показалась как Фотошоп, но для звука. я только намного поигрался ею, возможно там есть "the magic button"
Refridgerator
18.10.2023 11:57+1Ещё более быстрый и качественный денойз аудио
без смс и регистрациибез нейросетей и GPU можно получить при помощи микрофонной решётки. Правда почему-то готовые решения до бытового сегмента так и не добрались - даже стерео-микрофон просто так не купить.Alexufo
18.10.2023 11:57+1Потому что рынку этого не надо. Например, петлички Genius 01C стоимостью 50р в свое время уделывали по характеристикам/цене вообще все петличные микрофоны. Да, да. Даже с фантомным питанием и все такое, конденсаторное. (думаю и сейчас, но, возможно их сняли с производства) И этого было достаточно для не студийных задач. И ничего, не перевернули рынок, не вытеснили конкурентов.
Refridgerator
18.10.2023 11:57Так и именно, что при такой цене за штуку нет никаких сложностей в построении решёток. 4 штуки в узлах тетраэдра - и можно и 3D координаты источника звука определять, и фильтровать прямой сигнал от отражённого (что с одним микрофоном невозможно в принципе). Айфон с кучей камер никого же не смущает, а камеры таки значительно сложнее и дороже.
snakers4
Справедливости ради, нужно заметить, что если цель именно записать качественное аудио, то денойзеры в принципе плохо помогают. Мы недавно ради прикола пробовали пофиксить занойзенное аудио из студии (почему в студии был шум - хз, нам дали такое аудио) разными войс-фиксерами и:
Чистилка стационарного шума работает как надо, вот только шум по всем спектрам, и аудио немного "ухает";
Чистилки типа нашей работают, но иногда странные артефакты проскакивают;
Распиаренная чистилка от Adobe (tm) - вроде не ухает, но звук как будто немного из колодца или из ведра, и будто SR она подъедает;
Но такие модели обычно помогают сильно понизить когнитивную нагрузку при восприятии аудио.
Alexufo
тут бы уже нужен некий синтез речи, воссозданный из образца, для наложения на оригинал для гашения артефактов сильного денойза.