Resemble Enhance - это инструмент на основе ИИ для улучшения качества речи путем шумоподавления и усиления.
Он состоит из двух модулей: шумоподавителя, который отделяет речь от шумного аудио, и улучшателя, который повышает качество звука, устраняя искажения и расширяя полосу пропускания.
Модели обучены на высококачественных речевых данных с частотой дискретизации 44.1 кГц.
Проще говоря, это портативный улучшатель записей голоса, который может пригодиться буквально всем, кто работает с медиа/контентом/звуком.
Это очень хорошая альтернатива плагина GOYO, который на данный момент недоступен. Более того, вам не нужна DAW или другая сторонняя программа, чтобы запустить Resemble, как в случае с GOYO.
Модель пока что подходит только для английской речи. Чтобы развернуть локально, необходима видеокарта NVIDIA минимум с 4 Gb видеопамяти.
По классике, начнем с интерфейса и далее взглянем на возможности более наглядно.
На самом деле, мы постарались и перевели интерфейс на русский язык и он стал уж совсем интуитивно понятным, но все же пробежимся в общих чертах.
-
Выбор Сэмплера ОДУ для CFM
Если вы уже сталкивались ранее с нейросетями, то знаете, что сэмплер, если просто - метод обработки шума. По стандарту стоит Midpoint и я также советую вам не менять его.
Количество вычислений для CFM
То же самое, что и количество шагов. По стандарту 64.
Параметры 3, 4 и 5 показались мне не сильно важными.
В целом, настройки уже выставлены так, чтобы хорошо обработать бОльшую часть записей.
Шумоподавление перед усилением
Последняя галочка важная. Если в записи очень громкий внешний шум, то перед улучшением весь шум необходимо подавить, чтобы оно работало более корректно.
Так же в Resemble Enhance есть возможность записать голос сразу, ускорять запись при прослушивании и возможность вырезать выбранный фрагмент.
Так как я не особо в курсе, где можно взять уже готовые плохие записи голоса, кроме как тех самых туториалов 10-летней давности, то предлагаю взять пару примеров из моих роликов и искусственно испортить исходник: добавим шум ветра, моря, можно чуть исказить с помощью эквалайзера.
Ну и все записи я заранее перевел на английский язык с помощью сервиса HeyGen.
Я добавил в запись своего голоса шум толпы. Представим, что мне пришлось записывать подкаст в ресторане.
Resemble очень хорошо очистил шум с этой задачей он справляется прекрасно, но улучшатор голоса иногда работает не совсем стабильно. В прочем, возможно это из-за искусственного перевода.
Давайте попробуем взять неискуственный, оригинальный кусок на настоящем английском из популярного мультика. К нему я дополнительно чуть-чуть примиксовал шум озера, посмотрим, как нейросеть справится с задачей.
Замечу, здесь улучшатор сработал много лучше.
Вот как это смотрится на видео:
Теперь давайте попробуем взять что-то всем знакомое, от чего становится тепло на душе: протестируем нашу нейросеть на старых мемах.
Я уверен, все слышали про мем Очень очень affordable... Довольно старый мем, местами проскакивает посторонний шум толпы, попробуем её исправить.
Ради эксперимента я не стал переводить его и очень удивился результату, просто взгляните
Следующий уж точно не менее известный мем - салатик и борщ с капусткой, но не красной. Уже его я перевёл, в целом на записи и так достаточно шума и его уж точно больше, чем на прошлой.
Здесь опять же чуть хуже работает улучшатор голоса. Я уверен, что это связано с тем, что перевод искусственный, а модель обучалась на настоящих голосах.
Ну и давайте повысим сложность - легендарный мем Очень плохая музыка с просто ужасным исходником. Громкая музыка, а в оригинале еще и стерео панорама не понятно куда едет. Про микрофон промолчу, записано это чудо 15 лет назад, чему удивляться.
На удивление, даже тут нейросеть прекрасно очистила шум, правда запись все равно осталась низкой по качеству. Улучшатор, конечно, совсем не в кассу - речь превратилась в один из монологов Уинстона Черчилля.
Далее мне стало интересно, и я взял еще одно видео, на нем очень сильное эхо, которое я еще и усилил.
Шумодав подчистил хвосты от эхо, но само оно не пропало, что было очевидно. А вот улучшатору, судя по всему, пришлось переписывать голос по новой.
На возможности нейросети взглянули со всевозможных сторон, теперь расскажу, как установить это действительно полезное чудо техники.
Чтобы установить Resemble Enhance, достаточно скачать нашу портативную версию с установкой в один клик.
Перед установкой отключите антивирус, он ругается на самораспаковывающийся архив. Если переживаете, то скачивайте 7z-архив, который нужно просто разархивировать в любое удобное место.
Надеюсь, статья была полезной, подписывайтесь на ?Нейро-Софт, канал с портативными версиями ваших любимых нейросетей!
Комментарии (5)
PereslavlFoto
21.08.2024 15:44+2Очень привлекательно выглядит. Хорошо бы дожить до такой же программы, которая работает с русской речью и обходится без графического ускорителя!
timonin
21.08.2024 15:44Тут нужно обучение модели на русской речи, может кто-то займется из наших умельцев =)
AdekWhat
Работает в реальном времени?
Было бы полезно для стриминга обработанного голоса для записи видео, созвонов и прочего
Спасибо!
timonin
Увы, в реальном времени не работает, но достаточно шустрая, думаю если кто-то поставит цель - сможет допилить до реалтайма.