Цифровая реставрация аудио


Этот процесс может быть как нетривиальным, так и крайне сложным. Но за последний десяток лет цифровые методы значительно шагнули вперёд, заменив кропотливую работу с узкопрофильными алгоритмами на нажатие двух кнопок для получения желаемого результата. Я изучил почти всё, что может предоставить нынешняя индустрия пользователю — от сайтов, программ и облачных решений до ИИ. И поделюсь с вами своим 2-летним опытом в данной сфере.

Уточнение: эта статья является сборником самых эффективных методов и способов их применения, а не 2-летним блогом с перебором всего подряд.

Разбиение задачи по частям


Как и любой сложный процесс, реставрацию аудио стоит разбить на несколько этапов, чтобы не утомиться в процессе. Мы начнём с автоматических методов на основе нейросетей. Далее рассмотрим полуавтоматические способы, а закончим ручной обработкой в Audacity.

Содержание



Нейросети


▍ Ultimate Vocal Remover


Эффективный инструмент для разделения вокала и инструментальной части. Программа предлагает три архитектуры моделей для этой задачи, однако мы сосредоточимся на MDX-NET Inst HQ. В большинстве случаев разделение аудио на вокал и музыку существенно упрощает дальнейшую работу.


▍ Установка


Переходим на Github-репозиторий Ultimate Vocal Remover, находим последний релиз программы и устанавливаем его. Владельцы видеокарт AMD могут воспользоваться версией с поддержкой OpenCL, что значительно ускорит работу софта.


▍ Запуск и скачивание модели


Нажимаем на «Choose MDX-Net model», затем выбираем «Download more models», ищем последнюю версию MDX Inst HQ и скачиваем её. Интерфейс программы интуитивно понятен, поэтому подробное описание не требуется. Стоит отметить возможность одновременной обработки нескольких аудиофайлов в меню с путём до исходника.


▍ Техническая часть MDX-Net


Архитектура MDX-Net была представлена в 2021 году в рамках конкурса Music Demixing Challenge (MDX), проводимого на платформе AIcrowd. Этот конкурс являлся частью инициативы Sony Music по разработке передовых моделей для разделения музыкальных треков на отдельные составляющие: вокал, ударные, бас и другие инструменты. MDX-Net использует комбинацию методов глубокого обучения, включая U-Net (архитектура для обработки данных), 3D-свёртки (метод анализа аудиоданных), преобразование Фурье (инструмент для работы с частотами звука) и остаточное обучение (способ упрощения задачи для модели).


▍ Elevenlabs


В нынешних условиях это неоднозначное решение, поскольку компания ушла из России. Однако это один из самых простых способов получить качественное преобразование «голос в голос», то есть то, что вы произнесли в приложенном аудио, будет идентично повторено нейросетью с более профессиональным голосом. Это даёт несколько преимуществ перед традиционным преобразованием текста в голос: ровный тембр и правильные ударения. Таким образом, можно создать идеальную закадровую озвучку видео, если это проще, чем реставрировать аудио. Ссылка на сайт.


Дополнительная настройка почти всегда обязательна. Как минимум, стоит выбрать мультиязычную модель. Для каждого встроенного голоса основные параметры нужно настраивать индивидуально. Не бойтесь поднимать значения выше «опасных», это редко приводит к разрушению модели, но выше 80% лучше не подниматься.


На сайте есть интересный инструмент для дубляжа видео — Eleven Dubbing. Его не буду детально рассматривать. Нейросеть неплохо копирует голоса, но транскрипция оригинального видео оставляет желать лучшего и не учитывает визуальный контекст.


▍ SpectraLayers


Очень мощный софт с обширным ИИ-функционалом для разделения голосов и музыкальных элементов на треке. Это позволяет, например, убрать закадровый смех, который многим кажется раздражающим. В программе также есть инструменты для очистки голоса, однако она бедна на стандартные функции, не требующие нейросетей.


▍ RVC


Альтернатива Elevenlabs для замены одного голоса на другой. Чтобы запустить данную нейросеть, можно использовать как аппаратные мощности вашего ПК, так и Google Colab. Например, интерфейс PolGen запускается буквально в два клика, и через 5 минут в блокноте Google Colab система будет готова, однако есть лимит на 5 часов бесплатного использования в день.


▍ Где найти модели голоса?


Есть сайт Voice Models с базой из десятков тысяч голосов, доступных для использования в RVC. Оттуда нужно просто скопировать ссылку на нужную модель (важно, чтобы она была русскоязычной — это можно определить по наличию кириллицы в названии) и на вкладке скачивания голосов в PolGen загрузить её.


▍ Советы по использованию


Просто регулируйте тон голоса с помощью ползунка. Если это не помогло, скорее всего, вы выбрали плохо обученную модель.


▍ Технические особенности RVC


RVC (Retrieval-based Voice Conversion) использует комбинацию современных технологий обработки речи и машинного обучения. Основу архитектуры составляет предобученная модель HuBERT (для извлечения акустических признаков), энкодер содержания (для выделения характеристик голоса) и генератор на основе HiFi-GAN (для синтеза высококачественного аудио). RVC также применяет технику извлечения основного тона f0 (для сохранения интонации исходного голоса) и метод Top-k поиска (для улучшения качества преобразования). Эти компоненты работают совместно, позволяя модели эффективно преобразовывать голос одного человека в голос другого, сохраняя при этом естественность звучания и особенности исходной речи.

Веб-сервисы


▍ Auphonic


Веб-сервис для восстановления аудио. Отличная замена Adobe Podcast, так как он лучше справляется с определением языка для нейросети. Часто тот же Adobe Podcast ошибается с определением языка загружаемой записи, и в результате выдаёт ещё более испорченное аудио. Кроме основной функции, Auphonic также умеет вырезать фоновую музыку или голос.


▍ Gladia


Полезный сайт для автоматического создания субтитров с помощью ИИ, предлагающий бесплатный тариф с лимитом до 10 часов аудио. Отлично подходит для создания собственной закадровой озвучки. Текст перевода лучше сделать самостоятельно, чтобы избежать возможных ошибок, как это бывает с Eleven Dubbing. Вы также можете воспользоваться Chat GPT, предоставив ему общий и визуальный контекст.


Ручной метод


▍ Audacity


Программа для работы с аудио с открытым исходным кодом, которая предлагает множество инструментов, работающих на алгоритмах. Несмотря на это, софт остаётся таким же удобным в использовании, как и другие программы. В нём удобно сводить результаты работы и выполнять ручные задачи, такие как подгонка скорости аудио, обрезка, регулировка громкости отдельных участков и т. д. Однако Audacity значительно увеличивает размер своих проектов, и вместо ожидаемых сотен мегабайт вы можете получить целые десятки гигабайт, что иногда приводит к зависанию процесса сохранения. Лучше сначала экспортировать аудио, а уже потом сохранять проект, чтобы в случае ошибки у вас была хотя бы скомпонованная версия файла. Восстановить сами проекты после ошибки обычно невозможно, но попробовать стоит.

Если вы захотели написать „А почему не Reaper?“ или „А почему не Adobe Audition?“
а) Он БЕСПЛАТНЫЙ
б) Он в несколько раз ЛЕГЧЕ в освоении
в) Он есть на всех ОС

Но назревает вопрос, почему тогда я написал о Spectralayers? Так вот у него НЕТ бесплатных альтернатив, так что это не является тем же случаем.


Рассмотрение частных случаев


▍ Восстановление озвучки со старого ТВ-вещания


В данном примере у нас имеется запись вещания с озвучкой старого мультика, с датой 1995 года. После оцифровки VHS-записи мы получаем это:

Сначала разделим запись на инструментал и голос с помощью UVR (Ultimate Voice Remover).

Затем, чтобы восстановить качество VHS звука до современного уровня, воспользуемся Auphonic.

Объединить это также легко с помощью Audacity. Перетаскиваем на проект нашу новую запись и ранее полученный инструментал из Ultimate Voice Remover.

Как видно, даже с минимальными усилиями можно сделать очень хорошую реставрацию такого аудио.

▍ Плохая запись с шумом и гамом


Как правило, это почти всегда относится к записям, сделанным на лекциях.

В этот раз воспользуемся Auphonic. Достаточно выбрать пресет voice cleaner (remove music).

Однако, если вы не хотите делиться своим контентом с какой-либо из корпораций, можно прибегнуть к локальному ПО для получения практически аналогичного результата. В Spectralayers используем Unmix Noisy Speech и затем Denoise Voice. Голос не звучит консервно, как это было раньше, но при этом информация о голосе потерялась больше.

▍ Как убрать закадровый смех


Всё, что нам нужно сделать, — это прогнать желаемый вокал (после UVR и желательно с версией Inst HQ 3) через программу Spectralayers, получая три отдельных результата с инструментами Unmix Crowd Noise, Unmix Noisy Speech и Voice Denoise. Затем переносим полученные аудиодорожки в Audacity и выбираем самый удачный сегмент.

На результате они стали в несколько раз менее нативными, чем были, а сам голос не пострадал. Не идеально, но, к сожалению, лучшее из того, что сейчас имеется:

▍ Демо версии записей


Часто встречаются редкие записи (демки), которые не вышли в эфир во времена записи на кассеты, до оцифровки. Эти записи переслушивались множество раз и дошли до нас в плохом качестве. Почти всегда у этих демок есть конечные версии, которые содержат изменения в тексте, но не в инструментальной части. В данном случае мы видим проблемы с изменением высоты голоса, а общий стиль звука напоминает консервную банку. Мы можем исправить обе проблемы, но только в том случае, если уже есть готовая модель голоса музыканта в архиве. А также необходимо предварительно, если это возможно, отделить его голос от остальных с помощью spectralayers.

Сначала достаём голос из записи и инструментал из хорошей версии с помощью программы UVR. Затем, работая в Spectralayers, используем инструмент normalize, выбирая нужные сегменты для нормализации уровня громкости. После этого попробуем воспользоваться RVC, хоть нужного голоса в базе нет, но мы можем попробовать воспользоваться другим — например, исполнитель из The Police. А так, вам никто не мешает обучить собственную RVC-модель с нужным голосом на хороших примерах.

Проблемы с консервным звуком пропали, но голос уже не тот. Однако в целом метод рабочий, и на более обученных моделях конец записи тоже получался хорошим(но голос ещё сильнее тут был ни к месту).

Заключение


Цифровая реставрация аудио прошла значительный путь развития, предоставляя пользователям широкий спектр инструментов — от нейросетей до специализированного программного обеспечения. Хотя полностью автоматизированные решения становятся все более доступными, наилучших результатов по-прежнему можно достичь, комбинируя различные методы и подходы. Важно отметить, что успешная реставрация часто требует не только технических навыков, но и творческого подхода, особенно при работе со сложными или уникальными записями. Будущее этой области обещает ещё более интересные возможности, потенциально кардинально изменяя способы сохранения и улучшения аудионаследия.

© 2024 ООО «МТ ФИНАНС»

Telegram-канал со скидками, розыгрышами призов и новостями IT ?

Комментарии (18)


  1. Asspassia
    31.10.2024 09:28

    Слушайте, ну звук той старой техники он офигенный, не сравнить с современным электронным звуком! Мой друг увлекается ретретехникой, причем скупает деки, магнитофоны с кассетами, которые почти новые, в коробках хранились у кого-то не нужные, почти в идеальном состоянии, и нужно только ТО сделать, резинки поменять, и как будто попал в прошлое, -30 лет назад. Недавно он например купил грамафон, японский, премиум серии, которому 51 год! но он в идеальном состоянии, даже крышка не поцарапана. Накупил современных пластинок, и звук действительно очень крутой! Нет тех хрипов, которые помню с детства. Звук идеальный. Разница действительно есть!


    1. SergeyYudin
      31.10.2024 09:28

      А покупаю новые аудиокассеты и на них через комп записываю современные песни. Качество звука и правда не отличишь от современной техники. Ну и зачем тогда мучиться? А чтобы понастальгировать, так приятно подержать в руках кассету, которую в детстве перекручивали карандашом, когда она зажевывалась)


      1. Nick0las
        31.10.2024 09:28

        Я так делал 25 лет назад, когда у меня уже был комп и MP3, переписанные с CD дисков и принесенные от друзей на жестких дисках, а из портативных проигрывателей звука был только кассетный плеер.


    1. AVKinc
      31.10.2024 09:28

      Когда я первый раз в жизни услышал CD году наверно в 1990 то я сразу и безоговорочно понял, что все остальное по сравнению с ним - говно. И до сих пор остаюсь при этом мнении.


      1. Javian
        31.10.2024 09:28

        если до этого слушали не студийные магнитофонные записи - купия копии, с эфира и т.п.

        Я пару лет назад послушал "фирменную" кассету с записью около 1990го года. Впечатлился, нашел flac того же альбома и... не то. Совсем нет динамики.


        1. evtomax
          31.10.2024 09:28

          А носитель тут при чём? Просто другой мастеринг.


          1. SADKO
            31.10.2024 09:28

            При том, что носитель 16@44.1 а простые и качественные АЦП появились не разу не с разу, так-что сведение на ленту было распространённым явлением где-то до середины нулевых! Хотя уже к началу девяностых DATы были у всех, и ничто вроде-бы не мешало сводить на DAT и отправить на завод, но если был нормальный магнитофон, можно было отправить плёнку в мастер хаус, где её качественно оцифровывали через дорогущую аналоговую мастер секцию и пересчитывали в 16@44.1 уже чисто в цифре...


            1. yappari
              31.10.2024 09:28

              Если говорить о флаке (есть ощущение, что вопрос касался этого носителя), то так-то там ни слова ни про параметры (вполне может быть и 24@192k), ни про его происхождение (некоторые деятели ничтоже сумняшеся перегоняли из мпшек), ни про железо, на котором проигрывалось, ни про акустику. Так что не понятно, о каком не том и о какой динамике вообще может идти речь.


              1. SADKO
                31.10.2024 09:28

                Флак не носитель, а формат который таки да, но ветка началась со святых девяностых и CD ;-) а это вполне себе формат, и хотя 18 и 24 разрядные системы уже были тогда, но... Те что 24 были дай-бог 18 ;-)
                А что до динамики, то любители винила, как раз таки именно её и любят, ибо не смотря на все навороты вроде динамического шага, просто так взять и нарезать лак низя. Вернее можно, но получится гаденько как и CD.
                А на ленту многие писали как есть не только у нас, но и на западе компрессии на мастер шине у людей не было, а англичане так и вовсе настраивали магнитофоны что-бы "поджаривать" микс!


                1. SADKO
                  31.10.2024 09:28

                  UPD и да забыл самое главное, что эти жаренные и не очень ленты, вполне себе копировались и слушались на хорошей аппаратуре очень даже, а на плохой звучали невзрачно. И тут винил, даже отпечатанный с мастера стандартного комплекта поставки VMSины звучал гораздо предпочтительнее, а CD так вообще, хотя из-за снижения порога входа в премастеринг оных, инженеры часто грешили убийством макродинамики, без особых на то причин, но не суть...
                  Хороший аппарат, отлично отыграет запись тупо с микрофона, и создаст эффект присутствия. А премастеринг делают именно для того что-бы запись прилично звучала везде, и продюсеры именно за это платят деньги.
                  Звукорежиссёры и мастеринг инженеры, решают разные задачи, хотя их можно и совместить, но тогда уж придётся лезть вплоть до уровня аранжировки и музыки, и получить на выходе chip tune который везде звучит отлично ;-)


  1. Refridgerator
    31.10.2024 09:28

    Давайте будем честными: вообще не "всё" здесь о цифровых методах восстановлении аудио, просто перечислено несколько случайно взятых инструментов. Ну а аргумент "audicity" лучше, потому что бесплатный, вообще смешной. Он именно что "хуже", потому что бесплатный, и есть множество других бесплатных редакторов к тому же. А откуда запускать VST-плагины, вообще не важно.

    Для "всё" для начала нужно хотя бы просто перечислить вид шума. Шум от перемагниченной ленты это одно, шум от пыльной пластинки - совсем другое, и удаляются они разными инструментами с разными мат.моделями. Выделение голоса из записи - задача вообще из другой плоскости, и решается тоже разными путями: а) анализ фазы в спектре (потому что голос в стереозаписи обычно пишут по центру) и б) узкополосная фильтрация формантами. Подавление реверберации - тоже задача из другой плоскости, и для неё тоже есть конкретное математическое решение - через кепстр.


    1. SADKO
      31.10.2024 09:28

      Да, подход, мягко говоря обывательский.
      Я когда-то решал задачи восстановления фонограмм с аналоговых носителей, потом это решение успешно продал, и оно до сих пор...

      ...так что только намекну, что работая с аналоговыми носителями, теми-же VHS или кассетами, даже профессиональные звукорежиссёры кое чего в упор не видят, и программисты никак им помочь не могут, просто потому что данных таких нет, а вместе с тем, если действительно начать разбираться с тем, из чего складываются шумы и искажения, в том или ином случае, и сделать правильные технические решения для их регистрации, то даже очень простые алгоритмы обработки дадут качественно иные результаты! Я помню ещё DART и CEP95, не скрою именно они меня и вдохновили, на то, что бы стать не нужными вовсе! Не для 15 и 30 дюймовых лент, не даже для LP винилов!
      С кассетами и не FMными дорожками видео, удавалось даже понизить искажения некоторого рода, тупым не линейным преобразованием и хитрым усреднением.
      Нельзя сказать что моё решение совсем уникально, что-то подобное делали Technics и McIntosh но в быту оно никому не надо, да и было уже поздно...

      Короче, в исторической перспективе ситуация такова, что люди сначала пытались забить физику математикой, а сейчас математику точно так-же бьют нейросетями, и естественно где-то что-то у них получается, иначе бы и не пытались, но на КАЖДОЙ итерации копятся факапы и теряется общий смысл...

      ...отличный пример у автора поста, когда он чистил VHS кассету, и вроде хорошо по чистил, разборчивей голос сделал, у меня телевизор гнусмас так умеет, лет уж двадцать... А продюсеры-то "дураки" плотили бабки за синхронные шумы, окружение, музыку ;-)
      Да VHS гадина, но там это всё читается и создаёт эффект погружения в историю, а тут...
      Друг у меня один, когда-то попросил DAT магнитофон, микрофоны и отправился на детскую площадку с другим другом, писать звуки и шумы для компьютерной игры, потом дома с импульсными реверами интегрировал всё в одно органичное окружение...
      ...а кодеры сжали всё во всратые mp3 с joint-ом, ой вы бы его тогда видели, игра конечно получила даже какие-то награды в частности за звук, но осадочек остался...
      И я таких-же историй, из других модальностей могу рассказать ещё много, как повышение фрэйм рэйта превращает драму в комедию, как от стереоскопии у людей болели глазоньки и вытекали мозги, как превратить дофига D аттракцион или планетарий в блевотрон, итд итп...

      Короче, перед тем как браться что-то считать и\или какую то ручку на приборе покрутить, нужно отдавать себе отчёт в том, что и зачем вы делаете, и почему и вообще. А то рождаемость и так падает, а тут ещё "инженеры" с водой из корыт выплёскивают детей...


      1. Javian
        31.10.2024 09:28

        Со звуком все просто, когда звуковиков учат и сажают за пульт, то говорят "ничего не трогай!". Потом они так и работают. Самые непослушные и продвинутые умеют еще двигать регуляторы на Мин. и Макс. Промежуточные не подписаны, поэтому туда нельзя.

        https://habr.com/ru/news/708824/comments/#comment_25068442


  1. VadimProfii
    31.10.2024 09:28

    У афтара на кпдв попытка заправки ленты не там....


    1. Sagittarius67
      31.10.2024 09:28

      На фото, кстати, Маяк 203. Сколько же я его погонял в хвост и гриву.


      1. SADKO
        31.10.2024 09:28

        Только зачем-то стёрли что это маяк ;-)


        1. AndrewBond
          31.10.2024 09:28

          если картинка из фотостока, то там торговые и марки моделей запрещены


  1. Prohard
    31.10.2024 09:28

    Здесь далеко не ВСЕ, а только выделение и восстановление голоса. А как насчет восстановления музыки?