На этих выходных мы решили рассказать о разработках двух американских университетов, которые помогают генерировать достаточно правдоподобный звукоряд для беззвучных видео.


Фото Free To Use Sounds / Unsplash

Трудная задача шумовика


Звуки для фильмов и сериалов — например, шелест дождя — очень сложно записать нужным образом прямо на площадке в момент съемки того или иного фрагмента. Будет много посторонних шумов, возможны конфликты с голосами актеров и другим оборудованием. По этой причине почти все звуки записывают отдельно и сводят уже при монтаже. Занимаются этим шумовики.

Если для фильма нужно воспроизвести звук разбитого окна, то звукооформители отправляются на студию и начинают бить стекла в контролируемых акустических условиях. Запись проводят до тех пор, пока звук не будет совпадать с происходящим на экране. В особо сложных случаях на это могут потребоваться десятки итераций, что усложняет и удорожает кинопроизводство.

Инженеры из Техасского университета предложили альтернативный вариант. Они разработали систему ИИ, которая определяет, что происходит в кадре, и автоматически предлагает звукоряд.

Как это работает


Принцип действия системы инженеры описали в своей работе для IEEE (PDF). Они спроектировали две модели машинного обучения. Первая выделяет из видеоряда признаки изображений — например, цвет. Вторая модель анализирует движение объекта на разных кадрах и определяет его природу, чтобы выбрать подходящий звук.

Для формирования акустического ряда инженеры разработали программу AutoFoley. Она генерирует новый звук на основе тысячи коротких аудиосемплов — с шумом дождя, тиканьем часов, галопирующей лошадью. Результат работы достаточно убедительный:


К сожалению, пока система имеет ряд серьезных ограничений. Она подходит для обработки записей, на которых звук не должен идеально совпадать с видеорядом. Иначе становится заметна рассинхронизация — как на этом видео. Также объект должен постоянно присутствовать в кадре, чтобы модель МО могла его распознать. Сейчас разработчики занимаются оформлением патента, но потом они планируют исправить недостатки.

Кто еще занимается такими проектами


В 2016 году специалисты из MIT и Стэнфорда представили модель машинного обучения, способную озвучить «немое» видео. Она предсказывает звук на основе свойства объекта в кадре — например, его материала. В качестве эксперимента инженеры загрузили в систему видеоролик, на котором человек ударяет барабанной палочкой по различным поверхностям: металлу, земле, траве и другим.


Эффективность алгоритма разработчики оценили с помощью онлайн-опроса. Наиболее реалистичными оказались звуки листьев и грязи (их назвали настоящими 62% опрошенных), а наименее — дерева и металла. Металл звучал натурально только в 18% случаев.

Эта система также требует доработки. Она генерирует звуки, возникающие при столкновениях объектов, но не может воссоздать акустический ряд для шума ветра. Кроме того, алгоритм ошибается, если объекты движутся слишком быстро. Несмотря на этот факт у подобных решений есть потенциал — они способны упростить работу шумовикам и преобразить киноиндустрию.



Дополнительное чтение в «Мире Hi-Fi»:

Ужасы киномана: ремастеринг и дубляж
Кто выбирает музыку для кино и сериалов? Музыкальный супервайзер
«О, нет, опять»: музыка в кино и сериалах, которую мы слышим слишком часто
Дождь, лязг доспехов и жидкий металл: как создается звук для кино
«Звукоцех»: Как создают звуковое оформление для кино