Как связать звуковую и визуальную информацию? Этим вопросом часто задаются ученые и любители со всего света. Так, в феврале 2006 года новость о том, что ученым удалось воспроизвести звуки с глиняного горшка возрастом более 6500 лет, быстро разлетелась по всему интернету.

Гончар, якобы, нанес музыкальный ритм на горшок при его изготовлении. К сожалению, это оказалось неудачной первоапрельской шуткой бельгийского телевидения.

Однако Патрику Фистеру (Patrick Feaster) удалось обработать запись, возраст которой превышает 1000 лет. По этому поводу в мае 2011 года он выступил на конференции ассоциации ARSC (Association for Recorded Sound Collections) с открытием «палеоспектрофонии».

Погружение в историю: расшифровка записей прошлого

Патрик использует современные технологии (в данном случае – не особенно современные, так как спектрограмму изобрели достаточно давно) для того, чтобы преобразовать визуальные объекты в звуковые. Однако человечество не всегда шло этим путем и пыталось, наоборот, «запечатлеть» звук в образах.

Долгое время (до создания фонографа Томасом Эдисоном) людей волновал вопрос: как придумать такой способ фиксации музыки, который помог бы смотрящему на запись воспроизводить мелодию у себя в голове так же легко, как это делают профессиональные музыканты, глядя на партитуру. К сожалению, по мнению доктора Фистера, такая задача недостижима в принципе, поскольку наш мозг в большинстве случаев недостаточно хорош в преобразовании визуальной информации в звуковую.

Возможно, решение этой задачи в прошлом и не увенчалось успехом, однако история оставила нам множество свидетельств того, как люди в разные эпохи пытались создать подобные системы записи звука. Самая известная из этих систем легла в основу фоноавтографа – предшественника фонографа, изобретенного французом Эдуаром Мартенвилем. Фоноавтограф представлял собой устройство, в котором звук проходил через конус, заставляя вибрировать мембрану, соединенную с иглой. Игла же, в свою очередь, рисовала волнообразные линии на стеклянном цилиндре, покрытом закопченной бумагой.

С помощью фоноавтографа звук можно было запечатлеть, однако не было никакой возможности его воспроизвести. Это задачу и решил Фистер. В 2008 году он, его коллеги, а также аудиоэксперт Дэвид Джованнони (David Giovannoni) собрались в Национальной Лаборатории Лоуренса в Беркли, чтобы расшифровать одну из наиболее хорошо сохранившихся фоноавтограмм Мартенвиля.

В Лаборатории Лоуренса разрабатывались технологии извлечения звуков с высококачественных фотографий, на которых были запечатлены образы хрупких восковых носителей или сломанных дисков. Воспользовавшись данными технологиями, ученые получили с фоноавтограммы запись песенки «Лунный свет» («Au Clair de la Lune»), сделанную в 1860 году. Считается, что это первая запись, на которой различим человеческий голос.

Однако решения этой задачи Фистеру оказалось недостаточно: впоследствии он не только зафиксировал звук с более чем 50 фоноавтограмм, но и исследовал более ранние попытки «записи звука». В этом ученому, как ни странно, помог сервис Google Books. Используя его, Фистер записывал символы из книг, которые постоянно игнорировались, считаясь историческими причудами.

Самую старую волнообразную линию он нашел в книге 1806 года. Посредством других техник ему удалось расшифровать мелодию 1677 года, которая была записана множеством точек. Еще одна была обнаружена в записях 10 века, где линиями было показано, в какой тональности следует петь. Примеры таких записей можно найти на его сайте Phonozoic.

Другой подход

По другому пути идут исследователи из MIT, Microsoft и Adobe: они реконструируют звук по движущейся (а точнее, вибрирующей) картинке. Исследователи разработали алгоритм получения аудиосигнала из вибраций, записанных на видео.

В одном из таких экспериментов им удалось извлечь разборчивую речь с записи пустого пакета из под чипсов. В ряде других экспериментов то же удалось проделать с поверхностью алюминиевой фольги, бокалом с водой и даже с листьями домашнего растения. В 2014 году команда презентовала свои достижения на ежегодной конференции SIGGRAPH.



Видео с выступления одного из исследователей, работавших над проектом, на конференции TED

Дело в том, что когда звук соприкасается с объектом, он заставляет его вибрировать. Движения, созданные этими вибрациями, настолько незначительны и незаметны, что человек не может их увидеть. Однако их может «увидеть» камера: для извлечения аудиосигнала из видео, ученые использовали видеозапись с частотой захвата кадров выше, чем частота аудиосигнала.

Изначально в экспериментах применялись камеры с частотой съемки 2000 и 6000 кадров в секунду, однако исследователи пробовали использовать и другие, более бюджетные камеры. Конечно, из записанного видео с частотой съемки 60 кадров в секунду не удавалось извлечь членораздельную речь, но все же представлялось возможным понять, сколько человек находилось в помещении, их пол и даже особенности их произношения.

Конечно, при мысли об использовании таких разработок, в голову приходят «шпионские истории», однако сами исследователи называют свой проект возможностью открыть новые грани в изображении предметов и изучить их ранее неисследованные свойства. И если сотни лет назад люди пытались придумать способ «записи звука», то теперь такая «запись» становится побочным эффектом, который, в свою очередь, помогает раскрыть новые свойства привычных объектов.

Сделай сам

Как уже говорилось, первую фоноавтограмму удалось расшифровать благодаря технологии воспроизведения звука по фотографиям старых пластинок (об этой технологии мы уже писали в одном из наших материалов – в нем же приводятся и ссылки на расшифрованные аудиозаписи). Однако Патрик Фистер подчеркивает, что с этой задачей может справиться любой желающий – если знает, что делать.

Подробный процесс описан в этом материале. От себя заметим, что для решения задачи вам понадобится качественное фото, базовые навыки владения Photoshop (волну, прочерченную на виниле, надо оцифровать, «распрямить» – бороздка на пластинке закручивается по спирали – убрать всевозможные шумы и смещения), а также относительно мощный компьютер с большим объемом оперативной памяти.

Для того, чтобы преобразовать полученное изображение в WAV-файл, Патрик использует довольно экзотическое ПО: это программа ImageToSound. Она бесплатна, но, несмотря на это, ее достаточно сложно найти в сети (Патрик поделился источником).

Программа последовательно конвертирует каждый блок изображения (ширина блока – 1 пиксель) в аудиосэмпл. К сожалению, это ПО не поддерживает даже Windows 7 (автор использует для работы отдельный компьютер с Windows 98). В качестве альтернативы Фистер предлагает использовать программу AEO-Light, но предупреждает, что сам не до конца знаком с тонкостями работы с ней.

Последний этап – регулирование скорости воспроизведения. Тут на помощь приходит простая математика. Для начала нужно узнать скорость воспроизведения на оригинальной пластинке, длину одного оборота оцифрованной волны (после «деспирализации») в пикселях и частоту дискретизации конечного файла.

Если изображение было отредактировано в аудиофайл с частотой дискретизации 44.1 кГц, то это означает, что секунда аудиофайла будет равна 44 100 пикселям изображения. Если, к примеру, скорость песни на виниловой пластинке была равна 50 оборотам в минуту, а после оцифровки и деспирализации один оборот пластинки занял 30 000 пикселей, мы получаем 1 500 000 пикселей в минуту (50х30 000).

Если поделить это количество на 60, мы получим количество пикселей в секунду (1 500 000/60 = 25 000). Делим частоту дискретизации на количество пикселей в секунду (44 100/25 000 = 1.764). Полученное число умножаем на длину аудиофайла (время проигрывания песни) и получаем время, с которым изначально был записан этот файл. Если скорость воспроизведения оригинальной записи неизвестна, Патрик советует подобрать итоговую скорость на слух.

Патрик Фистер предупреждает – это довольно кропотливый труд, который требует времени и терпения, но при этом дает порой удивительные результаты: особенно когда дело касается голосов прошлого, которые, казалось бы, были навсегда утеряны.

P.S. Больше материалов по теме аудиотехники – в нашем блоге "Мир Hi-Fi".

Комментарии (6)


  1. sillywilly
    20.04.2016 12:44
    -1

    Изобретатель велосипеда? В «Популярной механике» это было лет 5 назад.
    https://www.youtube.com/watch?v=-GAJ9e8ifYU


    1. lol_wat
      20.04.2016 12:53
      +3

      Уже было в Симпсонах (с) Смысловая нагрузка коммента зашкаливает, конечно.



  1. Vjatcheslav3345
    20.04.2016 13:03

    Идея услышать древние звуки, скажем, слова заговора против Нерона, носится в воздухе уже много лет
    Дэвид Джоунс, шуточная книга «ИЗОБРЕТЕНИЯ ДЕДАЛА» (пункт в книге «У стен есть уши») (http://www.e-reading.club/bookreader.php/132812/Dzhouns_-_Izobreteniya_Dedala.html)
    «Господа, я уверен, что произошло одно из редких и печальных совпадений. Я имею в виду заметку в номере New Scientist от 6 февраля, где Дедал «…отмечает, что под действием звука мастерок, как любая плоская пластина, вибрирует — соответственно, когда поющий работник ведет мастерком по сырой штукатурке, на ней остается фонографическая запись его песни. После высыхания поверхности…» и т. д.
    Весьма странно, что недавно я послал в редакцию журнала Nature статью, датированную 13 января 1969 г. и озаглавленную «Звукозаписи из древности», которая была формально отклонена редакцией как «слишком специальная». В статье я описывал свои ранние опыты (1961) по записи звука (речи, музыки) на глиняных горшках и мазках краски на холсте (как в масляной живописи) и успешном воспроизведении записей при помощи пьезоэлектрического звукоснимателя с плоской деревянной «иглой».
    Я отмечал, что случайные звукозаписи могут быть обнаружены на царапинах, вмятинах, гравировках или сколах пластичных материалов, к которым можно отнести металлы, воск, дерево, кость, грязь, краску, хрусталь и многие другие.
    Учитывая современные возможности электронной обработки сигналов, позволяющие выделить полезный сигнал на фоне посторонних шумов, я считаю, что проблемы акустической археологии заслуживают серьезного внимания.
    Ричард Вудбридж
    Норт Роуд РД-2, Принстон, Нью-Джерси, 08540, США

    Легко представить, какие чувства испытывает человек, занимавшийся проблемой несколько лет и, наконец, подготовивший сообщение для публикации в научном журнале, когда вдруг в одно прекрасное утро он обнаруживает, что аналогичные результаты изложены в колонке Дедала. Я послал Ричарду Вудбриджу письмо, в котором выразил свое сочувствие и решительно отрицал свою причастность к ограблению мусорной корзины журнала Nature. Д-р Вудбридж в конце концов опубликовал свою статью (Proceedings of the IEEE, 57 (8), 1969, p. 1465). Он приводит примеры удачной записи музыки на мазках краски, оставленных кистью, а также сообщает о воспроизведении слова, акустически записанного кистью на портрете. Однако же я опубликовал свою заметку раньше его!»
    Кстати, по его изобретениям можно подготовить для Гиктаймса интересные статьи.


  1. twelve
    20.04.2016 16:27
    +2

    Для тех кто хочет поиграться со звуком в виде изображения есть занятное приложение PhonoPaper.


  1. Moog_Prodigy
    20.04.2016 16:53

    >>Мой кучер повесил рожок неподалёку от печки, а сам подошёл ко мне, и мы начали мирно беседовать. И вдруг рожок заиграл: «Тру-туту! Тра-тата! Ра-рара!» Мы очень удивились, но в ту минуту я понял, почему на морозе из этого рожка нельзя было извлечь ни единого звука, а в тепле он заиграл сам собой. На морозе звуки замёрзли в рожке, а теперь, отогревшись у печки, оттаяли и стали сами вылетать из рожка. Мы с кучером в течение всего вечера наслаждались этой очаровательной музыкой.