Я хочу познакомить вас со взглядом на звук как на спектр и побудить на самостоятельные акустические эксперименты. Вам не потребуется никаких денежных затрат, так как все опыты будем проводить в бесплатной программе Audacity. Представление звука в виде спектрограммы может найти множество применений, например, для диагностики работы механизмов, в анализе тембров инструментов, сэмплов, синтезаторов. Статья рассчитана на новичков.

Спектрограмма звука скрипки. Автор: Omegatron.

Моё увлечение акустикой началось с проекта, когда я хотел сделать анимацию северного сияния, которая бы реагировала на музыку. Я использовал фрагмент классического произведения Баха. Открыл его в программе Audacity в режиме отображения спектрограммы, и внимание сразу привлекли волнообразные штрихи. Так на спектре выглядит исполнительский приём вибрато, смысл которого в переменном изменении тона при игре на музыкальном инструменте.


Спектрограмма — это двумерное графическое отображение спектра сигнала, изменяющегося во времени. Рассмотрим, как выглядит сигнал с основной частотой в 1000 Гц, который содержит добавочные спектральные компоненты.


Вертикальная ось спектрограммы — это ось частоты, горизонтальная — времени. Спектральная мощность выражается в виде яркости и цвета. Серый цвет (фон) — это отсутствие сигнала, голубой — слабый сигнал, фуксия и белый — сильный сигнал. Мы видим ряд ярких горизонтальных полос. Самая нижняя находится на отметке в 1000 Гц, далее идут полосы на частотах 2000 Гц, 4000 Гц и выше. Это так называемые гармоники, известные музыкантам как обертоны.

▍ Создаём гармонический сигнал


Чтобы сгенерировать сигнал самостоятельно и посмотреть его спектр, сделайте следующее. Вначале запустите Audacity, выберите в верхнем меню «Tracks» → «Add New» → «Mono Track». Затем кликните по пункту меню «Generate» — там будут разные варианты, выберите «Tone», и в открывшемся окошке введите значения частоты, продолжительности и амплитуды. Рекомендую сгенерировать синусоидальный сигнал с амплитудой 0.6, продолжительностью 10–20 секунд и частотой в 1 килогерц.


Внутри выделенного трека появится сгенерированный сигнал.

Чтобы переключить режим отображения спектрограммы, нажмите на выпадающий список с названием трека и переключите режим, как показано на скриншоте.


Вы увидите примерно такую же картину (ширину треков можно произвольно изменять).

▍ Настройки отображения спектрограммы


Существует фундаментальная математическая причина, называемая оконным преобразованием Фурье, которое можно сравнить с математическим «окном», анализирующим небольшой участок аудиосигнала и разбивающим его на частотные компоненты.


Настройка «Window Size» влияет на детализацию спектрограммы. Меньшее количество сэмплов улучшает временное разрешение — вы видите более точную картину изменений сигнала по времени. Напротив, большее количество сэмплов повышает частотное разрешение, позволяя детальнее рассматривать спектральный состав.


Усиление «Gain (dB)» позволяет сделать слабые сигналы ярче. Динамический диапазон «Range (dB)» позволяет указать охват между самыми тихими и самыми громкими частями сигнала. Узкий охват делает спектрограмму контрастнее. Усиление влияет на общий уровень яркости.

Чёрно-белый режим спектрограммы упрощает восприятие, где интенсивность оттенков серого показывает амплитуду частотных составляющих. В моей версии программы белый цвет означает тишину, а чёрный — сигнал.

О влиянии настройки масштаба «Scale» я расскажу чуть позже.

▍ График спектра


Выделите небольшой, секунда-две, участок трека с сигналом. Затем в меню «Analyze» выберите «Plot Spectrum». Откроется окно, содержащее график АЧХ (амплитудно-частотной характеристики) усреднённого спектра выделенного фрагмента.


В самом начале знакомства нам важны две настройки: «Size» — этот пункт аналогичен настройке, отвечающей за размер окна, которое было упомянуто выше. Чем выше значение, тем большее разрешение АЧХ. И «Axis», которая отвечает за выбор линейного либо логарифмического масштаба оси частоты. Ниже вы поймёте, для чего они нужны.


График АЧХ можно представить как участок спектрограммы, который мы вырезали в виде узкой области, повернули и смотрим на него с торца. И наоборот, спектрограмму можно представить в виде пакета отдельных АЧХ, стоящих друг за другом и показывающих динамику фонограммы во времени.

Обратите внимание, что значения спектра можно экспортировать в текстовый файл для анализа в математических программах.

Также есть полезная функция — при перемещении курсора показывается значение частоты пика в герцах и его ближайший музыкальный тон (на скриншоте это Си второй октавы или B5). Это может пригодиться для настройки инструментов или для реверс-инжиниринга мелодии.

▍ Логарифмический и линейный масштабы


Взгляните на скриншот: это спектрограмма звукоряда равномерно темперированного строя от До контроктавы до конца пятой октавы. Вот так он выглядит в линейном масштабе. Я включил на синтезаторе простой генератор синусоидальной волны, чтобы не было гармоник. Представьте, что вы нажимаете последовательно клавиши длинного-длинного рояля от самой левой до правой, не пропуская ни одну.


Обратите внимание, что интервал в один полутон в области баса имеет очень малое приращение в абсолютном значении частоты. Вторая нота Ре отличается от предшествующей ноты До на четыре герца. Примерно в середине звукоряда во второй октаве Ре отличается от До на 64 герца. В конце, в пятой октаве, разница между этими нотами почти полкилогерца! При этом для нашего слуха переходы через половину тона по всему звукоряду кажутся равномерными.

Отгадка в нашей природной особенности ощущения звуковысотности: она логарифмическая. И если включить логарифмический масштаб для отображения, ступени звукоряда выстроятся почти в прямую линию.


Становится заметно, что в области басов разрешение значительно ниже, чем в области высоких частот. Это происходит как раз по причине логарифмического масштаба оси частоты.

▍ Интересная находка


Однажды я открыл в Audacity звук с видео, на котором были записаны голоса сорок (птиц), и в одном из каналов взгляд зацепился за странные «шашечки», едва заметные глазу. Обратите внимание на область 17 000 Гц.

Увеличенный фрагмент, смотрите на самый верхний край спектрограммы, видно едва.

Мне показалось это очень странным и необычным. При помощи эквалайзера я отсёк всё, что лежало ниже 17 килогерц, и понизил в несколько десятков раз высоту звука при помощи инструмента «Change Pitch», чтобы можно было этот звук услышать в области единиц килогерц. И меня поразил результат: это было очень похоже на трели сверчка! Оказывается, у нас водятся некие насекомые, издающие трели в высокочастотной (и уже недоступной для моих ушей) части спектра.

▍ Как выглядят спектры разных звуков


Много о частотном составе звука можно узнать, взглянув на спектрограмму. Я выбрал в фонде Викимедиа различные примеры звуковых записей, на каждый из которых будет ссылка. Вы можете сначала посмотреть на спектрограмму.

Колокольчики. Видно, что звук занимает высокочастотный диапазон и состоит из множества коротких быстрозатухающих всплесков.


Звук больших колоколов (как и других упругих металлических предметов) имеет несколько характерных особенностей. Во-первых, видны стабильные полосы — частоты собственных механических резонансов системы. Во-вторых, отчётливо видно, что высокочастотные компоненты колебаний затухают быстрее низкочастотных. В-третьих, заметно, что сила колебаний гармоник как бы ритмически пульсирует — этот эффект почему-то нравится нам и на слух воспринимается как глубокий и бархатистый, богатый звук, как у этого плоского колокола.


Спектрограмма звука большого колокола собора спасения нации, из Бухареста. Видна аналогичная картина. Отчётливо видны моменты ударов по колоколу.


Звук центробежного звукового извещателя (сирены). Видно, как с набором оборотов ротора повышается частота основного тона и гармоник, видны режимы установившихся оборотов и выбега.


Звук диафона — звукового извещателя, выполненного по принципу большого гудка. Заметно, что в самом начале работы имеется момент резкого щелчка, дающего всплеск по всему диапазону частот. Затем идёт период нестабильности, и частота какое-то время колеблется, а затем стабилизируется. Осторожно, громкий и резкий не совсем приятный звук!


Голос человека. Я специально выбрал нейтральный образец — пение молодой девушки на языке индейцев. Голоса живых существ всегда отличаются на спектрограммах наличием модуляции частоты (волны и изгибы) и наличием множества обертонов.


Мяукание кошки. Визуально похоже на человеческую речь, но есть одна особенность. Обратите внимание, что наиболее яркие участки в спектре находятся не на частоте основного колебания, а в области 2–3 кГц. Это можно объяснить резонансными особенностями анатомии животного, подчёркивающими средние, наиболее яркие части спектра.


Самые необычные спектральные картины дают записи птичьих песен. Пожалуй, только спектрограмма даёт понимание, насколько птицы виртуозно могут манипулировать со звуком: изменять его частоту, интенсивность и спектральный состав, причём делая это с большой скоростью.


Надеюсь, мой рассказ кого-то побудит заняться звукозаписью и исследованием мира звуков. Я призываю вас не откладывать дело до лучших времён и начать с тем уровнем оснащения, который у вас имеется, а именно с экспериментов по записи звуков на смартфон. Попробуйте записать различные звуки: голоса людей, животных, пение домашних птиц, звуки работы механизмов, звуки, издаваемые разными бытовыми предметами. Запишите и посмотрите, как выглядит их спектр!

© 2025 ООО «МТ ФИНАНС»

Telegram-канал со скидками, розыгрышами призов и новостями IT ?

Комментарии (26)


  1. ahabreader
    09.02.2025 15:59

    А еще иногда бывает, что смотришь на звук, а видишь телевизор. Иногда даже два.

    15.625 кГц - строчная частота PAL
    15.73426 кГц - NTSC


  1. Javian
    09.02.2025 15:59

    Одна сторона аудиокассеты с программами БК.
    Одна сторона аудиокассеты с программами БК.


  1. iShrimp
    09.02.2025 15:59

    Мне показалось это очень странным и необычным. При помощи эквалайзера я отсёк всё, что лежало ниже 17 килогерц, и понизил в несколько десятков раз высоту звука при помощи инструмента «Change Pitch», чтобы можно было этот звук услышать в области единиц килогерц. И меня поразил результат: это было очень похоже на трели сверчка!

    Точки на спектрограмме в области 17-18 кГц расположены слишком ровно для животного мира. Скорее, они могут быть помехами от цепей питания или артефактами оцифровки.


    1. engine9 Автор
      09.02.2025 15:59

      Я обещаю завтра днём найти ту запись и проделаю те же операции.

      Насекомые могут вполне себе быть такими "метрономами" т.к. их надкрылья по сути — резонатор.


    1. engine9 Автор
      09.02.2025 15:59

      Нашел таки тот видеофрагмент и проделал описанные манипуляции, вот результат: https://disk.yandex.ru/d/VruCkflFstKiGQ


  1. iShrimp
    09.02.2025 15:59

    Звук колокола отличается от звука струны тем, что он негармоничен. Колокол (как и любое достаточно толстое упругое тело) имеет набор колебательных мод, которые не связаны рациональными соотношениями. Поэтому в спектре его звука "гармоники" располагаются с неравными интервалами.

    В европейской традиции частоты колебаний колокола подстраивают (снимая металл с определённых участков) в соответствии с минорной гаммой.

    В русской церковной традиции после отливки колокола, как правило, его специально не настраивали, поэтому частоты несколько отличаются, и звук становится ещё более сложным и непохожим на гармонический ряд.


    1. engine9 Автор
      09.02.2025 15:59

      Спасибо за интересное дополнение. Не знал.


  1. VasVovec
    09.02.2025 15:59

    Спасибо за интересную статью, Андрей.

    Обратите внимание, что наиболее яркие участки в спектре находятся не на частоте основного колебания, а в области 2–3 кГц.

    Что значит "основное колебание"? Как его определить на спектрограмме?


    1. engine9 Автор
      09.02.2025 15:59

      Это моя корявая формулировка. Имел в виду, что самая яркая компонента в тембре кошки сосредоточена в озвученном диапазоне, это видно по интенсивности сигнала. Белый цвет в энергетическом выражении сильнее цвета фуксии, еще слабее голубой.


  1. VT100
    09.02.2025 15:59

    В тред призываются комментаторы, прольющие свет на различные оконные функции (window type, у автора - Hann) в свете амплитудно-частотного разрешения.


    1. Refridgerator
      09.02.2025 15:59

      В английской википедии вопрос раскрыт достаточно подробно, плюс есть статья на хабре.


  1. xkostuax
    09.02.2025 15:59

    Интересная статья, хороший инструмент для сканера тишины например! До конца так и не понял, насколько Audacity урезанная под виндовс и есть ли там всё же фонокорректор или нет.


    1. engine9 Автор
      09.02.2025 15:59

      Вот тут есть какая-то инфа.


      1. xkostuax
        09.02.2025 15:59

        Огромное спасибо! Информации предостаточно, осталось скачивать и пробовать.


  1. Lunatikoff
    09.02.2025 15:59

    Могу ошибаться , но смешнючий микрофон-пленочка современных смартфонов вряд-ли подойдёт для сколько-нибудь хорошей записи. Полоса пропускания (частотный диапазон) не велики в рамках классического 20гц-20кГц. Микрофон смартфона примерно расчинан на человеческую речь, значит 3-4 кГц пик его АЧХ, если правильно понимаю. Всё что дальше или ниже он подрезает или не способен передать в принципе. Хотя тут ещё от чипа зависит, помню как с какой-то из Lumia от мелко мягких эксперименировал, с внешнего звукового генератора воспроизводил сигнал и записывал , так вот по итогу встроенная система шумоподавления на 3-4 микрофонах вроде гасила всё что не голос)))


    1. SADKO
      09.02.2025 15:59

      Ну, в современных телефонах в основном MEMS микрофоны, которые действительно и специально кастрированы во многих отношениях что бы получить хороший цифровой выход...
      ...а раньше использовались компактные электреты, и у них звук не так уж и плох, если до него добраться


    1. engine9 Автор
      09.02.2025 15:59

      Я раньше считал, что нет смысла заниматься чем-то если нет инструмента профессионального уровня. Сейчас считаю ровно наоборот, что если есть желание нужно начинать на инструментах которые есть под рукой. Выжимать из них всё и далее докупать под задачи.

      Неплохие капсюли можно наковырять из фирменных гарнитур от сотовых телефонов с mini-jack коннектором.


    1. alexsavochkin
      09.02.2025 15:59

      Электретная петличка для смартфона стоит недорого, и можно даже найти довольно неплохую. Шумовой порог высоковат, но для начала это лучше, чем ничего. А так-то, конечно, никто не запретит начинать сразу с 32-битного рекордера и конденсаторных микрофонов, или с измерительных.


  1. RranAmaru
    09.02.2025 15:59

    Оффтоп: Гифка про Window Size напомнила принцип неопределенности в квантовой механике.

    На спектрограмме можем либо точно определить где начало и конец сигнала (узкое окно), а частота расплывается, либо точно определяем частоту (скорость колебаний), а начало и конец расплываются (широкое окно).

    В квантовой механике возможно либо точно определить координаты частицы, либо ее скорость.

    Что-то в этом есть...



    1. DandyDan
      09.02.2025 15:59

      Может быть потому что и там, и там Фурье )


  1. korul
    09.02.2025 15:59

    Очень удобно спектр смотреть вот этим инструментом
    https://github.com/KORuL/NewOscillog


  1. shagrath_000
    09.02.2025 15:59

    Спектрограммы воспроизводимого контента по умолчанию встроены в плеер foobar 2000 - давненько в них залипаю )


  1. iShrimp
    09.02.2025 15:59

    Ещё одно применение спектра в реальной жизни: с помощью приложения Phonopaper звук можно сохранить на бумажном носителе... а затем сфотографировать и воспроизвести: Печать и воспроизведение звука на бумаге.


    1. VasVovec
      09.02.2025 15:59

      Класс! Спасибо.


  1. Akr0n
    09.02.2025 15:59

    Приложение BirdNET позволяет сразу полюбоваться на спектрограмму пения пернатого.