
Моё увлечение акустикой началось с проекта, когда я хотел сделать анимацию северного сияния, которая бы реагировала на музыку. Я использовал фрагмент классического произведения Баха. Открыл его в программе Audacity в режиме отображения спектрограммы, и внимание сразу привлекли волнообразные штрихи. Так на спектре выглядит исполнительский приём вибрато, смысл которого в переменном изменении тона при игре на музыкальном инструменте.

Спектрограмма — это двумерное графическое отображение спектра сигнала, изменяющегося во времени. Рассмотрим, как выглядит сигнал с основной частотой в 1000 Гц, который содержит добавочные спектральные компоненты.

Вертикальная ось спектрограммы — это ось частоты, горизонтальная — времени. Спектральная мощность выражается в виде яркости и цвета. Серый цвет (фон) — это отсутствие сигнала, голубой — слабый сигнал, фуксия и белый — сильный сигнал. Мы видим ряд ярких горизонтальных полос. Самая нижняя находится на отметке в 1000 Гц, далее идут полосы на частотах 2000 Гц, 4000 Гц и выше. Это так называемые гармоники, известные музыкантам как обертоны.
▍ Создаём гармонический сигнал
Чтобы сгенерировать сигнал самостоятельно и посмотреть его спектр, сделайте следующее. Вначале запустите Audacity, выберите в верхнем меню «Tracks» → «Add New» → «Mono Track». Затем кликните по пункту меню «Generate» — там будут разные варианты, выберите «Tone», и в открывшемся окошке введите значения частоты, продолжительности и амплитуды. Рекомендую сгенерировать синусоидальный сигнал с амплитудой 0.6, продолжительностью 10–20 секунд и частотой в 1 килогерц.

Внутри выделенного трека появится сгенерированный сигнал.
Чтобы переключить режим отображения спектрограммы, нажмите на выпадающий список с названием трека и переключите режим, как показано на скриншоте.

Вы увидите примерно такую же картину (ширину треков можно произвольно изменять).
▍ Настройки отображения спектрограммы
Существует фундаментальная математическая причина, называемая оконным преобразованием Фурье, которое можно сравнить с математическим «окном», анализирующим небольшой участок аудиосигнала и разбивающим его на частотные компоненты.

Настройка «Window Size» влияет на детализацию спектрограммы. Меньшее количество сэмплов улучшает временное разрешение — вы видите более точную картину изменений сигнала по времени. Напротив, большее количество сэмплов повышает частотное разрешение, позволяя детальнее рассматривать спектральный состав.

Усиление «Gain (dB)» позволяет сделать слабые сигналы ярче. Динамический диапазон «Range (dB)» позволяет указать охват между самыми тихими и самыми громкими частями сигнала. Узкий охват делает спектрограмму контрастнее. Усиление влияет на общий уровень яркости.
Чёрно-белый режим спектрограммы упрощает восприятие, где интенсивность оттенков серого показывает амплитуду частотных составляющих. В моей версии программы белый цвет означает тишину, а чёрный — сигнал.
О влиянии настройки масштаба «Scale» я расскажу чуть позже.
▍ График спектра
Выделите небольшой, секунда-две, участок трека с сигналом. Затем в меню «Analyze» выберите «Plot Spectrum». Откроется окно, содержащее график АЧХ (амплитудно-частотной характеристики) усреднённого спектра выделенного фрагмента.

В самом начале знакомства нам важны две настройки: «Size» — этот пункт аналогичен настройке, отвечающей за размер окна, которое было упомянуто выше. Чем выше значение, тем большее разрешение АЧХ. И «Axis», которая отвечает за выбор линейного либо логарифмического масштаба оси частоты. Ниже вы поймёте, для чего они нужны.

График АЧХ можно представить как участок спектрограммы, который мы вырезали в виде узкой области, повернули и смотрим на него с торца. И наоборот, спектрограмму можно представить в виде пакета отдельных АЧХ, стоящих друг за другом и показывающих динамику фонограммы во времени.
Обратите внимание, что значения спектра можно экспортировать в текстовый файл для анализа в математических программах.
Также есть полезная функция — при перемещении курсора показывается значение частоты пика в герцах и его ближайший музыкальный тон (на скриншоте это Си второй октавы или B5). Это может пригодиться для настройки инструментов или для реверс-инжиниринга мелодии.
▍ Логарифмический и линейный масштабы
Взгляните на скриншот: это спектрограмма звукоряда равномерно темперированного строя от До контроктавы до конца пятой октавы. Вот так он выглядит в линейном масштабе. Я включил на синтезаторе простой генератор синусоидальной волны, чтобы не было гармоник. Представьте, что вы нажимаете последовательно клавиши длинного-длинного рояля от самой левой до правой, не пропуская ни одну.

Обратите внимание, что интервал в один полутон в области баса имеет очень малое приращение в абсолютном значении частоты. Вторая нота Ре отличается от предшествующей ноты До на четыре герца. Примерно в середине звукоряда во второй октаве Ре отличается от До на 64 герца. В конце, в пятой октаве, разница между этими нотами почти полкилогерца! При этом для нашего слуха переходы через половину тона по всему звукоряду кажутся равномерными.
Отгадка в нашей природной особенности ощущения звуковысотности: она логарифмическая. И если включить логарифмический масштаб для отображения, ступени звукоряда выстроятся почти в прямую линию.

Становится заметно, что в области басов разрешение значительно ниже, чем в области высоких частот. Это происходит как раз по причине логарифмического масштаба оси частоты.
▍ Интересная находка
Однажды я открыл в Audacity звук с видео, на котором были записаны голоса сорок (птиц), и в одном из каналов взгляд зацепился за странные «шашечки», едва заметные глазу. Обратите внимание на область 17 000 Гц.

Мне показалось это очень странным и необычным. При помощи эквалайзера я отсёк всё, что лежало ниже 17 килогерц, и понизил в несколько десятков раз высоту звука при помощи инструмента «Change Pitch», чтобы можно было этот звук услышать в области единиц килогерц. И меня поразил результат: это было очень похоже на трели сверчка! Оказывается, у нас водятся некие насекомые, издающие трели в высокочастотной (и уже недоступной для моих ушей) части спектра.
▍ Как выглядят спектры разных звуков
Много о частотном составе звука можно узнать, взглянув на спектрограмму. Я выбрал в фонде Викимедиа различные примеры звуковых записей, на каждый из которых будет ссылка. Вы можете сначала посмотреть на спектрограмму.
Колокольчики. Видно, что звук занимает высокочастотный диапазон и состоит из множества коротких быстрозатухающих всплесков.

Звук больших колоколов (как и других упругих металлических предметов) имеет несколько характерных особенностей. Во-первых, видны стабильные полосы — частоты собственных механических резонансов системы. Во-вторых, отчётливо видно, что высокочастотные компоненты колебаний затухают быстрее низкочастотных. В-третьих, заметно, что сила колебаний гармоник как бы ритмически пульсирует — этот эффект почему-то нравится нам и на слух воспринимается как глубокий и бархатистый, богатый звук, как у этого плоского колокола.

Спектрограмма звука большого колокола собора спасения нации, из Бухареста. Видна аналогичная картина. Отчётливо видны моменты ударов по колоколу.

Звук центробежного звукового извещателя (сирены). Видно, как с набором оборотов ротора повышается частота основного тона и гармоник, видны режимы установившихся оборотов и выбега.

Звук диафона — звукового извещателя, выполненного по принципу большого гудка. Заметно, что в самом начале работы имеется момент резкого щелчка, дающего всплеск по всему диапазону частот. Затем идёт период нестабильности, и частота какое-то время колеблется, а затем стабилизируется. Осторожно, громкий и резкий не совсем приятный звук!

Голос человека. Я специально выбрал нейтральный образец — пение молодой девушки на языке индейцев. Голоса живых существ всегда отличаются на спектрограммах наличием модуляции частоты (волны и изгибы) и наличием множества обертонов.

Мяукание кошки. Визуально похоже на человеческую речь, но есть одна особенность. Обратите внимание, что наиболее яркие участки в спектре находятся не на частоте основного колебания, а в области 2–3 кГц. Это можно объяснить резонансными особенностями анатомии животного, подчёркивающими средние, наиболее яркие части спектра.

Самые необычные спектральные картины дают записи птичьих песен. Пожалуй, только спектрограмма даёт понимание, насколько птицы виртуозно могут манипулировать со звуком: изменять его частоту, интенсивность и спектральный состав, причём делая это с большой скоростью.

Надеюсь, мой рассказ кого-то побудит заняться звукозаписью и исследованием мира звуков. Я призываю вас не откладывать дело до лучших времён и начать с тем уровнем оснащения, который у вас имеется, а именно с экспериментов по записи звуков на смартфон. Попробуйте записать различные звуки: голоса людей, животных, пение домашних птиц, звуки работы механизмов, звуки, издаваемые разными бытовыми предметами. Запишите и посмотрите, как выглядит их спектр!
© 2025 ООО «МТ ФИНАНС»
Telegram-канал со скидками, розыгрышами призов и новостями IT ?

Комментарии (27)
iShrimp
09.02.2025 15:59Мне показалось это очень странным и необычным. При помощи эквалайзера я отсёк всё, что лежало ниже 17 килогерц, и понизил в несколько десятков раз высоту звука при помощи инструмента «Change Pitch», чтобы можно было этот звук услышать в области единиц килогерц. И меня поразил результат: это было очень похоже на трели сверчка!
Точки на спектрограмме в области 17-18 кГц расположены слишком ровно для животного мира. Скорее, они могут быть помехами от цепей питания или артефактами оцифровки.
engine9 Автор
09.02.2025 15:59Я обещаю завтра днём найти ту запись и проделаю те же операции.
Насекомые могут вполне себе быть такими "метрономами" т.к. их надкрылья по сути — резонатор.
engine9 Автор
09.02.2025 15:59Нашел таки тот видеофрагмент и проделал описанные манипуляции, вот результат: https://disk.yandex.ru/d/VruCkflFstKiGQ
iShrimp
09.02.2025 15:59Звук колокола отличается от звука струны тем, что он негармоничен. Колокол (как и любое достаточно толстое упругое тело) имеет набор колебательных мод, которые не связаны рациональными соотношениями. Поэтому в спектре его звука "гармоники" располагаются с неравными интервалами.
В европейской традиции частоты колебаний колокола подстраивают (снимая металл с определённых участков) в соответствии с минорной гаммой.
В русской церковной традиции после отливки колокола, как правило, его специально не настраивали, поэтому частоты несколько отличаются, и звук становится ещё более сложным и непохожим на гармонический ряд.
Daddy_Cool
09.02.2025 15:59Ага! То-то я удивлялся, что не получается определить тональность колокольного звона.
VasVovec
09.02.2025 15:59Спасибо за интересную статью, Андрей.
Обратите внимание, что наиболее яркие участки в спектре находятся не на частоте основного колебания, а в области 2–3 кГц.
Что значит "основное колебание"? Как его определить на спектрограмме?
engine9 Автор
09.02.2025 15:59Это моя корявая формулировка. Имел в виду, что самая яркая компонента в тембре кошки сосредоточена в озвученном диапазоне, это видно по интенсивности сигнала. Белый цвет в энергетическом выражении сильнее цвета фуксии, еще слабее голубой.
VT100
09.02.2025 15:59В тред призываются комментаторы, прольющие свет на различные оконные функции (window type, у автора - Hann) в свете амплитудно-частотного разрешения.
Refridgerator
09.02.2025 15:59В английской википедии вопрос раскрыт достаточно подробно, плюс есть статья на хабре.
xkostuax
09.02.2025 15:59Интересная статья, хороший инструмент для сканера тишины например! До конца так и не понял, насколько Audacity урезанная под виндовс и есть ли там всё же фонокорректор или нет.
Lunatikoff
09.02.2025 15:59Могу ошибаться , но смешнючий микрофон-пленочка современных смартфонов вряд-ли подойдёт для сколько-нибудь хорошей записи. Полоса пропускания (частотный диапазон) не велики в рамках классического 20гц-20кГц. Микрофон смартфона примерно расчинан на человеческую речь, значит 3-4 кГц пик его АЧХ, если правильно понимаю. Всё что дальше или ниже он подрезает или не способен передать в принципе. Хотя тут ещё от чипа зависит, помню как с какой-то из Lumia от мелко мягких эксперименировал, с внешнего звукового генератора воспроизводил сигнал и записывал , так вот по итогу встроенная система шумоподавления на 3-4 микрофонах вроде гасила всё что не голос)))
SADKO
09.02.2025 15:59Ну, в современных телефонах в основном MEMS микрофоны, которые действительно и специально кастрированы во многих отношениях что бы получить хороший цифровой выход...
...а раньше использовались компактные электреты, и у них звук не так уж и плох, если до него добраться
engine9 Автор
09.02.2025 15:59Я раньше считал, что нет смысла заниматься чем-то если нет инструмента профессионального уровня. Сейчас считаю ровно наоборот, что если есть желание нужно начинать на инструментах которые есть под рукой. Выжимать из них всё и далее докупать под задачи.
Неплохие капсюли можно наковырять из фирменных гарнитур от сотовых телефонов с mini-jack коннектором.
alexsavochkin
09.02.2025 15:59Электретная петличка для смартфона стоит недорого, и можно даже найти довольно неплохую. Шумовой порог высоковат, но для начала это лучше, чем ничего. А так-то, конечно, никто не запретит начинать сразу с 32-битного рекордера и конденсаторных микрофонов, или с измерительных.
RranAmaru
09.02.2025 15:59Оффтоп: Гифка про Window Size напомнила принцип неопределенности в квантовой механике.
На спектрограмме можем либо точно определить где начало и конец сигнала (узкое окно), а частота расплывается, либо точно определяем частоту (скорость колебаний), а начало и конец расплываются (широкое окно).
В квантовой механике возможно либо точно определить координаты частицы, либо ее скорость.
Что-то в этом есть...
korul
09.02.2025 15:59Очень удобно спектр смотреть вот этим инструментом
https://github.com/KORuL/NewOscillog
shagrath_000
09.02.2025 15:59Спектрограммы воспроизводимого контента по умолчанию встроены в плеер foobar 2000 - давненько в них залипаю )
iShrimp
09.02.2025 15:59Ещё одно применение спектра в реальной жизни: с помощью приложения Phonopaper звук можно сохранить на бумажном носителе... а затем сфотографировать и воспроизвести: Печать и воспроизведение звука на бумаге.
Akr0n
09.02.2025 15:59Приложение BirdNET позволяет сразу полюбоваться на спектрограмму пения пернатого.
ahabreader
А еще иногда бывает, что смотришь на звук, а видишь телевизор. Иногда даже два.
15.625 кГц - строчная частота PAL
15.73426 кГц - NTSC