![](https://habrastorage.org/webt/yc/kd/4g/yckd4ghltvc5bj17xsrlbljkqpq.png)
Моё увлечение акустикой началось с проекта, когда я хотел сделать анимацию северного сияния, которая бы реагировала на музыку. Я использовал фрагмент классического произведения Баха. Открыл его в программе Audacity в режиме отображения спектрограммы, и внимание сразу привлекли волнообразные штрихи. Так на спектре выглядит исполнительский приём вибрато, смысл которого в переменном изменении тона при игре на музыкальном инструменте.
![](https://habrastorage.org/webt/wx/b3/we/wxb3wefyvq8gx7bcxwvbfwo-dpc.png)
Спектрограмма — это двумерное графическое отображение спектра сигнала, изменяющегося во времени. Рассмотрим, как выглядит сигнал с основной частотой в 1000 Гц, который содержит добавочные спектральные компоненты.
![](https://habrastorage.org/webt/l7/hv/b5/l7hvb5iljx7wcomsktxfm9txoo0.png)
Вертикальная ось спектрограммы — это ось частоты, горизонтальная — времени. Спектральная мощность выражается в виде яркости и цвета. Серый цвет (фон) — это отсутствие сигнала, голубой — слабый сигнал, фуксия и белый — сильный сигнал. Мы видим ряд ярких горизонтальных полос. Самая нижняя находится на отметке в 1000 Гц, далее идут полосы на частотах 2000 Гц, 4000 Гц и выше. Это так называемые гармоники, известные музыкантам как обертоны.
▍ Создаём гармонический сигнал
Чтобы сгенерировать сигнал самостоятельно и посмотреть его спектр, сделайте следующее. Вначале запустите Audacity, выберите в верхнем меню «Tracks» → «Add New» → «Mono Track». Затем кликните по пункту меню «Generate» — там будут разные варианты, выберите «Tone», и в открывшемся окошке введите значения частоты, продолжительности и амплитуды. Рекомендую сгенерировать синусоидальный сигнал с амплитудой 0.6, продолжительностью 10–20 секунд и частотой в 1 килогерц.
![](https://habrastorage.org/webt/8w/tb/gw/8wtbgwe0yer7i-zd8mxge81qoly.png)
Внутри выделенного трека появится сгенерированный сигнал.
Чтобы переключить режим отображения спектрограммы, нажмите на выпадающий список с названием трека и переключите режим, как показано на скриншоте.
![](https://habrastorage.org/webt/2s/bv/vn/2sbvvne_ex2u6sferasghpaayke.png)
Вы увидите примерно такую же картину (ширину треков можно произвольно изменять).
▍ Настройки отображения спектрограммы
Существует фундаментальная математическая причина, называемая оконным преобразованием Фурье, которое можно сравнить с математическим «окном», анализирующим небольшой участок аудиосигнала и разбивающим его на частотные компоненты.
![](https://habrastorage.org/webt/1e/-n/rb/1e-nrbvmuvh9fnwlq80nvyfzwya.png)
Настройка «Window Size» влияет на детализацию спектрограммы. Меньшее количество сэмплов улучшает временное разрешение — вы видите более точную картину изменений сигнала по времени. Напротив, большее количество сэмплов повышает частотное разрешение, позволяя детальнее рассматривать спектральный состав.
![](https://habrastorage.org/webt/q9/7k/ao/q97kaoccjyiprby7ptdpbwbwkhu.gif)
Усиление «Gain (dB)» позволяет сделать слабые сигналы ярче. Динамический диапазон «Range (dB)» позволяет указать охват между самыми тихими и самыми громкими частями сигнала. Узкий охват делает спектрограмму контрастнее. Усиление влияет на общий уровень яркости.
Чёрно-белый режим спектрограммы упрощает восприятие, где интенсивность оттенков серого показывает амплитуду частотных составляющих. В моей версии программы белый цвет означает тишину, а чёрный — сигнал.
О влиянии настройки масштаба «Scale» я расскажу чуть позже.
▍ График спектра
Выделите небольшой, секунда-две, участок трека с сигналом. Затем в меню «Analyze» выберите «Plot Spectrum». Откроется окно, содержащее график АЧХ (амплитудно-частотной характеристики) усреднённого спектра выделенного фрагмента.
![](https://habrastorage.org/webt/3h/tt/qs/3httqsx0xzzowlttc_7jw2mjcoe.png)
В самом начале знакомства нам важны две настройки: «Size» — этот пункт аналогичен настройке, отвечающей за размер окна, которое было упомянуто выше. Чем выше значение, тем большее разрешение АЧХ. И «Axis», которая отвечает за выбор линейного либо логарифмического масштаба оси частоты. Ниже вы поймёте, для чего они нужны.
![](https://habrastorage.org/webt/da/au/2b/daau2bfnzxxmbffjmy1km9bmrs8.png)
График АЧХ можно представить как участок спектрограммы, который мы вырезали в виде узкой области, повернули и смотрим на него с торца. И наоборот, спектрограмму можно представить в виде пакета отдельных АЧХ, стоящих друг за другом и показывающих динамику фонограммы во времени.
Обратите внимание, что значения спектра можно экспортировать в текстовый файл для анализа в математических программах.
Также есть полезная функция — при перемещении курсора показывается значение частоты пика в герцах и его ближайший музыкальный тон (на скриншоте это Си второй октавы или B5). Это может пригодиться для настройки инструментов или для реверс-инжиниринга мелодии.
▍ Логарифмический и линейный масштабы
Взгляните на скриншот: это спектрограмма звукоряда равномерно темперированного строя от До контроктавы до конца пятой октавы. Вот так он выглядит в линейном масштабе. Я включил на синтезаторе простой генератор синусоидальной волны, чтобы не было гармоник. Представьте, что вы нажимаете последовательно клавиши длинного-длинного рояля от самой левой до правой, не пропуская ни одну.
![](https://habrastorage.org/webt/wz/x4/di/wzx4dicyvd9p8bltld8nonoxb-g.png)
Обратите внимание, что интервал в один полутон в области баса имеет очень малое приращение в абсолютном значении частоты. Вторая нота Ре отличается от предшествующей ноты До на четыре герца. Примерно в середине звукоряда во второй октаве Ре отличается от До на 64 герца. В конце, в пятой октаве, разница между этими нотами почти полкилогерца! При этом для нашего слуха переходы через половину тона по всему звукоряду кажутся равномерными.
Отгадка в нашей природной особенности ощущения звуковысотности: она логарифмическая. И если включить логарифмический масштаб для отображения, ступени звукоряда выстроятся почти в прямую линию.
![](https://habrastorage.org/webt/eq/vw/gm/eqvwgmfvokqozxgjbt1zpfn5g6a.png)
Становится заметно, что в области басов разрешение значительно ниже, чем в области высоких частот. Это происходит как раз по причине логарифмического масштаба оси частоты.
▍ Интересная находка
Однажды я открыл в Audacity звук с видео, на котором были записаны голоса сорок (птиц), и в одном из каналов взгляд зацепился за странные «шашечки», едва заметные глазу. Обратите внимание на область 17 000 Гц.
![](https://habrastorage.org/webt/m8/pd/ji/m8pdjisecrmedbbxqcfartch-si.png)
Мне показалось это очень странным и необычным. При помощи эквалайзера я отсёк всё, что лежало ниже 17 килогерц, и понизил в несколько десятков раз высоту звука при помощи инструмента «Change Pitch», чтобы можно было этот звук услышать в области единиц килогерц. И меня поразил результат: это было очень похоже на трели сверчка! Оказывается, у нас водятся некие насекомые, издающие трели в высокочастотной (и уже недоступной для моих ушей) части спектра.
▍ Как выглядят спектры разных звуков
Много о частотном составе звука можно узнать, взглянув на спектрограмму. Я выбрал в фонде Викимедиа различные примеры звуковых записей, на каждый из которых будет ссылка. Вы можете сначала посмотреть на спектрограмму.
Колокольчики. Видно, что звук занимает высокочастотный диапазон и состоит из множества коротких быстрозатухающих всплесков.
![](https://habrastorage.org/webt/t7/tg/oq/t7tgoqsr09zyos1lfoe3vfm3awi.png)
Звук больших колоколов (как и других упругих металлических предметов) имеет несколько характерных особенностей. Во-первых, видны стабильные полосы — частоты собственных механических резонансов системы. Во-вторых, отчётливо видно, что высокочастотные компоненты колебаний затухают быстрее низкочастотных. В-третьих, заметно, что сила колебаний гармоник как бы ритмически пульсирует — этот эффект почему-то нравится нам и на слух воспринимается как глубокий и бархатистый, богатый звук, как у этого плоского колокола.
![](https://habrastorage.org/webt/tk/co/tj/tkcotj8qk9jze2fzr_6zvpvktae.png)
Спектрограмма звука большого колокола собора спасения нации, из Бухареста. Видна аналогичная картина. Отчётливо видны моменты ударов по колоколу.
![](https://habrastorage.org/webt/k7/c-/4t/k7c-4tqcxlxyvznjgtocmlpnq_g.png)
Звук центробежного звукового извещателя (сирены). Видно, как с набором оборотов ротора повышается частота основного тона и гармоник, видны режимы установившихся оборотов и выбега.
![](https://habrastorage.org/webt/nu/8v/ki/nu8vki4okdhup2orryp3156tcxe.png)
Звук диафона — звукового извещателя, выполненного по принципу большого гудка. Заметно, что в самом начале работы имеется момент резкого щелчка, дающего всплеск по всему диапазону частот. Затем идёт период нестабильности, и частота какое-то время колеблется, а затем стабилизируется. Осторожно, громкий и резкий не совсем приятный звук!
![](https://habrastorage.org/webt/f8/xh/tn/f8xhtnbdtwkactlgifqzexlnusi.png)
Голос человека. Я специально выбрал нейтральный образец — пение молодой девушки на языке индейцев. Голоса живых существ всегда отличаются на спектрограммах наличием модуляции частоты (волны и изгибы) и наличием множества обертонов.
![](https://habrastorage.org/webt/eg/ls/gk/eglsgkubpnx-n1tv9gdiuo4w0io.png)
Мяукание кошки. Визуально похоже на человеческую речь, но есть одна особенность. Обратите внимание, что наиболее яркие участки в спектре находятся не на частоте основного колебания, а в области 2–3 кГц. Это можно объяснить резонансными особенностями анатомии животного, подчёркивающими средние, наиболее яркие части спектра.
![](https://habrastorage.org/webt/yz/gq/pd/yzgqpdiccii3eerfyfwtmbbfbpw.png)
Самые необычные спектральные картины дают записи птичьих песен. Пожалуй, только спектрограмма даёт понимание, насколько птицы виртуозно могут манипулировать со звуком: изменять его частоту, интенсивность и спектральный состав, причём делая это с большой скоростью.
![](https://habrastorage.org/webt/dc/0q/1p/dc0q1phvkcgwjx6x7ajvdw149ji.png)
Надеюсь, мой рассказ кого-то побудит заняться звукозаписью и исследованием мира звуков. Я призываю вас не откладывать дело до лучших времён и начать с тем уровнем оснащения, который у вас имеется, а именно с экспериментов по записи звуков на смартфон. Попробуйте записать различные звуки: голоса людей, животных, пение домашних птиц, звуки работы механизмов, звуки, издаваемые разными бытовыми предметами. Запишите и посмотрите, как выглядит их спектр!
© 2025 ООО «МТ ФИНАНС»
Telegram-канал со скидками, розыгрышами призов и новостями IT ?
![](https://habrastorage.org/webt/yo/se/km/yosekm4h_f7y7oia-ghbbpc0phi.png)
Комментарии (26)
iShrimp
09.02.2025 15:59Мне показалось это очень странным и необычным. При помощи эквалайзера я отсёк всё, что лежало ниже 17 килогерц, и понизил в несколько десятков раз высоту звука при помощи инструмента «Change Pitch», чтобы можно было этот звук услышать в области единиц килогерц. И меня поразил результат: это было очень похоже на трели сверчка!
Точки на спектрограмме в области 17-18 кГц расположены слишком ровно для животного мира. Скорее, они могут быть помехами от цепей питания или артефактами оцифровки.
engine9 Автор
09.02.2025 15:59Я обещаю завтра днём найти ту запись и проделаю те же операции.
Насекомые могут вполне себе быть такими "метрономами" т.к. их надкрылья по сути — резонатор.
engine9 Автор
09.02.2025 15:59Нашел таки тот видеофрагмент и проделал описанные манипуляции, вот результат: https://disk.yandex.ru/d/VruCkflFstKiGQ
iShrimp
09.02.2025 15:59Звук колокола отличается от звука струны тем, что он негармоничен. Колокол (как и любое достаточно толстое упругое тело) имеет набор колебательных мод, которые не связаны рациональными соотношениями. Поэтому в спектре его звука "гармоники" располагаются с неравными интервалами.
В европейской традиции частоты колебаний колокола подстраивают (снимая металл с определённых участков) в соответствии с минорной гаммой.
В русской церковной традиции после отливки колокола, как правило, его специально не настраивали, поэтому частоты несколько отличаются, и звук становится ещё более сложным и непохожим на гармонический ряд.
VasVovec
09.02.2025 15:59Спасибо за интересную статью, Андрей.
Обратите внимание, что наиболее яркие участки в спектре находятся не на частоте основного колебания, а в области 2–3 кГц.
Что значит "основное колебание"? Как его определить на спектрограмме?
engine9 Автор
09.02.2025 15:59Это моя корявая формулировка. Имел в виду, что самая яркая компонента в тембре кошки сосредоточена в озвученном диапазоне, это видно по интенсивности сигнала. Белый цвет в энергетическом выражении сильнее цвета фуксии, еще слабее голубой.
VT100
09.02.2025 15:59В тред призываются комментаторы, прольющие свет на различные оконные функции (window type, у автора - Hann) в свете амплитудно-частотного разрешения.
Refridgerator
09.02.2025 15:59В английской википедии вопрос раскрыт достаточно подробно, плюс есть статья на хабре.
xkostuax
09.02.2025 15:59Интересная статья, хороший инструмент для сканера тишины например! До конца так и не понял, насколько Audacity урезанная под виндовс и есть ли там всё же фонокорректор или нет.
Lunatikoff
09.02.2025 15:59Могу ошибаться , но смешнючий микрофон-пленочка современных смартфонов вряд-ли подойдёт для сколько-нибудь хорошей записи. Полоса пропускания (частотный диапазон) не велики в рамках классического 20гц-20кГц. Микрофон смартфона примерно расчинан на человеческую речь, значит 3-4 кГц пик его АЧХ, если правильно понимаю. Всё что дальше или ниже он подрезает или не способен передать в принципе. Хотя тут ещё от чипа зависит, помню как с какой-то из Lumia от мелко мягких эксперименировал, с внешнего звукового генератора воспроизводил сигнал и записывал , так вот по итогу встроенная система шумоподавления на 3-4 микрофонах вроде гасила всё что не голос)))
SADKO
09.02.2025 15:59Ну, в современных телефонах в основном MEMS микрофоны, которые действительно и специально кастрированы во многих отношениях что бы получить хороший цифровой выход...
...а раньше использовались компактные электреты, и у них звук не так уж и плох, если до него добраться
engine9 Автор
09.02.2025 15:59Я раньше считал, что нет смысла заниматься чем-то если нет инструмента профессионального уровня. Сейчас считаю ровно наоборот, что если есть желание нужно начинать на инструментах которые есть под рукой. Выжимать из них всё и далее докупать под задачи.
Неплохие капсюли можно наковырять из фирменных гарнитур от сотовых телефонов с mini-jack коннектором.
alexsavochkin
09.02.2025 15:59Электретная петличка для смартфона стоит недорого, и можно даже найти довольно неплохую. Шумовой порог высоковат, но для начала это лучше, чем ничего. А так-то, конечно, никто не запретит начинать сразу с 32-битного рекордера и конденсаторных микрофонов, или с измерительных.
RranAmaru
09.02.2025 15:59Оффтоп: Гифка про Window Size напомнила принцип неопределенности в квантовой механике.
На спектрограмме можем либо точно определить где начало и конец сигнала (узкое окно), а частота расплывается, либо точно определяем частоту (скорость колебаний), а начало и конец расплываются (широкое окно).
В квантовой механике возможно либо точно определить координаты частицы, либо ее скорость.
Что-то в этом есть...
korul
09.02.2025 15:59Очень удобно спектр смотреть вот этим инструментом
https://github.com/KORuL/NewOscillog
shagrath_000
09.02.2025 15:59Спектрограммы воспроизводимого контента по умолчанию встроены в плеер foobar 2000 - давненько в них залипаю )
iShrimp
09.02.2025 15:59Ещё одно применение спектра в реальной жизни: с помощью приложения Phonopaper звук можно сохранить на бумажном носителе... а затем сфотографировать и воспроизвести: Печать и воспроизведение звука на бумаге.
Akr0n
09.02.2025 15:59Приложение BirdNET позволяет сразу полюбоваться на спектрограмму пения пернатого.
ahabreader
А еще иногда бывает, что смотришь на звук, а видишь телевизор. Иногда даже два.
15.625 кГц - строчная частота PAL
15.73426 кГц - NTSC