В вопросе здоровья мы привыкли доверять классике — подсчету кровяных клеток и просвечиванию нашего тела разного рода лучами. А вот анализ голоса до сих пор не брался в расчет, хотя обычное «голосовое» могло бы рассказать о состоянии тела (и духа) не меньше. Мозг инициирует речь, челюсть, губы и язык формируют звуки, легкие и гортань производят конечный результат — и вот уже с наших уст срываются смех или слова негодования, в зависимости от ситуации. Но не только — вместе с ними — целая масса биомеханических маркеров.
Это не слишком популярное знание, но если мы поговорим с опытным врачом, он, скорее всего, скажет, что не сможет отличить по голосу легочную болезнь от, скажем, болезни Паркинсона. А если мы спросим психиатра, тот ответит, что, увы, отлично знает, как звучит депрессия. Смена мышечного тонуса, отеки, возраст, скачки гормонов — все это меняет физику тканей, а значит, и их механику. А раз у нас есть конкретные физические маркеры — следовательно, есть и входящая информация, которую можно отдать на растерзание распознание паттернов ИИ. В статье рассказываем, как это происходит: какие болезни легче всего выявлять с ИИ и как может выглядеть будущее этой технологии.
Поехали.
Вместо дипфейков
Сейчас область голосовых ИИ-интерфейсов на пике своего развития. Apple презентует AirPods со встроенным синхронным переводчиком, распознавание речи ассистентами стало рутиной для смартфонов и бизнес-сервисов.
Но пока мы обсуждаем эти мейнстримные технологии, медтех тоже не стоит на месте и подходит к голосу со своим стеком запросов. С помощью голосовых алгоритмов ученые пытаются найти конкретные акустические биомаркеры различных заболеваний, чтобы в будущем использовать их для ранней диагностики и удаленного мониторинга болезней.
Что можно обнаружить прямо сейчас
Речь уже играет заметную роль в диагностике — иногда достаточно обычного смол-тока с врачом. Например:
Тихий голос — депрессия
Люди с депрессией часто говорят тише и медленнее, рассуждают в более негативных и радикальных терминах. Врачи просят таких пациентов запоминать и повторять группы слов — обычно у них ухудшена память. Также исследования показывают другие акустические признаки (но об этом ниже).
Вялая речь — болезнь Паркинсона
Это нейродегенеративное заболевание проявляется в монотонности речи и нарушении артикуляции из-за слабости мышц. Характерно, что изменения голоса могут появиться за десяток лет до моторных симптомов!
Придыхание — болезни сердца и легких
Задержка жидкости при сердечных болезнях делает связки набухшими — это замедляет их вибрацию и снижает тембр голоса. От одышки он становится рваным, с паузами и нестабильной громкостью. Часто голос звучит хрипло или с придыханием.
Как видно из примеров, достаточно информации о пациенте можно получить, уже просто невооруженным ухом послушав его голос. Если же применить к анализу еще и голосовые алгоритмы — можно выйти на весьма неожиданные результаты. Но сначала питч, джиттер и шиммер.
Как работает технология — кратко
![Пример спектрограммы при произнесении дифтонга [ai]. По оси X — время (в миллисекундах), по оси Y — частота (в килогерцах). Цвет показывает интенсивность сигнала: красные и жёлтые полосы — области наибольшей энергии (форманты, резонансы голоса), синие — тише/отсутствующие частоты. Пример спектрограммы при произнесении дифтонга [ai]. По оси X — время (в миллисекундах), по оси Y — частота (в килогерцах). Цвет показывает интенсивность сигнала: красные и жёлтые полосы — области наибольшей энергии (форманты, резонансы голоса), синие — тише/отсутствующие частоты.](https://habrastorage.org/r/w780/getpro/habr/upload_files/ca1/b9f/a5d/ca1b9fa5de3f2a64344814a32f2f7831.png)
Алгоритмы обработки голоса в медтехе устроены примерно так же, как и системы распознавания речи в смартфонах, но с поправкой на медицинские цели.
1) Сигнал
На вход поступает обычная аудиозапись речи. Врач может попросить пациента прочитать стандартный текст или просто поговорить. Для ИИ это не слова, а цифровая звуковая волна.
2) Превращение в спектрограмму
Первое, что делает алгоритм, — разбивает сигнал на куски (20–40 мс) и переводит его в спектрограмму. Это, по сути, тепловая карта, где по оси X — время, по оси Y — частоты, а цвет показывает мощность сигнала. На спектрограмме видны узоры: гласные превращаются в горизонтальные полосы, согласные — во всплески. У пациентов с болезнями сердца или легких, к примеру, эти узоры меняются предсказуемым образом и именно это фиксирует ИИ.
3) Извлечение признаков
Дальше идет работа с числовыми характеристиками голоса:
Питч — частота основного тона, которая меняется при утолщении или ослаблении связок.
Форманты — резонансные пики, отражающие состояние тканей гортани и рта.
Джиттер и шиммер — микроскачки частоты и громкости, часто сигнализирующие о патологиях дыхания или связок.
MFCC (Mel-Frequency Cepstral Coefficients) — математическое описание тембра, стандарт в распознавании речи.
Иными словами, голос «разбирается на детали» и превращается в набор чисел, которые проще анализировать алгоритмам.
4) Модели
Далее подключается непосредственно машинное обучение.
Для медицинских задач часто используют нейросети, обученные на спектрограммах: сверточные (CNN), рекуррентные (LSTM) и трансформеры (wav2vec, HuBERT).
Модель «видит» статистические закономерности, которые человек своим ухом уловить не способен. Например, пациент с диабетом может звучать почти как здоровый человек — но алгоритм зафиксирует легкий сдвиг в частотах и вариабельность тембра.
5 исследований, которые уже открыли новое

Нейросети в разы чувствительнее, чем даже опытный врач, и могут заметить изменения раньше медиков — причем включая те, о которых врачи и вовсе не думали. Вот несколько исследований, которые уже показали интересные (и иногда неожиданные результаты).
Проверка диабетической гипотезы
Ученые из Люксембургского института здравоохранения применили ИИ к записям речи примерно 600 человек и выяснили, что алгоритмы способны выявлять диабет 2-го типа.
В исследовании, опубликованном в декабре 2024 года, система корректно определила диабет у 71% мужчин и 66% женщин.
Теоретически было известно, что диабет влияет на голос: изменения могут быть вызваны отеком тканей при повышенном уровне глюкозы или повреждением нервов на фоне запущенной болезни. Однако даже опытный эндокринолог не смог бы поставить диагноз только по речи, а алгоритм справился.
Загадочный маркер ишемии
Другой пример использования ИИ — с неожиданным результатом — работа группы доктора Амира Лермана (Amir Lerman), специалиста по сердечно-сосудистым заболеваниям клиники Майо в Рочестере, США. ИИ иногда может создавать сигнатуры, которые являются хорошими предикторами заболеваний, но которые нелегко объяснить.
Так произошло с Лерманом, когда он с коллегами попросил добровольцев прочитать подготовленный текст, а затем использовал ИИ для анализа голосов. Модель построила спектрограмму и выделила паттерны частот и тембра, которые чаще встречались у людей с ишемической болезнью сердца.
Команда также обнаружила голосовые биомаркеры легочной гипертензии, при которой давление повышается в артериях легких и правой стороны сердца, и сердечной недостаточности. Как именно все эти состояния повлияли на характеристики голоса, пока остается загадкой.
Содержательный Альцгеймер
Иоаннис Пасхалидис (Ioannis Paschalidis) из Бостонского университета применил ИИ к записям речи участников Framingham Heart Study — одного из самых длительных исследований здоровья сердечно-сосудистой системы. В выборку вошли 166 человек с умеренными когнитивными нарушениями (MCI), из которых у 90 в течение шести последующих лет развилась болезнь Альцгеймера.
Модель проанализировала содержание интервью, дополненное демографическими данными (возраст, пол, образование), и сумела предсказать развитие болезни с точностью около 78–80%. Характерно, что успех обеспечил не анализ акустики (частоты, тембра, пауз), а именно лексика и структура речи — то, как человек строит высказывания.
Дрожание депрессии
Одно из самых интересных направлений связано с психиатрическими диагнозами. Исследование под руководством канадского ученого Жи Чена (Jie Chen) показало, что депрессия может проявляться в голосе не только через привычные клинические признаки — более тихую, медленную речь и негативный словарь, — но и через акустические маркеры. У пациентов фиксировалось характерное дрожание голосовых связок (vocal jitter), которое вызывает нестабильность частоты звука.
Эти изменения слишком тонкие, что их не всегда услышит даже опытный врач, но алгоритмы машинного обучения способны улавливать их систематически.
Похожие выводы сделал и Питер Фольц (Peter Foltz), когнитивный ученый из Университета Колорадо, США. Его команда разработала приложение, анализирующее речь людей с депрессией и шизофренией. В исследовании участвовали десятки пациентов, которых просили читать текст, пересказывать историю или отвечать на вопросы. Алгоритм фиксировал такие параметры, как скорость, ритм, громкость, тон и количество слов, а затем сопоставлял их с клиническими данными.
Технология показала себя пригодной для удаленного мониторинга состояния пациентов, однако выборки пока ограничиваются сотнями человек — для валидации же необходимы тысячи. Тут мы и упираемся в проблему.

Процесс и сложности
Невозможно хорошо обучить нейросеть, если под рукой нет достаточно объемных датасетов. Но сколько подобного материала можно собрать? Обследования регулярно проводятся врачами, однако чтобы оценивать людей так часто, как хотелось бы, не хватает специалистов. Пока речь идет десятках или сотнях тестируемых — не больше.
Другая сложность — в том, как сбалансировать этические соображения: голосовые записи трудно обезличить, и они могут раскрыть деликатную информацию. Так, в 2024 году стало известно, что ИИ способен различать курящих и некурящих с точностью 71% для женщин и 65% для мужчин. Но использование подобных диагностик без добровольного согласия способно за считанные минуты разрушить хрупкий мостик доверия между врачом и пациентом.
И, наконец, самое сложное — выстроить дорожные карты для каждой диагностики, четко связать нюансы сигналов и болезни. Например, у некоторых людей могут наблюдаться несколько болезней сразу и тогда диагностика усложниться.
Голосовая диагностика будет бесполезна, если мы не научим ИИ разделять накладывающиеся друг на друга признаки.
Решение
Пока что нет обширных датасетов, которые можно было бы использовать в исследованиях, — то есть ничего похожего на наборы данных в области геномики и радиологии. Так, чтобы исправить это, в 2022 году был запущен проект «Голос как биомаркер здоровья» (Voice as a Biomarker of Health).
Четырехлетняя инициатива стоимостью $14 млн объединяет исследователей из 50 учреждений. Цель — собрать голосовые данные 10 тыс. человек
Участники проекта должны выполнить 20 заданий, включая чтение определенных текстов, свободные ответы на вопросы, дыхание, кашель или произношение долгого звука «и» (например, звука «и» в слове «feet»). В декабре прошлого года, когда проект дошел до середины пути, был опубликован первый релиз данных: 12 500 записей 306 человек из США и Канады.
Проект также разрабатывает методы этичного использования голосовых данных. В своей первоначальной версии он предоставлял не исходные записи, а только спектрограммы, чтобы затруднить идентификацию говорящего. Позже исследователи из MIT разработали алгоритм, способный преобразовать спектрограмму обратно в речь. Голос сделали роботизированным.
Несмотря на все препоны, область голосовой диагностики не спеша, но верно развивается. Уже существуют компании, продающие «системы поддержки принятия клинических решений», которые информируют врачей о признаках когнитивных проблем.
Голосовые биомаркеры вряд ли заменят существующие тесты, но их можно будет использовать в сочетании с ними. Например, биомаркер ишемической болезни сердца получится использовать перед коронарной ангиографией — инвазивной процедурой с введением контраста в сосуды; достаточно будет простого голосового сообщения. Также можно было бы оценивать результаты лечения — если голосовое звучит хорошо, врач способен решить, что лечение работает и человеку ни к чему идти в клинику.