Нейротехнологии постепенно выходят за пределы лабораторий и становятся поддержкой для людей с нарушениями здоровья. Уже тестируются мозговые импланты вроде Neuralink, помогающие пациентам управлять компьютером или протезом. Но исследователи из медицинского центра UC Davis сделали следующий шаг: научились озвучивать мысли людей. Новый нейроинтерфейс считывает сигналы из речевой зоны мозга и синтезирует голос — без промежуточных действий со стороны пациента. Давайте разбираться, что это за проект.

Что за технология

Центральная фигура исследования — 45-летний пациент с диагнозом «боковой амиотрофический склероз». Его имя ученые не сообщают, он обозначен просто как T15. Из-за паралича речевых мышц его речь неразборчива: без вспомогательных средств окружающие понимают не более 5% сказанного. Раньше для общения он использовал гироскопическую мышь — управлял курсором движениями головы и набирал текст. Новый интерфейс мозг-компьютер (BCI) устраняет этот обходной путь: система напрямую фиксирует нейронные сигналы и синтезирует речь в реальном времени.

Тут, конечно, без инвазивной медицины не обойтись. Чтобы вернуть пациента в социум, ему в речевую зону моторной коры вживили 256 микроэлектродов. Нейроны этого участка управляют артикуляционными мышцами: губами, языком, гортанью. Интересно, что они активируются при попытке говорить, даже если паралич делает это невозможным.

Микроэлектроды регистрируют электрическую активность отдельных нейронов — так называемые потенциалы действия. Они фиксируются с высокой точностью, что позволяет системе отличать, какие именно звуки человек пытается произнести. По характеру активности можно определить ритм речи, интонацию или отдельные звуковые особенности, такие как гласные или согласные. То есть система позволяет использовать любые комбинации, включая редкие имена, междометия или даже мелодии. Она улавливает высоту тона, ритм, разные уровни громкости и так далее. T15 может подчеркнуть вопрос повышением тона или добавить эмоций в разговор, что делает общение более живым. Для людей с таким диагнозом возможность снова говорить, причем эмоционально — возвращение самого себя.

Декодер задействует рекуррентные нейронные сети (RNN), обученные на данных, собранных во время экспериментов с T15. Пациент пытался произносить слова, фразы или звуки, а система фиксировала нейронные сигналы. Алгоритм выделяет акустические параметры: формантные частоты (определяют гласные), интенсивность (громкость), просодические элементы (ударение, ритм). Например, повышение тона в вопросе связано с уникальным паттерном активности, который декодер распознает с точностью до миллисекунд.

Как работает система. Источник
Как работает система. Источник

Вокодер построен на модели линейного предсказания (LPC) — она имитирует работу органов речи. Чтобы убрать помехи, система использует фильтры подавления шума. Обучение проходило на 12 тысячах звуков — гласных, согласных и междометий, которые пациент произнес до тяжелого ухудшения речи (их записали пару лет назад). Для большей естественности применяется спектральная нормализация: она сглаживает частотные искажения. Чтобы ускорить обработку и повысить точность, используется метод главных компонент (PCA), а также алгоритмы кластеризации, например k-means, которые группируют нейронные сигналы по типам звуков, — это особенно важно для сложных артикуляций вроде шипящих.

Имплантированные микроэлектроды регистрируют нейронную активность в моторной коре, отвечающей за артикуляцию речи. Из сигналов извлекаются характеристики — частота пересечения порогов и мощность в полосе спайков. Эти данные поступают в причинный (каузальный) нейронный декодер, который преобразует их в низкоразмерные признаки речи во временной шкале. Дальше вокодер синтезирует аудиосигнал, обеспечивая обратную звуковую связь. Суммарная задержка между мозговой активностью и полученной речью составляет всего 8,5 мс. Источник
Имплантированные микроэлектроды регистрируют нейронную активность в моторной коре, отвечающей за артикуляцию речи. Из сигналов извлекаются характеристики — частота пересечения порогов и мощность в полосе спайков. Эти данные поступают в причинный (каузальный) нейронный декодер, который преобразует их в низкоразмерные признаки речи во временной шкале. Дальше вокодер синтезирует аудиосигнал, обеспечивая обратную звуковую связь. Суммарная задержка между мозговой активностью и полученной речью составляет всего 8,5 мс. Источник

Чтобы повысить точность, исследователи применили адаптивную фильтрацию на основе алгоритма Калмана — она помогает стабилизировать сигналы, даже если активность мозга со временем меняется. Для удаления шумов и артефактов, возникающих из-за движений головы или внешних помех, использовалось вейвлет-преобразование. Точность текущего прототипа в открытом тесте составляет 43,75% ошибок. Это в два раза точнее, чем в случае попытки пациента говорить без технических средств. Окружающие понимают около 4–5% сказанного.

Пациента готовят к тестированию. Источник
Пациента готовят к тестированию. Источник

Как проверяли результат

Проверка качества работы системы проводилась в два этапа — открытый и закрытый. На первом этапе слушателям включали фразы, сгенерированные нейроинтерфейсом, и предлагали выбрать правильный вариант расшифровки из нескольких текстов. Это был тест с ограниченным выбором, где использовалась база TIMIT — набор стандартных фраз для оценки речи. Все участники без труда угадывали правильные фразы, что дало 100% точности. Во втором, более сложном тесте, никаких вариантов не давали — нужно было просто услышать и записать, что понял. В этом случае система справлялась хуже: чаще всего ошибки возникали на согласных звуках вроде «б» или «г».

Чтобы оценить, насколько хорошо система воспроизводит речь, исследователи использовали стандартные метрики. Во-первых, это показатель ошибок WER — он демонстрирует, какая доля слов была распознана неправильно. Во-вторых, субъективная шкала MOS — участники теста оценивали, насколько речь звучит понятно, от 1 до 5 баллов. Кроме того, проводились специальные прослушивания, чтобы понять, передает ли система эмоции: наблюдатели определяли, слышится ли в голосе, например, радость или удивление. Результаты показали, что новая технология гораздо лучше справляется с интонациями, чем старые синтезаторы, основанные на тексте.

Кроме точности распознавания, исследователи оценивали и временные характеристики речи — насколько быстро система реагирует на попытки что-то сказать. Также проводили сравнение с классическими синтезаторами вроде DECtalk. Новый интерфейс оказался заметно лучше в передаче естественных переходов между звуками — особенно в быстрых фразах и диалогах.

Что дальше

Пока что прототип далек от идеала: он не позволяет вести свободный разговор. Система правильно распознает только около половины сказанного. Но это уже серьезный результат, ведь проект пока находится на стадии «доказательства концепции» (proof of concept). В дальнейшем ученые планируют увеличить количество электродов с 256 до 1 000 или даже 2 000, чтобы точнее считывать сигналы мозга и повысить надежность распознавания.

Чтобы улучшить качество анализа и звучания, исследователи дорабатывают алгоритмы. Планируют подключить модели на основе трансформеров — например, BERT — чтобы точнее распознавать мозговые сигналы. Для более плавной и естественной речи вместо текущего синтезатора могут использовать WaveNet — продвинутую модель, способную хорошо воспроизводить переходы между звуками. Современные чипы вроде NVIDIA H200 обеспечат нужную мощность для такой обработки.

Чтобы технология стала по-настоящему удобной, ее нужно адаптировать к изменениям в мозговой активности, которые происходят со временем — особенно при прогрессировании болезни. Для этого понадобится обучение системы «на ходу» и постоянная обратная связь от пользователя. В будущем такой нейроинтерфейс можно будет объединить с другими BCI-системами — например, для управления курсором или протезами. Это поможет создать универсальную платформу для общения и взаимодействия. А использование данных из разных зон мозга и нейросетей с долговременной памятью (например, LSTM) позволит точнее понимать, что именно хочет сказать человек, и сократить ошибки при сложных фразах.

Комментарии (1)


  1. Vedomir
    11.07.2025 09:18

    Очень хорошее дело - разработка таких систем.