15 мая инженеры из Колумбийского Института Цукермана опубликовали в журнале Science Advances промежуточные итоги своего экспериментального проекта – слухового аппарата, способного фокусироваться только на тех звуках, которые интересуют его владельца.

Проблема фильтрации звукового потока, которую также называют «проблемой коктейльной вечеринки», стоит перед учеными уже давно. Люди, не страдающие нарушениями слуха, обладают врожденной способностью выделять из общего фона отдельные голоса и прислушиваться к ним. У тех же, кто вынужден пользоваться слуховым аппаратом, отсутствует необходимая связь между искусственными органами слуха и мозгом. По этой причине современные аппараты мало помогают слабослышащим в шумных помещениях.
Найм Мезгарани и его команда поставили перед собой цель воссоздать эту связь средствами искусственного интеллекта.

Работа над проектом продолжалась около семи лет и прошла через несколько этапов. В 2012 году исследователи выяснили, что, наблюдая за мозговыми волнами, можно установить, на каком именно потоке звуковой информации сосредоточен слушающий. Следующим шагом стала разработка технологии, позволяющей выделять в общем шумовом фоне отдельные голоса. Первый прототип появился уже в 2017 году, но на тот момент его возможности были ограничены: он мог распознавать только те голоса, которые использовались при обучении. Соответственно, говорить даже о гипотетической применимости разработки в быту было еще рано.

Чтобы усовершенствовать технологию, специалисты из команды Мезгарани прибегли к глубокому обучению. Созданная ими нейросеть разделяет голоса, опираясь на сложные вычисления вероятности того, что определенный набор звуков относится к одному источнику, а также на информацию о спектре и времени звучания.

Итоговую разработку команда тестировала на пациентах-эпилептиках, которым была показана операция на мозг. Исследователи внедряли добровольцам в мозг особый электрод, чтобы в дальнейшем наблюдать за реакциями в процессе слушания. Участникам эксперимента проигрывалась запись с двумя голосами, женским и мужским, при этом их просили попеременно прислушиваться сначала к одному, потом к другому. Электронные сигналы, поступившие с датчика, затем передавались обученному алгоритму – он расшифровывал информацию о том, какой голос находится в центре внимания пациента, усиливал его, одновременно приглушая другой, и выдавал обработанный аудиофайл.

В данный момент алгоритм еще не дошел до стопроцентной точности и нуждается в некоторых доработках. Мезгарани предполагает, что пройдет не меньше пяти лет, прежде чем на рынок выйдут слуховые аппараты нового образца. Окупится ли эта конкретная бизнес-идея, пока неясно, однако научное сообщество единодушно признает, что алгоритм, способный анализировать аудиоматериал на таком уровне, определенно найдет применение в производстве гаджетов.

Комментарии (2)


  1. kasiopei
    20.05.2019 22:12

    А направленный микрофон не подходит? На что голову повернул, то и слышишь.
    Если заморочиться, то фазированные решетки можно применить. Система будет обнаруживать испровождать источники звука. Выбор источника колесиком.


    1. koutsenko
      21.05.2019 10:50

      Направленный не подойдет. Вы пробовали постоянно крутить головой находясь в компании, и при этом успеть сделать это именно в тот момент, когда кто-то захочет что-то сказать? :) С колесиком тоже трэш. Но на самом деле с микрофоном в нормальных с/а проблем мало, речь об улучшении фокуса на речи именно в мозгу.

      Внимание не успевает вычленить речь из прочих звуков и сконцентрироваться чтобы её распознать. Даже если это удалось сделать (понять что было услышано), то процессорного времени мозга остается немного чтобы адекватно отреагировать :) Так что режим «минусовки наоборот» в любом случае полезен. Ну а слушать двух-трех одновременно говорящих уже проще будет, это всё равно что читать активный чатик.