Арнав Капур, один из разработчиков нового типа интерфейса, демонстрирует работу устройства
Инженеры MIT создали систему, которая транскрибирует проговариваемые про себя слова и предложения в текст. Для успешной работы системы ее носителю нужно четко проговаривать слова и фразы про себя. В этом случае начинают работать мышцы лица, горла и языка, отвечающие за речь. Они не работают в полную силу, а лишь активируются, чего вполне достаточно новой системе для «чтения».
Со стороны это выглядит так — человек просто молчит, а система «говорит», вернее печатает. Разработка состоит из двух частей: гаджета, который необходимо носить на лице и специально «обученной» нейросети, которая анализирует получаемую информацию и ассоциирует ее с буквами и словами. Кроме того, интерфейс позволяет управлять гаджетами — переключать каналы на ТВ, вести учет затрат и вести вполне обычную активность.
Гаджет, который нужно надевать на ухо, включает в конструкцию «костяной наушник», то есть наушник, проводящий звук по кости к внутреннему уху. Внешний канал остается открытым и человек слышит все, что происходит вокруг.
Такая система весьма портативна и подходит для ношения как на улице, так и дома. Некоторые способы ее применения необычны. Например, можно играть в шахматы, проговаривая про себя ходы противника и получать помощь от компьютера.
Использовать разработку можно не только людям с физическими проблемами, но и обычным пользователям в самых разных ситуациях. Задачей разработчиков было создание системы, которая позволяет улучшить способности человека, дополнить его интеллект и в некотором роде органы чувств.
«Мы уже неспособны жить без смартфонов и других цифровых устройств», — говорит Петти Маес, один из участников проекта. «Но использование этих гаджетов мешает нам, необходимо прерываться для того, чтобы с ними работать. Например, идет беседа, и вдруг возникает нужда воспользоваться телефоном. Нужно его найти, взять в руки, ввести пароль и открыть приложение. Поэтому мои студенты и я долгое время экспериментировали с новыми типами систем и их форм-факторами, которые позволяют людям использовать преимущества современных технологий и сервисов, не отвлекаясь на, собственно, гаджеты».
Результаты работы были доложены на конференции Association for Computing Machinery’s ACM Intelligent User Interface.
В принципе, идея, предложенная учеными, не нова. Она появилась где-то в 19-м веке, а с появлением новых технологий над ее реализацией стали работать уже серьезно. В 60-х годах проговаривание про себя фраз и слов во время чтения стали считать сторонним фактором, который препятствует скорочтению (собственно, так оно и есть). Но у проговаривания есть свои преимущества, оно может использоваться при разработке компьютерных интерфейсов. Один из примеров был приведен выше.
В ходе создания системы ученым понадобилось вначале понять, какие мышцы на лице человека задействуются в ходе проговаривания активнее всего. После этого стартовала разработка прототипа устройства для преобразования «мыслей в текст». Основным считывающим сигналы элементом системы были электроды в количестве 16 штук.
С них снимали показания и сверяли с тем, что произносил про себя человек. Затем на основе полученного массива данных разработчики стали обучать нейросеть. Кстати, изначально устройство охватывало обе стороны лица. Но затем оказалось, что нейросеть преобразовывает сигналы в текст без проблем даже в том случае, если электроды находятся лишь на одной стороне лица. Поэтому для снижения габаритов системы ее уменьшили вдвое.
Обучение нейросети начали с малого — всего с 20 слов. С течением времени словарь увеличивали, и нейросеть стала более «умной». По словам ученых, ее можно персонализировать под любого человека, увеличивая точность распознавания «мыслей». Чем больше будет тренировок, тем лучше сможет работать система.
У разработчиков не было планов доводить ее до совершенства, это лишь proof-of-concept. Технология может использоваться во многих сферах, включая производство. Можно представить себе промышленное предприятие, уровень шума на котором мешает нормальному общению сотрудников по рабочим вопросам. В этом случае можно использовать такую систему. Аналогичная ситуация — с пожарниками или водолазами. Им не нужно будет говорить, система озвучит «мысли».
Пока что о коммерциализации технологии речь не идет, но такое развитие событий тоже не исключается.
Комментарии (23)
lingvo
11.04.2018 13:29Сорри, но мне непонятно, что значит проговаривать «про себя». Тихо шептать? Или как можно проговаривать не открывая рта?
ClearAirTurbulence
11.04.2018 14:37Легко. Попробуйте прочитать этот текст так, как если бы вы говорили его вслух, но не открывать при этом рта, и не двигая намеренно языком. Если наблюдать за этим процессом внимательно, заметите, что язык (и другие ответственные за речь мышцы) все равно совершает микроскопические движения. Они и будут улавливаться датчиками.
Вообще для «тихого» общения есть два основных подхода — (развивающийся сейчас) с помощью датчиков, считывающих активацию мышц, и с помощью обычных микрофонов (старые добрые ларингофоны).
stanislavkulikov
11.04.2018 14:46Я вот не знаю ни одного человека, который бы пользовался голосовым управлением. А вот эта штука, у которой явно больше погрешность, и вообще бесполезной получается.
sith
11.04.2018 22:17Я уже несколько лет ежедневно пользуюсь Siri. Она всё ещё очень тупая, но тем не менее очень полезная. Начиная от набора голосом текстовых сообщений, Call my wife, Set an alarm for, Set a timer и заканчивая Take me home, Where is my wife? и Hey Siri, What time is it now?, когда валяешься на диване и смотришь какой-нибудь фильм по Netflix.
arheops
11.04.2018 19:52Получился очень громоздкий и плохо держащийся лорингофон.
yurrig
12.04.2018 04:03С такой штукой, когда доведут до ума, голосовое управление компом (да и не только) может получить шанс — станет бесшумным и помехозащищенным. Да и просто комфортнее, когда вслух не надо команды произносить. А если еще курсором можно будет управлять движениями глаз…
arheops
12.04.2018 07:10Так лорингофон уже сейчас доведен до ума.
yurrig
12.04.2018 08:20С ним же придется вслух команды проговаривать… Представьте себе такой офис)
arheops
12.04.2018 08:32В том то и дело, что нет. Вы проговариваете слова, не выдавая воздух из легких, он реагирует на дрожание связок. После получасовой тренировки у вас это получается без слышимых звуков.
Memiy
12.04.2018 10:45Слышал нечто подобное лет 5-7 назад.
Вот только гугл ничего не нашёл. Я из параллельной вселенной?
KT3102
12.04.2018 10:45Ничто не ново под луной. Достаточно открыть старый номер «Техники-молодежи»
tm.itizdat.ru/docs/Archive/TM_01_1994/41
baldrs
Интересно было бы, если бы они смогли уменьшить систему до размера слухового аппарата и без внешних датчиков на лице. Выглядит как-то громоздко пока. Также не ясна погрешность распознавания, насколько она выше/ниже чем у современных систем распознавания речи? Но вообще идея интересная.
vbif
Как минимум, на эту систему не действуют посторонние шумы. Плюс нет вероятности, что система услышит команду постороннего человека. Полагаю, у этой системы большое будущее, даже если точность распознавания ниже, чем у систем распознавания речи, она могла бы дать дополнительный канал управления, когда заняты все руки.
CreFroD
Они говорят о точности 92 процента, правда непонятно на каком словаре.