В MIT разработали новый тип интерфейса, позволяющий превращать «мысли» в голос / forpes.ru

Главная
В MIT разработали новый тип интерфейса, позволяющий превращать «мысли» в голос

В MIT разработали новый тип интерфейса, позволяющий превращать «мысли» в голос +21

11.04.2018 09:23

Ekaterina_T 23 6600 Источник

Арнав Капур, один из разработчиков нового типа интерфейса, демонстрирует работу устройства

Инженеры MIT создали систему, которая транскрибирует проговариваемые про себя слова и предложения в текст. Для успешной работы системы ее носителю нужно четко проговаривать слова и фразы про себя. В этом случае начинают работать мышцы лица, горла и языка, отвечающие за речь. Они не работают в полную силу, а лишь активируются, чего вполне достаточно новой системе для «чтения».

Со стороны это выглядит так — человек просто молчит, а система «говорит», вернее печатает. Разработка состоит из двух частей: гаджета, который необходимо носить на лице и специально «обученной» нейросети, которая анализирует получаемую информацию и ассоциирует ее с буквами и словами. Кроме того, интерфейс позволяет управлять гаджетами — переключать каналы на ТВ, вести учет затрат и вести вполне обычную активность.

Гаджет, который нужно надевать на ухо, включает в конструкцию «костяной наушник», то есть наушник, проводящий звук по кости к внутреннему уху. Внешний канал остается открытым и человек слышит все, что происходит вокруг.

Такая система весьма портативна и подходит для ношения как на улице, так и дома. Некоторые способы ее применения необычны. Например, можно играть в шахматы, проговаривая про себя ходы противника и получать помощь от компьютера.

Использовать разработку можно не только людям с физическими проблемами, но и обычным пользователям в самых разных ситуациях. Задачей разработчиков было создание системы, которая позволяет улучшить способности человека, дополнить его интеллект и в некотором роде органы чувств.

«Мы уже неспособны жить без смартфонов и других цифровых устройств», — говорит Петти Маес, один из участников проекта. «Но использование этих гаджетов мешает нам, необходимо прерываться для того, чтобы с ними работать. Например, идет беседа, и вдруг возникает нужда воспользоваться телефоном. Нужно его найти, взять в руки, ввести пароль и открыть приложение. Поэтому мои студенты и я долгое время экспериментировали с новыми типами систем и их форм-факторами, которые позволяют людям использовать преимущества современных технологий и сервисов, не отвлекаясь на, собственно, гаджеты».

Результаты работы были доложены на конференции Association for Computing Machinery’s ACM Intelligent User Interface.

В принципе, идея, предложенная учеными, не нова. Она появилась где-то в 19-м веке, а с появлением новых технологий над ее реализацией стали работать уже серьезно. В 60-х годах проговаривание про себя фраз и слов во время чтения стали считать сторонним фактором, который препятствует скорочтению (собственно, так оно и есть). Но у проговаривания есть свои преимущества, оно может использоваться при разработке компьютерных интерфейсов. Один из примеров был приведен выше.

В ходе создания системы ученым понадобилось вначале понять, какие мышцы на лице человека задействуются в ходе проговаривания активнее всего. После этого стартовала разработка прототипа устройства для преобразования «мыслей в текст». Основным считывающим сигналы элементом системы были электроды в количестве 16 штук.

С них снимали показания и сверяли с тем, что произносил про себя человек. Затем на основе полученного массива данных разработчики стали обучать нейросеть. Кстати, изначально устройство охватывало обе стороны лица. Но затем оказалось, что нейросеть преобразовывает сигналы в текст без проблем даже в том случае, если электроды находятся лишь на одной стороне лица. Поэтому для снижения габаритов системы ее уменьшили вдвое.

Обучение нейросети начали с малого — всего с 20 слов. С течением времени словарь увеличивали, и нейросеть стала более «умной». По словам ученых, ее можно персонализировать под любого человека, увеличивая точность распознавания «мыслей». Чем больше будет тренировок, тем лучше сможет работать система.

У разработчиков не было планов доводить ее до совершенства, это лишь proof-of-concept. Технология может использоваться во многих сферах, включая производство. Можно представить себе промышленное предприятие, уровень шума на котором мешает нормальному общению сотрудников по рабочим вопросам. В этом случае можно использовать такую систему. Аналогичная ситуация — с пожарниками или водолазами. Им не нужно будет говорить, система озвучит «мысли».

Пока что о коммерциализации технологии речь не идет, но такое развитие событий тоже не исключается.

Комментарии (23)

baldrs
11.04.2018 13:09
#10716943
+1
Интересно было бы, если бы они смогли уменьшить систему до размера слухового аппарата и без внешних датчиков на лице. Выглядит как-то громоздко пока. Также не ясна погрешность распознавания, насколько она выше/ниже чем у современных систем распознавания речи? Но вообще идея интересная.
1. vbif
  11.04.2018 13:32
  #10717023
  Как минимум, на эту систему не действуют посторонние шумы. Плюс нет вероятности, что система услышит команду постороннего человека. Полагаю, у этой системы большое будущее, даже если точность распознавания ниже, чем у систем распознавания речи, она могла бы дать дополнительный канал управления, когда заняты все руки.
1. CreFroD
  11.04.2018 19:38
  #10717813
  Они говорят о точности 92 процента, правда непонятно на каком словаре.

lingvo
11.04.2018 13:29
#10717011
Сорри, но мне непонятно, что значит проговаривать «про себя». Тихо шептать? Или как можно проговаривать не открывая рта?
1. vbif
  11.04.2018 14:03
  #10717085
  Двигать челюстью, языком и немного губами так, будто говоришь слово.
1. ClearAirTurbulence
  11.04.2018 14:37
  #10717185
  Легко. Попробуйте прочитать этот текст так, как если бы вы говорили его вслух, но не открывать при этом рта, и не двигая намеренно языком. Если наблюдать за этим процессом внимательно, заметите, что язык (и другие ответственные за речь мышцы) все равно совершает микроскопические движения. Они и будут улавливаться датчиками.
  
  Вообще для «тихого» общения есть два основных подхода — (развивающийся сейчас) с помощью датчиков, считывающих активацию мышц, и с помощью обычных микрофонов (старые добрые ларингофоны).

exehoo
11.04.2018 13:41
#10717049
Интересно, как отрабатывает эта распознавалка при жевании
1. unibasil
  12.04.2018 05:04
  #10718493
  «Ням-ням-ням»? ;)

Germanets
11.04.2018 14:19
#10717139
+1
Даёшь технологию в массы!)

stanislavkulikov
11.04.2018 14:46
#10717209
Я вот не знаю ни одного человека, который бы пользовался голосовым управлением. А вот эта штука, у которой явно больше погрешность, и вообще бесполезной получается.
1. dabar347
  11.04.2018 17:50
  #10717615
  Теперь видите, пол года пользуюсь алексой от амазона дома
1. sith
  11.04.2018 22:17
  #10718199
  Я уже несколько лет ежедневно пользуюсь Siri. Она всё ещё очень тупая, но тем не менее очень полезная. Начиная от набора голосом текстовых сообщений, Call my wife, Set an alarm for, Set a timer и заканчивая Take me home, Where is my wife? и Hey Siri, What time is it now?, когда валяешься на диване и смотришь какой-нибудь фильм по Netflix.
1. SK0RN
  12.04.2018 10:45
  #10718961
  А немые люди?

halted
11.04.2018 15:08
#10717261
Вот и новые вершины для цензуры обрисовываться начали.

arheops
11.04.2018 19:52
#10717833
Получился очень громоздкий и плохо держащийся лорингофон.
1. yurrig
  12.04.2018 04:03
  #10718473
  С такой штукой, когда доведут до ума, голосовое управление компом (да и не только) может получить шанс — станет бесшумным и помехозащищенным. Да и просто комфортнее, когда вслух не надо команды произносить. А если еще курсором можно будет управлять движениями глаз…
  1. arheops
    12.04.2018 07:10
    #10718543
    Так лорингофон уже сейчас доведен до ума.
    
    yurrig
    12.04.2018 08:20
    #10718613
    С ним же придется вслух команды проговаривать… Представьте себе такой офис)
    
    arheops
    12.04.2018 08:32
    #10718639
    В том то и дело, что нет. Вы проговариваете слова, не выдавая воздух из легких, он реагирует на дрожание связок. После получасовой тренировки у вас это получается без слышимых звуков.

Memiy
12.04.2018 10:45
#10718963
Слышал нечто подобное лет 5-7 назад.
Вот только гугл ничего не нашёл. Я из параллельной вселенной?

EwgenW
12.04.2018 10:45
#10718965
https://www.youtube.com/watch?v=SbbNf0TEh8g

KT3102
12.04.2018 10:45
#10718967
Ничто не ново под луной. Достаточно открыть старый номер «Техники-молодежи»
tm.itizdat.ru/docs/Archive/TM_01_1994/41

Zavtramen
12.04.2018 16:56
#10719977
Заголовок желтый, несмотря на кавычки.