Арнав Капур, один из разработчиков нового типа интерфейса, демонстрирует работу устройства

Инженеры MIT создали систему, которая транскрибирует проговариваемые про себя слова и предложения в текст. Для успешной работы системы ее носителю нужно четко проговаривать слова и фразы про себя. В этом случае начинают работать мышцы лица, горла и языка, отвечающие за речь. Они не работают в полную силу, а лишь активируются, чего вполне достаточно новой системе для «чтения».

Со стороны это выглядит так — человек просто молчит, а система «говорит», вернее печатает. Разработка состоит из двух частей: гаджета, который необходимо носить на лице и специально «обученной» нейросети, которая анализирует получаемую информацию и ассоциирует ее с буквами и словами. Кроме того, интерфейс позволяет управлять гаджетами — переключать каналы на ТВ, вести учет затрат и вести вполне обычную активность.

Гаджет, который нужно надевать на ухо, включает в конструкцию «костяной наушник», то есть наушник, проводящий звук по кости к внутреннему уху. Внешний канал остается открытым и человек слышит все, что происходит вокруг.

Такая система весьма портативна и подходит для ношения как на улице, так и дома. Некоторые способы ее применения необычны. Например, можно играть в шахматы, проговаривая про себя ходы противника и получать помощь от компьютера.

Использовать разработку можно не только людям с физическими проблемами, но и обычным пользователям в самых разных ситуациях. Задачей разработчиков было создание системы, которая позволяет улучшить способности человека, дополнить его интеллект и в некотором роде органы чувств.

«Мы уже неспособны жить без смартфонов и других цифровых устройств», — говорит Петти Маес, один из участников проекта. «Но использование этих гаджетов мешает нам, необходимо прерываться для того, чтобы с ними работать. Например, идет беседа, и вдруг возникает нужда воспользоваться телефоном. Нужно его найти, взять в руки, ввести пароль и открыть приложение. Поэтому мои студенты и я долгое время экспериментировали с новыми типами систем и их форм-факторами, которые позволяют людям использовать преимущества современных технологий и сервисов, не отвлекаясь на, собственно, гаджеты».

Результаты работы были доложены на конференции Association for Computing Machinery’s ACM Intelligent User Interface.

В принципе, идея, предложенная учеными, не нова. Она появилась где-то в 19-м веке, а с появлением новых технологий над ее реализацией стали работать уже серьезно. В 60-х годах проговаривание про себя фраз и слов во время чтения стали считать сторонним фактором, который препятствует скорочтению (собственно, так оно и есть). Но у проговаривания есть свои преимущества, оно может использоваться при разработке компьютерных интерфейсов. Один из примеров был приведен выше.


В ходе создания системы ученым понадобилось вначале понять, какие мышцы на лице человека задействуются в ходе проговаривания активнее всего. После этого стартовала разработка прототипа устройства для преобразования «мыслей в текст». Основным считывающим сигналы элементом системы были электроды в количестве 16 штук.

С них снимали показания и сверяли с тем, что произносил про себя человек. Затем на основе полученного массива данных разработчики стали обучать нейросеть. Кстати, изначально устройство охватывало обе стороны лица. Но затем оказалось, что нейросеть преобразовывает сигналы в текст без проблем даже в том случае, если электроды находятся лишь на одной стороне лица. Поэтому для снижения габаритов системы ее уменьшили вдвое.

Обучение нейросети начали с малого — всего с 20 слов. С течением времени словарь увеличивали, и нейросеть стала более «умной». По словам ученых, ее можно персонализировать под любого человека, увеличивая точность распознавания «мыслей». Чем больше будет тренировок, тем лучше сможет работать система.

У разработчиков не было планов доводить ее до совершенства, это лишь proof-of-concept. Технология может использоваться во многих сферах, включая производство. Можно представить себе промышленное предприятие, уровень шума на котором мешает нормальному общению сотрудников по рабочим вопросам. В этом случае можно использовать такую систему. Аналогичная ситуация — с пожарниками или водолазами. Им не нужно будет говорить, система озвучит «мысли».

Пока что о коммерциализации технологии речь не идет, но такое развитие событий тоже не исключается.


Комментарии (23)


  1. baldrs
    11.04.2018 13:09
    +1

    Интересно было бы, если бы они смогли уменьшить систему до размера слухового аппарата и без внешних датчиков на лице. Выглядит как-то громоздко пока. Также не ясна погрешность распознавания, насколько она выше/ниже чем у современных систем распознавания речи? Но вообще идея интересная.


    1. vbif
      11.04.2018 13:32

      Как минимум, на эту систему не действуют посторонние шумы. Плюс нет вероятности, что система услышит команду постороннего человека. Полагаю, у этой системы большое будущее, даже если точность распознавания ниже, чем у систем распознавания речи, она могла бы дать дополнительный канал управления, когда заняты все руки.


    1. CreFroD
      11.04.2018 19:38

      Они говорят о точности 92 процента, правда непонятно на каком словаре.


  1. lingvo
    11.04.2018 13:29

    Сорри, но мне непонятно, что значит проговаривать «про себя». Тихо шептать? Или как можно проговаривать не открывая рта?


    1. vbif
      11.04.2018 14:03

      Двигать челюстью, языком и немного губами так, будто говоришь слово.


    1. ClearAirTurbulence
      11.04.2018 14:37

      Легко. Попробуйте прочитать этот текст так, как если бы вы говорили его вслух, но не открывать при этом рта, и не двигая намеренно языком. Если наблюдать за этим процессом внимательно, заметите, что язык (и другие ответственные за речь мышцы) все равно совершает микроскопические движения. Они и будут улавливаться датчиками.

      Вообще для «тихого» общения есть два основных подхода — (развивающийся сейчас) с помощью датчиков, считывающих активацию мышц, и с помощью обычных микрофонов (старые добрые ларингофоны).


  1. exehoo
    11.04.2018 13:41

    Интересно, как отрабатывает эта распознавалка при жевании


    1. unibasil
      12.04.2018 05:04

      «Ням-ням-ням»? ;)


  1. Germanets
    11.04.2018 14:19
    +1

    Даёшь технологию в массы!)
    image


  1. stanislavkulikov
    11.04.2018 14:46

    Я вот не знаю ни одного человека, который бы пользовался голосовым управлением. А вот эта штука, у которой явно больше погрешность, и вообще бесполезной получается.


    1. dabar347
      11.04.2018 17:50

      Теперь видите, пол года пользуюсь алексой от амазона дома


    1. sith
      11.04.2018 22:17

      Я уже несколько лет ежедневно пользуюсь Siri. Она всё ещё очень тупая, но тем не менее очень полезная. Начиная от набора голосом текстовых сообщений, Call my wife, Set an alarm for, Set a timer и заканчивая Take me home, Where is my wife? и Hey Siri, What time is it now?, когда валяешься на диване и смотришь какой-нибудь фильм по Netflix.


    1. SK0RN
      12.04.2018 10:45

      А немые люди?


  1. halted
    11.04.2018 15:08

    Вот и новые вершины для цензуры обрисовываться начали.


  1. arheops
    11.04.2018 19:52

    Получился очень громоздкий и плохо держащийся лорингофон.


    1. yurrig
      12.04.2018 04:03

      С такой штукой, когда доведут до ума, голосовое управление компом (да и не только) может получить шанс — станет бесшумным и помехозащищенным. Да и просто комфортнее, когда вслух не надо команды произносить. А если еще курсором можно будет управлять движениями глаз…


      1. arheops
        12.04.2018 07:10

        Так лорингофон уже сейчас доведен до ума.


        1. yurrig
          12.04.2018 08:20

          С ним же придется вслух команды проговаривать… Представьте себе такой офис)


          1. arheops
            12.04.2018 08:32

            В том то и дело, что нет. Вы проговариваете слова, не выдавая воздух из легких, он реагирует на дрожание связок. После получасовой тренировки у вас это получается без слышимых звуков.


  1. Memiy
    12.04.2018 10:45

    Слышал нечто подобное лет 5-7 назад.
    Вот только гугл ничего не нашёл. Я из параллельной вселенной?



  1. KT3102
    12.04.2018 10:45

    Ничто не ново под луной. Достаточно открыть старый номер «Техники-молодежи»
    tm.itizdat.ru/docs/Archive/TM_01_1994/41


  1. Zavtramen
    12.04.2018 16:56

    Заголовок желтый, несмотря на кавычки.