Схема метода реконструкции речи. Человек прослушивает слова, в результате активируются нейроны его слуховой коры. Данные интерпретируются четырьмя способами: сочетанием двух типов регрессионных моделей и двух типов речевых представлений, затем поступают в систему нейросетей для извлечения признаков, которые впоследствии используются для настройки параметров вокодера

Нейроинженеры Колумбийского университета (США) первыми в мире создали систему, которая переводит мысли человека в понятную, различимую речь, вот звукозапись слов (mp3), синтезированных по мозговой активности.

Наблюдая за активностью в слуховой коре головного мозга, система с беспрецедентной ясностью восстанавливает слова, которые слышит человек. Конечно, это не озвучивание мыслей в прямом смысле слова, но сделан важный шаг в этом направлении. Ведь похожие паттерны мозговой активности возникают в коре головного мозга, когда человек воображает, что слушает речь, или когда мысленно проговаривает слова.

Этот научный прорыв с использованием технологий искусственного интеллекта приближает нас к созданию эффективных нейроинтерфейсов, связывающих компьютер непосредственно с мозгом. Он также поможет общаться людям, которые не могут говорить, а также тем, кто восстанавливается после инсульта или по каким-то другим причинам временно или постоянно не способен произносить слова.

Десятилетия исследований доказали, что, в процессе речи или даже мысленного проговаривания слов в мозге появляются контрольные модели активности. Кроме того, отчётливый (и узнаваемый) паттерн сигналов возникает, когда мы слушаем кого-то или представляем, что слушаем. Эксперты давно пытаются записать и расшифровать эти паттерны, чтобы «освободить» мысли человека из черепной коробки — и автоматически переводить их в устную форму.


(А) Сверху показана оригинальная спектрограмма образца речи. Ниже приведены восстановленные слуховые спектрограммы четырёх моделей. (B) Магнитудная мощность частотных полос в течение невокализованной (t = 1,4 с) и вокализованной речи (t = 1,15 с: промежуток показан пунктирными линиями для оригинальной спектрограммы ит четырёх реконструкций)

«Это та же технология, которая используется Amazon Echo и Apple Siri для устных ответов на наши вопросы», — объясняет д-р Нима Месгарани, ведущий автор научной работы. Чтобы научить вокодер интерпретировать мозговую активность, специалисты нашли пятерых пациентов с эпилепсией, уже перенёсших операцию на головном мозге. Их попросили прослушать предложения, сказанные разными людьми, в то время как электроды измеряли мозговую активность, которую обрабатывали четыре модели. Эти нейронные паттерны обучали вокодер. Затем исследователи попросили тех же пациентов послушать, как динамики произносят цифры от 0 до 9, записывая сигналы мозга, которые можно было пропустить через вокодер. Звук, производимый вокодером в ответ на эти сигналы, проанализирован и очищен несколькими нейронными сетями.

В результате обработки на выходе нейросети был получен голос робота, произносящий последовательность чисел. Для проверки точности распознавания людям дали прослушать звуки, синтезированные по их собственной мозговой активности: «Мы обнаружили, что люди могут понимать и повторять звуки в 75% случаев, что намного выше и превосходит любые предыдущие попытки», — сказал д-р Месгарани.


Объективные оценки для разных моделей. (A) Средний балл по стандартной оценке ESTOI по всем испытуемым для четырёх моделей. B) Охват и расположение электродов и оценка ESTOI по каждому из пяти человек. У всех оценка ESTOI вокодера DNN выше, чем других моделей.

Сейчас учёные планируют повторить эксперимент с более сложными словами и предложениями. Кроме того, те же тесты запустят для сигналов мозга, когда человек воображает, что он говорит. В конечном счете они надеются, что система станет частью имплантата, который переводит мысли владельца непосредственно в слова.

Научная статья опубликована 29 января 2019 года в открытом доступе в журнале Scientific Reports (doi: 10.1038/s41598-018-37359-z).

Программный код для проведения фонемного анализа, расчёта высокочастотных амплитуд и восстановления слуховой спектрограммы выложен в открытый доступ.

Комментарии (58)


  1. KennyGin
    01.02.2019 19:08

    Ещё несколько лет подобных разработок и хранить секреты на полицейском допросе станет горааааздо труднее. А шпионов будут обучать не только держать рот на замке, но и контролировать внутренний диалог.
    Прям готовый сюжет для киберпанка…


    1. dreesh
      01.02.2019 19:14

      это пока попадает под 51 статью


      1. Hardcoin
        01.02.2019 19:26

        Так подозреваемый не обязан вести внутренний диалог. 51-я говорит, что человек не обязан. Но может, если хочет. Хочет вести внутренний диалог — пожалуйста.


        На практике конечно, может по разному повернуться, сильно зависит от первых попыток использовать. Будет ли общественное одобрение или нет. На всякий случай уточню, что я не про Россию. Первое практическое использование наверняка не здесь будет, а в США или Китае.



        1. kalininmr
          02.02.2019 21:28
          +1

          вы имеете право не думать о белой обезьяне :)


    1. IgorKh
      01.02.2019 19:39

      контролировать внутренний диалог


      На самом деле — это основы медитации, так что сложного тут ничего нет и технология отработана.


      1. Alhymik
        02.02.2019 01:01

        Инетересно, что за технология. Про такую слышал

        www.youtube.com/watch?v=YMFgjuNWYgo


        1. zazar
          03.02.2019 18:39

          Поиск выводит на сборник из 101 техники остановки внутреннего диалога. На любой вкус.


      1. minusnaminus
        02.02.2019 16:45

        Но это можно обойти, слегка ослабив самоконтроль человека медикаментозно. Технология отработана. Ну, товарищ майор так говорит, во всяком случае.

        В действительности, это не меняет сути — лгать можно и во внутреннем говорении. Вот если бы можно было подслушивать незаметно, неявно… Впрочем, к тому моменту, может мозги людей начнут программировать через эти же электроды. И не получится лгать после кодовой фразы произнесенной товарищем майором уполномоченным сотрудником органов правопорядка.


    1. 80386
      01.02.2019 20:14

      Помнится, у Бестера упоминался блок сочувствия — собираешься выдать секретную информацию и организм самоотключается


      1. Victor_koly
        01.02.2019 22:27

        Вы не про трилогию про «Пси-Корпус» автора Киз Дж. Грегори?


        1. 80386
          02.02.2019 10:40

          Альфред Бестер "Тигр! Тигр!" 1955


          1. HardWrMan
            02.02.2019 17:35

            Есть еще книга Рона Хаббарда «Поле битвы — Земля». Там у расы психлосов (это в переводе так, в оригинале вроде psyclos) каждому при рождении внедряли в мозги «предохранитель», который отрубал мозговую деятельность сразу как только начинаешь их спрашивать об секрете телепортации, который знали только они во вселенной этой книги. Причем, вживляли всем и отключались все, даже те, кто не имел отношение к инженерным наукам. Сами же они называли это «падучая болезнь». Сказал бы больше, но лучше прочтите книгу.


            1. Andriy1218
              03.02.2019 19:59

              Когда-то очень давно в детстве видел фильм по этому роману. Хотя про сам роман узнал только что. Фильм смотрел очень давно, но запомнил что он был довольно глупым и не реалистичным. А про предохранители в мозгу вроде в фильме не было. Но сама идея выглядит глупой.
              Во-первых, можно сразу вырубить психлоса пару вопросами, что как-то тупо для высокоразвитой расы. Во-вторых, даже сейчас любая сложная технология не может поместится в голове одного человека. То есть нужно было бы похитить сотни ученых-психлосов, которые знают про телепорт, чтобы хоть что-то полезное из них вытянуть. Я бы еще прикинул, что главный принцип технологии какой-то не сложный, но раз другие расы не додумались до этого, то вероятно там все сложно. А лучший способ похитить какую-то технологию это получить доступ до самого устройства и технической документации на компьютерах.
              Поэтому с первого взгляда, всякие предохранители в каждом мозгу выглядят немного глупыми для этого конкретного случая. Возможно в книге это все как-то хорошо объясняется, но от прочтения отталкивает низкий рейтинг и громадный размер.

              Роман содержит около полумиллиона слов и считается одним из самых больших однотомных романов в истории научной фантастики — 1039 страниц!


              1. HardWrMan
                04.02.2019 13:55

                Так вышло, что я сначала прочитал роман еще учась в школе (не помню точно, но вроде 2 приличных тома было), а потом много позже увидел фильм. Это был форменный пипец. Он даже на 1% не приблизился к книге. Так что не удивительно, что даже без ознакомления с первоисточником фильм не зашел.


    1. AlexanderG
      02.02.2019 15:34

      А шпионов будут обучать не только держать рот на замке, но и контролировать внутренний диалог.
      В одной из серий Mind Field Майкл пытался обмануть детектор лжи, основанный на распознавании сигналов P300 в ЭЭГ. Даже несмотря на умственные «меры противодействия», которые он использовал, машина безошибочно его вскрыла.


    1. xRevolveRx
      03.02.2019 11:47

      Оно уже актуально еще с моего пятилетнего возрастаб раньше я просто не помню… Ничего нового, кстати и прорывного в этом посте не прочитал. Наверное Вам просто не рассказывали.


    1. whitemonkey
      03.02.2019 11:47

      Простите, но в таком случае допрашивая меня из динамиков будет звучать несвязная речь про «Материнство, администратора, много секса, розового пони, указание вектора и прочая бранная речь.»
      Таков мой внутренний диалог… Хотя внешне буду весьма респектабельно выглядеть.


    1. zazar
      03.02.2019 18:42

      шпионов будут обучать не только держать рот на замке, но и контролировать внутренний диалог


      Есть вариант попроще: непрерывно ругаться мысленным матом на допросе. Перемежая гимнами, любовной лирикой и ГОСТами. Пусть ИИ мучается.


  1. degs
    01.02.2019 19:21

    Я в демонстрации четко улавливаю китайский акцент. К чему бы это?


  1. urticazoku
    01.02.2019 20:43
    +6

    Шустрая бурая лисица прыгает через ленивого пса, шустрая бурая лисица прыгает через ленивого пса...


    1. omikron24
      03.02.2019 11:47

      — Сэр!
      — Что?
      — С прибором что-то не так! При ментальном допросе российский агент предлагает нам съесть ещё этим мягких французких булок, но в комнате даже нет хлеба!
      — Мне кажется он першёл на латынь, помотрите на распечатку…

      Распечатка:

      Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat. Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur. Excepteur sint occaecat cupidatat non proident, sunt in culpa qui officia deserunt mollit anim id est laborum.


  1. iliabvf
    01.02.2019 21:36

    Самое интересное начнется когда появятся гарнитуры для телефонов, толпы молчаливых людей, и когда их начнут прослушивать.


    1. Inanity
      01.02.2019 22:58
      +9

      … и наказывать за мыслепреступления.


      1. Alexey2005
        02.02.2019 00:41

        Наказывать неэффективно, лучше сразу ставить DPI-имплантант в ключевые точки мозга и блокировать всё запрещённое.


        1. Alhymik
          02.02.2019 01:15

          Но жестко блокированное, скорее всего, быстренько всплывет в форме голосового голюциноза. Т.е. срок эксплуатации такого «зомбика» будет не очень длинный. Но уродов это вряд ли остановит. Кто-то не из глупых сказал, что бог создал всех людей веселыми и счастливыми — пока они не начали лезть в настройки )))


        1. lain8dono
          02.02.2019 20:04

          Но зачем? Лучше сразу всё необходимое залить.


      1. Oxyd
        03.02.2019 03:40

        Кто на Плюке правду думает? Абсурд!


    1. littorio
      02.02.2019 01:21
      +1

      Это всё-таки не мысли, а звук снаружи. Может они там, условно, проводки на входе слушают. Ну, какой-то условный речевой анализатор в мозге научились дебажить. Это большой шаг, но это не мысленная активность. Мы вообще, проговариваем в мозге мысли? Или думаем образами, ещё фиг знает чем?


      1. AlexanderG
        02.02.2019 15:36

        На картинках четко видно, с какой части мозга снимались данные. Кроме того, выяснили, что при внутреннем диалоге есть активность в областях, и создающих, и распознающих речь.


        1. SADKO
          02.02.2019 16:03

          Активность-то есть, она есть всегда где есть ассоциации, вопрос на сколько она применима для синтеза…
          ИМХО было-бы гораздо интереснее прикрутить подобную систему к центру Брока, из которого вполне можно синтезировать речь, было-бы и людям полезно, и не так банально.


          1. AlexanderG
            02.02.2019 16:09

            А потом бы еще об этом написали статью на Хабре… Стоп, вот же она!


            1. SADKO
              02.02.2019 16:20

              Таки, да! Но радоваться рано, ибо эти эксперименты были кратковременны и у людей не было проблем с речью. Людям вообще свойственно магическое сознание, причина-следствие, не не слышал.
              То есть, если у человека были травмированы в хлам связки, а система была обучена предварительно, ему можно помочь… (только где такого найти)
              В случае-же банального постинсульта, проблемы начинаются как раз в голове, и даже предварительно обученный девайс не поможет.


      1. avorodis
        03.02.2019 11:47

        В основном да, мышление неразрывно связано с речью.


    1. OrdinaryBoyRus
      03.02.2019 11:47

      РосМенталНадзор


  1. Dorogonov_DA
    02.02.2019 00:50
    +1

    Это нета же новость? habr.com/ru/post/435904

    Такими темпами популярной модификацией станет вживление металлической экранирующей сетки поверх черепа, чтобы никто не смог считать активность мозга.


    1. Methos
      02.02.2019 12:19

      достаточно шапочки из фольги


      1. Victor_koly
        02.02.2019 12:39

        достаточно шапочки из фольги

        Неа. Ритмы мозга — это Вам не 50 Гц, а куда ниже. Если не считать слабости самого сигнала, то может 0.5 мм меди нужно будет. По поводу «сетки» не в курсе, но по идее сетка с «размером» пустых ячеек 1 длина волны, половина, треть или т.д. при той самой плотности (г/кв. см) может быть эффективной с точки зрения рассеивания сигнала.
        Ещё не забудьте, что шапочку нужно заземлять через толстый провод (может сечением 60 кв. мм) из хорошего проводника на конденсатор такой емкости, чтобы «половина периода мозгового импульса» не смогла зарядить его слишком сильно.


        1. maikus
          02.02.2019 16:40

          У С. Лема упоминалось надеваемое на голову устройство из металлической сетки. К сетке подключался генератор импульсов, имитирующий мозговую активность новорожденного. Человек с такой сеткой на голове становился неинтересен рою микро дронов, отлавливающему по Планете разумных.


          1. Victor_koly
            02.02.2019 16:53

            Если имеется в виду «уменьшить мощность излучения до уровня мозга новорожденного» — это может быть не очень опасно. Но так, я бы не рискнул себе «подделать энцефалограмму».


        1. egigd
          03.02.2019 00:21

          60 кв. мм?.. Вы так шутите?..
          От этих наводок ток дай бог микроамперы, там любой металлический волосок подойдёт!
          И, разумеется, по причине всё того же фантастически низкого тока никакой особо большой ёмкости не нужно.


          1. Victor_koly
            03.02.2019 13:53

            Да это так, фантастический медный провод. Для применения в цепях на частоту 50 Гц. Если нужны большие частоты (типа колонок на 5 кГц), то внешняя часть провода (то есть кольцо сечением 0.6 кв. мм) будет изготавливаться из серебра.
            Про низкий ток — это понятно. Главное — это прикинуть, что ток 1 мкА (средний за условные пол периода) за 1 с заряжает конденсатор на 1 мкКл. Это означает, что (при наличии такого фантастически высокого тока утечки) конденсатор на 1 мкФ будет заряжен на напряжение 1 В. Отсюда сразу нужно сделать 2 вывода:
            1. Активное сопротивление провода на пути «сетка — конденсатор» должно быть существенно меньше 1 мкОм.
            2. «Вместо мозга» не стоит подсовывать генератор напряжения на частоте 1000 ГГц, т.к. в случае наличия в нем большой мощности и способности меди провести такой ток (что есть бред) наш источник напряжения будет видеть конденсатор как КЗ. Нужно просто убедиться, что к-р имеет сопротивление обкладок не менее того 1 мкОм.


  1. samodum
    02.02.2019 01:59
    +6

    Наконец-то я дожил до создания миелофона!


  1. Zmiy666
    02.02.2019 05:03

    все упирается в ту же проблему — пока у нас не разработают технологию качественного и безопасного размещения электродов в головном мозге — все так и будет болтаться на уровне фантастики и редких экспериментов (( Все упирается в плотность электродов в мозге и думаю, что даже сейчас технологии уже позволяют и техническую телепатию и даже снятие изображения с мозга, более того снятие воображаемого изображения с мозга, включая сны. Ну и нормальный нейроинтерфейс так же можно замутить… собственно пресловутая нейросеть, про которую пишут в каждой второй фантастической книжке — есть сеть электродов покрывающая разные отделы мозга, совмещенная с нейросетью, которая индивидуально обучается распознавать все сигналы с электродов конкретного человека.
    Будущее гораздо ближе, чем может показаться и если задаться такой целью, отбросив глупые моральные ограничения — то имплантируемые в мозг нейросети первого поколения можно создать лет за 10-15 — вместе с интерфейсом и возможностью передавать, записывать и получать не только звук и изображение но и запахи, вкусы, эмоции…


    1. daniilorain
      03.02.2019 11:47

      глупые моральные ограничения

      Какие например? Может, вы о правовых ограничениях?


  1. Space__Elf
    02.02.2019 08:58

    Ждём новых законов про прослушку мыслей от Мизулиной и Яровой?


    1. pda0
      02.02.2019 12:49
      +4

      С обязательным хранением года внутреннего монолога?


  1. voftik
    02.02.2019 12:21
    +2

    Так, миелофон есть, где флиперы, автоматы с бесплатным мороженным и космические пираты?


  1. Maccimo
    02.02.2019 13:14
    +5

    Новости из будущего:

    ?Вчера депутатами Межгалактической Думы одна тысяча четырёхсот восемьдесят восьмого созыва был принят сразу в трёх чтениях законопроект, предусматривающий хранение мыслезаписией граждан за последние 6 месяцев и предоставление их правоохранительным органам в случае возникновения обоснованных подозрений в покушении на мыслепреступление.

    ?Как пояснил спикер парламента Р. Белоусов-Жаботинский, данные меры направлены на защиту детей от участившихся в последнее время преступлений на почве здравого смысла. Законопроектом также предусмотрены льготы для пенсионеров и ветеранов освоения Марса.

    ?По мнению допрошенных экспертов, данный законопроект не нарушает конституционной нормы на свободу мысли.

    Мнение экспертов, избежавших ареста, пока неизвестно.


    1. mu3
      02.02.2019 15:16

      Не могли бы вы пояснить на какую часть этой истории пенсионеры и ветераны освоения Марса получают льготы?
      Я не для себя спрашиваю.


      1. Oxyd
        03.02.2019 03:43

        Неужели для Илона, нашего, Маска?


  1. SADKO
    02.02.2019 15:13
    +2

    Удивили ежа голой задницей! Для тех кто не в теме, поясню суть происходящего:
    Динамик воспроизводит звук, ухо его физически «слышит» дофига-полосным анализатором спектра, каждая полоса которого передаёт в мозг амплитуду сигнала как частоту импульсов по отдельно взятому нервному волокну. Совокупность этих волокон образует кабель, слуховой нерв, который через некоторое подобие коммутатора, иннервирует ту самую часть коры, которую накрывают растром электродов…
    Таким образом, спектр слышимого сигнала, проецируется в пространстве «слуховой коры» (где он весьма разнесён в пространстве нервных колонок), откуда считывается и поступает в искусственную нейросеть, которая с одной стороны снижает шумы, с другой разворачивает сигнал в линейное пространство, что бы его можно-было отправить на вокодер…
    Всё, никаких чудес, тут нет, похожие опыты проводились ничего удивительно в них нет, со звуком всё просто, чего не скажешь о зрительной коре, где ИНС-бы реально пригодилась, и собственно, но об этом тссс…

    Никаким чтением мыслей, тут и не пахнет, это простое подключение к слуховому нерву, не более.
    Внутреннего приговора, в этом месте нет, оно есть в других, но с ними как и со зрением, всё пока сложно.


    1. sin-mike
      03.02.2019 00:39

      Кмк, это чисто техническая статья. Выводы следующие:
      1. Нынешней электрокортикографии достаточно для задачи реконструкции сложного аудиторного стимула
      2. Спектральные характеристики сигнала — тоже достаточно high gamma, до 150Гц. т.е., возможно, что семплить больше 1000Гц и не нужно.
      3. Архитектура классификатора, что на первых, что на последних слоях.
      4. Количество и плотность электродов + время обучения

      Кароче, это такие технические моменты, которые мало где освещены. А в функциональных экспериментах они проявляются хорошо. Можно транслировать метод в моторную кору и посмотреть эффективность в какой-нибудь задаче управления протезами. Но, в статье не проведен детальный анализ классификатора, нет анализа информации активности vs стимул. Это уже могло бы дать инфу о кодировании, хоть какой-то фундаментальный профит.


      1. SADKO
        03.02.2019 14:19

        Но, в статье не проведен детальный анализ классификатора, нет анализа информации активности vs стимул.

        Люди прекрасно понимали, что делали, а если заняться анализом то отсутствие какой-либо новизны, станет слишком очевидно.
        Растры электродов, они не вчера появились, просто настоящие учёные, они стремятся к новому, врачи к полезному, а университетские задницы к грантам, вот и пилят публикации ради публикаций, на популярные темы…

        1. в 70-х это можно было сделать, только нафига?
        2. а это вообще со времён первых энцефалограмм, транскраниальные они у медиков
        3. для профессионалов, глубоко понимающих математический смысл, это совершенно тривиальная задача, экспериментом её решают только люди не далёкие
        4. вот как раз, когда у нейрофизиологов была мода на картирование мозга и его гистологию, с этим тоже стало всё понятно


  1. ntfs1984
    02.02.2019 15:55
    -6

    Могу поспорить на женском мозгу случится stack overflow =)


  1. Alena_Smeshnay
    03.02.2019 11:30

    Это всё очень круто для людей, потерявших речевую функцию после инсульта и т.п. При этом в оригинале статьи всё-таки ключевой момент такой «but instead could be translated into verbal speech at will» At will — то есть исследователи все-таки не хотят прослушивать все мысли (там ведь такой поток сознания беспорядочный и сложный зачастую), а именно переводить конкретные мысли в слова по воле человека.


    1. SADKO
      03.02.2019 14:22

      Увы, инсульт, он как раз таки в голове, в зоне отвечающей за моторику речи…
      … а тут вселишь зона куда приходит слуховой нерв, никаких мыслей, и даже проговоров про себя, тут услышать нельзя, только то, что слышит ухо, и не более того ;-)


  1. Lsh
    03.02.2019 22:53

    Скрипач: Вот потому, что вы говорите то, что не думаете и думаете то, что не думаете, вот в клетках и сидите. И вообще, весь этот горький катаклизм, который я тут наблюдаю… и Владимир Николаевич тоже... — Кин-Дза-Дза