Ученые из россйской ГК «Нейробиотикс» и Лаборатории нейробототехники МФТИ сумели воссоздать изображения по электрической активности мозга. Правда, речь идет только о работе с изображениями, на которые смотрит человек, чей мозг анализируется.

Собственно, восстанавливать геометрические фигуры, на которые смотрит человек в определенный момент времени, по электрической активности его нервных клеток — вовсе не самоцель. Главное — понять, как мозг шифрует информацию, которую мы затем храним многие годы (ну или минуты, что не менее важно).

Работа российских ученых пересекается с проектами зарубежных коллег. Но в большинстве случаев другие исследователи используют функциональную магнито-резонансную томографию или анализ электрических сигналов, которые получают с нейронов. У этих двух методов есть серьезные ограничения в использовании — в больнице или быту (не сейчас, конечно — в будущем).

Напротив, в работе отечественных специалистов используется электроэнцефалограмма, которая снимается с головы человека обычным образом. Затем полученные данные «скармливаются» специально обученной нейросети. В результате последняя определяет, на что сейчас смотрит испытуемый, и по конфигурации его электрического сигнала выстраивает геометрическую фигуру.


Эксперимент, который провели специалисты, состоял из двух частей. В первом использовались ролики из различных категорий, включая «абстракции», «водопады», «лица людей», «скорость». Так, ролики представляли собой видео, снятые от первого лица на снегоходах и других транспортных средствах. Продолжительность роликов составляла 10 секунд, сессия для каждого испытуемого продолжалась около 20 минут.

По итогу ученым удалось доказать, что конфигуация электрической активности мозга значительно отличается в зависимости от категории просматриваемых роликов.

После этого началась вторая стадия эксперимента. Для нее также были отобраны видео, уже не пяти, а трех категорий. Также во второй части эксперимента задействовали две нейросети. Одна из них формировала произвольные изображения из демонстрируемого «шума», вторая — генерировала «шум» из ЭЭГ. После этого обе нейросети объединили, обучив систему воспроизводить изображение по записанному прибором ЭЭГ.



После этого добровольцам стали демонстрировать видео тех же категорий, записывая ЭЭГ. Сигнал в режиме реального времени отправлялся на обработку в двойную систему нейросетей. В итоге воспроизводилось изображение, которое в большинстве случаев относительно точно совпадало с оригиналом. В целом, задачей было не воспроизвести точно видео, а понять, к какой категории относится изображение, сгенерированное нейросетью. Это удалось сделать в 90% случаев.



«Энцефалограмма — следовой сигнал от работы нервных клеток, снимаемый с поверхности головы. Раньше считалось, что исследовать процессы в мозге по ЭЭГ — это все равно, что пытаться узнать устройство двигателя паровоза по его дыму. Мы не предполагали, что в ней содержится достаточно информации, чтобы хотя бы частично реконструировать изображение, которое видит человек. Однако оказалось, что такая реконструкция возможна и демонстрирует хорошие результаты. Более того, на ее основе даже можно создать работающий в реальном времени интерфейс “мозг — компьютер”. Это очень обнадеживает. Сейчас создание инвазивных нейроинтерфейсов, о которых говорит Илон Маск, упирается в сложность хирургической операции и то, что через несколько месяцев из-за окисления и естественных процессов они выходят из строя. Мы надеемся, что в будущем сможем сделать более доступные нейроинтерфейсы, не требующие имплантации» — заявил Григорий Рашков, один из авторов работы, младший научный сотрудник МФТИ и программист-математик компании «Нейроботикс».

Комментарии (34)


  1. brrr
    18.10.2019 23:00
    +5

    Если честно, то это офигенно! Вот оно будущее, а ни эти ваши айфоны. Надеюсь, что такие технологии пойдут для развития человечества, а не его дрессировки.


    1. gotch
      18.10.2019 23:05
      +8

      Так первая потребительская технология и появится в айфоне. Будете подтверждать операции интенсивно думая "оплатить".


      1. Psychosynthesis
        20.10.2019 00:14
        +1

        «Чёрт, я же имел ввиду отменить! Отменить, отменить, пожалуйста отмените!»


      1. fireSparrow
        21.10.2019 12:06

        Технология не взлетит. Современная система потребления наоборот всячески старается избежать того, чтобы клиент интенсивно думал в момент оплаты.


    1. Keynessian
      19.10.2019 12:42

      Если честно, то это офигенно! Вот оно будущее...

      Перелогиньтесь товарищ майор!
      image
      Xtray
      Миелофон не за горами :)

      Xtray, вы хотели сказать психопаспорт?


  1. Xtray
    18.10.2019 23:07
    +3

    Миелофон не за горами :)


  1. SADKO
    18.10.2019 23:30
    -2

    Очередной приступ датасотонизма с натягиванием совы на глобус.
    Речь не идёт о реконструкции изображения, а об определении его категории, причём не на основе самого изображения, а некоторых его свойств.
    Ибо есть специфические отклики, на лица, на движение, контрастные линии, итд.
    Кроме того, на низкочастотные колебания общей яркости, контраста, фокуса, так же регистрируются ВП.
    И здесь интересно разве что применение генеративных методов, чтобы выявлять такие моменты.
    Но реконструкция изображения, это знаете ли, как в том анекдоте про нейросеть неразличавшую танк и трактор, ибо критерием оказался цвет фона...


  1. EndUser
    18.10.2019 23:48
    +7

    На видеоиллюстрации забавны такие закономерности:
    1.Гонки на любом устройстве в любой среде гражданином почти всегда воспринимаются через призму вождения автомобиля.
    По-видимому, гражданин примеряет гонку на свой автомобиль.

    2.Гражданин в этом автомобиле всегда ожидает увидеть зеркало заднего вида, хотя в исходном материале его нет.
    По-видимому, гражданин редко в него смотрит, оно просто ему постоянно мешает чёрным пятном.

    3.Всё незанятое время — когда гражданин отказывается воспринимать видеоряд — он увлечён «машиной Руди Голдберга» и сосредоточен на ней.

    4.Если он обращает внимание на людей, то почему-то упорно думает о брюнетке с короткой стрижкой.


    1. stranger_shaman
      19.10.2019 02:03
      +9

      Не в гражданине дело. Сеть обучена по видео вождения автомобиля. Вот она и воспроизводит любой шум в категории «вождение» как то, что ей показывали.
      Это не гражданин примеряет гонку на свой автомобиль, а нейросетка.
      Тоже самое и с брюнеткой.


    1. o-ranger
      19.10.2019 19:52

      Для чистоты эксперимента картинку следовало бы показывать посредством VR-шлема, чтобы энцефалограмма не забивалась «шумом» от периферического зрения, в поле которого попадают лишние объекты возле монитора. Человек при этом должен лежать на удобной кушетке в расслабленном состоянии.


  1. redpax
    19.10.2019 00:21
    +24

    Хорошо, что на ютуб зашел почитать комментарии о том, что видео не соответствует реконструкции. Оказывается нейросеть определяет на какое из 5 видео похожа энцефалограмма и подставляет любое. Если хотите это можно назвать обманом ну или очень серьезной недоговоркой.


    1. v1000
      19.10.2019 11:34

      вот это больше похоже на правду. напоминает старый прикол с показом в браузере локальной директории на компе, который выдавался за хакерский взлом


    1. DROS
      19.10.2019 11:59
      +4

      дык это и без комментариев ютуба видно, что сетку гоняли на тех же видеороликах, что и показывают испытуемому. А дальше просто подгон категорий.

      Короче — расходимся!


    1. ThePretender
      19.10.2019 12:01
      +5

      Правду лучше искать не на ютубе, а в оригинальной статье: www.biorxiv.org/content/biorxiv/early/2019/10/16/787101.full.pdf.

      Чуваки обучили автоэнкодер и сетку, которая мапит выход ЭЭГ в пространство декодера. Да, декодер обучали на ограниченном датасете. Но и ЭЭГ, по словам авторов, может выдать максимум 6 категорий. Подход совершенно масштабируемый в двух направлениях:

      1. Нужно обучать более сложную генеративную модель, пространство параметров которой сожет кодировать более широкий спектр «концепций» из реального мира.
      2. Нужно создавать девайсы, которые будут получать от мозга данные в большем «разрешении».

      При наличии новых достижений по этим двум направлениям подход из статьи с большой долей вероятности будет отлично масштабироваться вплоть до настоящего «восстановления» изображений из «мыслей».


      1. I-denis
        19.10.2019 12:15
        +5

        Подход совершенно не масштабируемый, хотя бы по тому, что единственный способ повышение разрешения — насверлить дырок в черепе и разместить электроды непосредственно на зрительной коре. Что в принципе многократно и успешно делалось и позволило более менее разобраться в принципах работы именно зрительного участка коры.
        По сути, примерно тоже самое — разместить антену вблизи разъема pci-express и попробовать восстановить поток видеоизображения индицируемого на мониторе


        1. ni-co
          19.10.2019 12:30
          +1

          Хорошее сравнение. От себя добавлю, что в нем мы ещё не знаем где находится сам монитор. :)


    1. uterr
      20.10.2019 20:15

      На видео видно, что один и тот же видеоряд показывается для разных изображений, значит он так и делает, определяет, какое из видео наиболее похоже (я бы сказал, что это большой такой обман). Но не понятно тогда, почему выходное изображение такое артефактное — просто обработали вручную для большей правдоподобности? ну тогда вообще стыдно такое показывать


  1. AnotherFromSirius
    19.10.2019 03:28
    -16

    Русские ученые — это типа шутка?


    1. agat000
      19.10.2019 06:21
      +2

      В заголовке, кагбэ, указаны российские. При чем тут национальность?


  1. ni-co
    19.10.2019 07:57
    +5

    Статья с названием, фактически ничего общего не имеющего с содержанием.


  1. OtshelnikFm
    19.10.2019 11:01

    Много раз ловил себя на мысли что нельзя оцифровать обрывки памяти из детства и круто было бы иметь подобную технологию. Это сейчас фотографировать можно на что угодно и это доступно.
    Дожить бы до появления подобной технологии. Уж я бы отсканировал ))


  1. thauquoo
    19.10.2019 12:00
    +6

    Это далеко не восстановление образов. Эти образы были заранее известны нейросетке, которую обучали на них. То есть, если человек увидел что-то новое, то нейросетка не может это показать, она просто подбирает наиболее подходящее из того, что ей известно.

    Сама идея исследования мне нравится, но вот подача результата похожа на кликбейт. Технически это можно с натяжкой назвать «восстановлением образов из мыслей», но это совсем не то, что подразумевают обычные читатели.


    1. mapron
      19.10.2019 13:32
      +1

      «Российские ученые обучили нейросеть классификации данных ЭЭГ в одну из 5 категорий. „
      Да, тоже неплохо, но уже не так кликбейтно звучит =)
      И я вообще не понимаю тех кто говорит что это масштабируется до реального зрения.


  1. kvazimoda24
    19.10.2019 14:11

    Меня одного смущает, что подопытному демонстрировали реконструированное нейросетью изображение? Не оказывало ли это изображение влияние на результаты эксперимента?


    1. Alex_ME
      19.10.2019 14:43

      В своей работе они делают акцент на то, что у них closed-loop. Но я просмотрел статью подиагонали, так что не понял, зачем.


  1. Alex_ME
    19.10.2019 14:42
    +3

    Как я понял, сначала они натренировали автоэнкодер, потом натренировали вторую сеть переводить ЭЭГ в latent space автоэнкодера. А автоэнкодер, в свою очередь, генерирует какое-то изображение.



  1. palexisru
    19.10.2019 20:58

    В развитие темы — можно синтезировать случайные демонстрируемые изображения и на них тренировать распознавание ЭЭГ. Тогда количество образов должно повыситься и останется наращивать качество.


  1. Psionic
    19.10.2019 22:08
    +1

    А нейросеть-опознавальщик натягивается на конкретного испытуемого? Или в принципе переносима на других без проблем? Энцефалит или атеросклероз влияют на результат?


  1. Vsevo10d
    19.10.2019 22:55

    Могу рассказать, как работала моя собственная нейросеть, с минимумом исходных данных — я практически сразу полез смотреть видео, глянув текст по диагонали:
    — Хмм, ну и лаги.
    — Картинка с ралли показывает, что ЭЭГ видит отличие светлых областей от темных, пожалуй и все.
    — Машина Голдберга показана в правильных цветах, но пятна совсем хаотичные. Интересно, при таких ФПС, как у этой картинки в реальном времени, учитываются саккадные движения глаза для построения изображения? Может, фреймы выхватываются в неудачные моменты, когда глаз направлен не в центр изображения, и суммарное изображение такое грязное?
    — Лицо — ну да, как и ралли. Светлое отличается от темного. Стоп, что?? Один фрейм выглядит как реалистичное женское лицо! Так, подождите! Смена усатого мужика на блондинку не дала вообще никакой разницы, а при этом один из кадров лица был очень детализированным! Что-то нечисто…
    — Водный мотоцикл лагает картинкой лица, а потом четко переключается на ралли! Нет, это не распознавание ЭЭГ в реальном времени, это распознавание заданного пресета из видеороликов. Наверное, нейросеть генерирует их на основе входных пресетов-роликов и данных ЭЭГ?
    — Ну да, снегоход — это ралли, машина Голдберга — тоже. Кликбейт такой кликбейт.
    *дропнул видео на 1:50*
    *полез в каменты — с облегчением увидел, что люди это тоже поняли*


  1. stalinets
    20.10.2019 02:24

    А я помню, лет 5 назад была такая новость, делали то же самое. И даже реалтайм-видео из глаз удавалось снимать, конечно, очень плохого качества.
    Всегда интересовало, какой же там «протокол». Какая «модуляция».
    Как электрически сформировать сигнал и подать его на глазной нерв, чтобы мозг увидел видео?
    Подавать, видимо, придётся сразу по каждому нерву из пучка, идущего от глаза, свой кусочек общей картины.
    А что передаётся по каждому из нервов пучка? Там аплитудная модуляция по яркости? Тогда почему мы не видим световые шумы от электромагнитных полей и не слышим радиоволны, они же должны наводиться на нервы?


    1. agat000
      20.10.2019 05:28

      подавать на нерв не получится, там идёт шлейф из 1М каналов, от каждого пиксела. Плюс — глаз собирает картинку сканированием, в движении. В недавней статье про глаза и мегапиксели очень хорошо описан весь наворот наших гляделок.
      Получается, что подавать изображение можно только после блока первичной обработки изображения, где оно используется в понятном виде.


  1. eksamind
    20.10.2019 15:56

    Надеюсь, что технология никогда не стрельнет, а то придется медитировать при виде встрече с копами) и так это осталось единственным местом, где, принекоторой сноровке, можно остатся без назойливого внимания корпораций и государств.


  1. suponix
    20.10.2019 17:27

    Первое что пришло в голову, – можно ли таким образом записать сны?


  1. ProgrammerForever
    20.10.2019 17:27

    Это же не реконструкция, это пока классификация.
    1) Взять 100 фраз
    2) Посчитать md5
    3) Взять один из md5
    4) Добавить шума и искажений
    5) Посмотреть на какой из 100 он похож больше всего
    6) Сделать вывод, что мы теперь можем расшифровывать md5
    Идея классная, но нужен датасет пожирнее