У каждого из нас есть свое воображаемое кладбище. Это кладбище, на котором похоронены скоропостижно скончавшиеся идеи. Едва начав писать свои первые тексты (и вволю начитавшись фантастики), лет так в восемь, я мечтал о девайсе, который помогал бы мне ловить идеи за хвост и сажать на привязь сразу же, как они появляются, в любой обстановке. Грандиозные мысли имели обыкновение являться в мой мозг в самых неподходящих ситуациях и улетучиваться, как только я дорывался до карандаша. Если все-таки удавалось что-то зафиксировать, то расшифровать эти таинственные письмена позже было сложновато. 

Я приглядывался к нейроинтерфейсам, но большинство из них были инвазивными и создавались для людей с более существенными нуждами, чем у меня, — пациентов с неврологическими трудностями, проблемами зрения и т. д. Но однажды мне принесло новости о презентации «революционного телепатического нейроинтерфейса» AlterEgo, который позволял «переводить мысли напрямую в текст».  

Девайс был носимым (не требовалось ничего лепить по ту сторону черепа) и вызвал ощутимое возбуждение у журналистов. Я решил разобраться. А заодно — продолжить исследовать мир нейроинтерфейсов, который сейчас активно расширяется.

Молчаливая речь

Первая же проверка показала: телепатическими способностями наделили устройство журналисты. Девайс не умеет считывать мысли напрямую из мозга и передавать их на расстояние. Он даже не стремится к этому, как, например, инвазивные девайсы вроде Neuralink или Paradromics. Вместо этого AlterEgo базируется на ином, если не революционном, то точно новаторском принципе — технологии Silent Speech Interfaces (SSI), способной улавливать и распознавать так называемую «внутреннюю речь», когда человек проговаривает слова про себя, не издавая звука. По сути, это такой «речевой интерфейс без речи». Не телепатия, а нечто, маскирующееся под нее, — квазителепатия.

Ранний прототип AlterEgo
Ранний прототип AlterEgo

Научное название этого явления — субвокализация, или silent speech. Если при обучении скорочтению такая привычка — головная боль, то для команды AlterEgo — источник ценных данных. В 2018 году в ходе исследований Арнаву Капуру (Arnav Kapur) и Шрейязу Капуру (Shreyas Kapur) из MIT Media Lab удалось уловить и декодировать едва заметные нервно-мышечные сигналы, которые мозг посылает в речевой аппарат при субвокализации (sEMG — электромиографические импульсы). Так началась история девайса.

Первые намеченные электродные точки
Первые намеченные электродные точки

В 2018 году Капур продемонстрировал публике ранний прототип AlterEgo — легкую гарнитуру с четырьмя электродами, прикреплявшимися вдоль челюсти: от шеи до подбородка. Прототип был еще далек от совершенства, но уже вызвал интерес — например, попал в список лучших изобретений года по версии Time. В 2025 году проект превратился в коммерческий стартап — команда представила обновленную версию устройства с поддержкой облачного LLM-бэкенда, расширенным словарем, улучшенной точностью распознавания и ориентацией на массовое применение.

Облегченная четырехэлектродная версия
Облегченная четырехэлектродная версия

Как все работает

Когда мы говорим (или мысленно говорим), активируются в основном три группы мышц:

Зона

Примеры мышц

Что контролируют

Какие звуки связаны *

Около рта и губ

orbicularis oris, risorius

форма рта

p, b, m, f, v, w

Язык и челюсть

genioglossus, masseter

положение языка, открытие рта

t, d, n, l, r, s, z

Гортань и глотка

thyroarytenoid, cricothyroid

вибрация голосовых связок, гласные

a, e, i, o, u

*  — так как учили систему на английском, то и примеры звуков тоже приводим как есть

Четыре контактных электрода sEMG AlterEgo расположены как:

Один — под нижней губой, ближе к центру подбородка, чтобы фиксировать сигналы от m. depressor labii inferioris и m. mentalis — мышц, управляющих движением нижней губы.

Два — вдоль линии нижней челюсти, чтобы улавливать импульсы от m. masseter и m. platysma — мышц, отвечающих за открытие и закрытие рта.

Еще один — в верхней части шеи, под ухом, где проходят ветви nervus hypoglossus и мышцы, контролирующие язык (m. styloglossus, m. hyoglossus).

Когда человек пытается что-то про себя сказать, электроды улавливают слабые (микровольтные) сигналы к моторным нейронам речевых мышц. Например, слово yes будет выглядеть как серия коротких пиков:

   ↑            ↑            ↑ ↑

┼──────┼──────┼─── время →

0мс           50мс         100мс

 

Тогда как слово no будет иметь уже другую электрическую конфигурацию. 

Для нейросети AlterEgo каждый такой паттерн — уникальный электрический «отпечаток» конкретного слова. Но сначала его нужно извлечь из речи и обработать.

Пайплайн такой:

  • Сырые данные поступают в процессор со скоростью примерно две тысячи измерений в секунду с каждого сенсора. 

  • Сигнал фильтруется — система устраняет шумы от дыхания, моргания, движения головы.

  • Поток данных разбивается на короткие временные фрагменты длиной в 20–50 миллисекунд. По сути, нейросеть AlterEgo делает с электрическими импульсами то же, что алгоритмы распознавания речи делают со звуковыми волнами. Данные можно представить как своеобразную «мышечную спектрограмму» (электромиограмму) — карту, где по горизонтали показано время, по вертикали — расположение сенсоров, а цвет или яркость указывают, насколько активно в этот момент работали мышцы.

  • Такая визуализация помогает системе «увидеть» структуру сигнала и распознать знакомые формы — характерные всплески, паузы, повторяющиеся рисунки, соответствующие определенным словам.

  • Далее алгоритм анализирует, как эти формы сменяют друг друга во времени, сопоставляя их с ранее изученными шаблонами. Если последовательность совпадает с известным словом, система выбирает его как наиболее вероятный вариант.

Калибровка

У каждого человека — своя «речевая подпись»: мышцы лица и челюсти двигаются немного по-разному даже при одинаковых словах. Поэтому перед использованием AlterEgo проходит короткая калибровка — примерно 10–15 минут тренировок, во время которых пользователь несколько раз мысленно произносит набор базовых слов и слогов (yes, no, open, close и т. д.). В этот момент устройство записывает индивидуальные паттерны sEMG-сигналов и обучает на них свою модель.

После калибровки система начинает узнавать внутренние слова именно этого пользователя по характерным микродвижениям речевых мышц. Со временем устройство можно дообучать: чем чаще пользователь взаимодействует с ним, тем точнее оно подстраивается под его речевые особенности.

Что происходит дальше? 

После того как устройство «понимает» слово-команду, оно отправляет ее в связанное приложение — например, в интерфейс Telegram API или голосовому ассистенту, а также может передать ответ пользователю. Для этого AlterEgo использует технологию костной проводимости: миниатюрный вибромодуль в гарнитуре передает слабые колебания через кости черепа прямо к внутреннему уху. Для окружающих устройство при этом остается полностью бесшумным.

В итоге создается замкнутая коммуникационная петля:
внутренняя речь → мышечный сигнал → распознавание → ответ через костную вибрацию. Арнав Капур называет такую коммуникацию «внутренним интерфейсом» (internal interface или internal computing). Возможно, именно замкнутость этой системы и породила ассоциации с телепатией.

«Наушник» на базе костной проводимости 
«Наушник» на базе костной проводимости 

Перспективы

В первых испытаниях MIT точность распознавания AlterEgo достигала 92–95% при словаре из 20–30 слов. Этого было достаточно, чтобы уверенно различать короткие команды вроде open, close, yes, no, send, stop.

На недавней презентации проект анонсировал переход на новый уровень: команда представила версию устройства с облачным LLM-бэкендом — языковой моделью, способной интерпретировать не только слова, но и намерения пользователя. Теперь AlterEgo может достраивать фразы вроде «письма Анна» как «покажи последние письма от Анны» — устройство само подстраивается под владельца и контекст. Этого все еще маловато для скрупулезной диктовки длинного текста (с вашей идеей или канвой нового рассказа), но уже на уровне другого вида креатива — идеи Филипа Дика о риторизаторе из рассказа «Предпоследняя правда» (писатель задает машине два слова: «белка» и «умная» — на выходе получается целая история). 

Арнав Капур на TED Talks:

Сложности (и неожиданные плюсы)

Основная проблема длинных диктовок для фиксации идей, с которых я начал и для которых важна точность, — в природе самого сигнала. Когда человек мысленно проговаривает короткую команду вроде «отправь письмо» или «включи музыку», устройство получает компактный, четкий паттерн. Но в случае длинных фраз все усложняется: внутренняя речь становится менее артикулированной, сигналы начинают «расплываться», а их амплитуда падает почти до уровня фонового шума. Мозг не поддерживает такую же стабильную мышечную активность, как при произнесении коротких фраз.

Кроме того, AlterEgo использует всего четыре сенсора, расположенные вокруг нижней челюсти. Они фиксируют движения губ и языка, но не улавливают глубокие артикуляционные сигналы — те, что формируются в гортани и глотке при произнесении гласных звуков или сложных их сочетаний. По сути, AlterEgo лучше понимает согласные, чем гласные. Из-за этого модель теряет часть фонем и не может точно восстановить длинную последовательность слов.

Решить эти проблемы можно двумя путями.

Во-первых — добавлением сенсоров: более плотные массивы sEMG дадут устройству возможность различать больше фонем и стабилизировать сигнал.

Во-вторых, той же интеграцией с LLM, обученной «договаривать» мысли пользователя, используя контекст и вероятностное продолжение, как T9. Тут, правда, возникает интересный момент — система будет не cтолько распознавать, сколько соавторствовать. В итоге наши идеи могут стать не совсем нашими — окажется, что получить «творческий» пишущий интерфейс вроде риторизатора Филипа Дика легче, чем устройство, безыскусно переводящее внутреннюю речь в текст. Неожиданный нюанс.

Впрочем, способов применения для AlterEgo хватает и на нынешней стадии. Во-первых, все мы можем наконец-то избавиться от людей, что-то кричащих в гарнитуру на улице (зачеркнуто). Во-вторых, система поможет собеседникам обмениваться информацией в неподходящей обстановке (вот тут — чем не телепатия?). В-третьих — можно управлять устройствами, не прикасаясь к ним и без участия речи, — особенно важно для тех, кто в силу болезни утратил эти навыки. Этот третий пункт — наиболее ценный, так как остальные интерфейсы с подобными функциями — инвазивные и будут еще долго получать всевозможные разрешения от медицинских организаций. У AlterEgo есть шанс выйти на рынок быстрее и без особых заморочек.

Комментарии (1)