Технические характеристики специализированной микросхемы ASIC для распознавания речи

Голосовые команды — самый естественный и удобный интерфейс для управления электроникой. Можно представить, что в будущем понимать команды хозяина будут практически все электронные приборы: от лампочек в квартире до холодильника, микроволновой печи и чайника на кухне. Соединённые в общую сеть Интернета вещей эти приборы будут не только понимать хозяина, но и согласовывать свои действия друг с другом.

В последние годы технологии распознавания речи достигли высокого уровня и созрели для различных коммерческих приложений: управление автомобильным компьютером, здравоохранение (ведение документации в цифровом виде по распознаванию речи врачей) и применение в армии. Например, в итальянском учебно-тренировочном самолёте M-346 и в американском истребителе-бомбардировщике F-35 точность систем распознавания речи достигает 98%. Но чтобы выполнять распознавание речи на бытовых приборах и носимой электронике, нужно кардинально снизить энергопотребление этого интерфейса.

Инженеры из Лаборатории информатики и искусственного интеллекта (CSAIL) Массачусетского технологического института (МТИ) уже начали подготовку к этой футуристичной картине, когда вся окружающая электроника начнёт понимать голос человека. В рамках совместного проекта Qmulus с компанией Quanta Computer исследователи из МТИ разработали прототип специализированной микросхемы (ASIC) для распознавания речи. Уникальная особенность этого чипа — сверхнизкое энергопотребление: всего от 0,2 мВт до 10 мВт, в зависимости от количества слов, которые нужно распознать. Это делает возможным использование такой электроники буквально в любых устройствах, даже с питанием от человеческого тела.

Нормальный метаболизм в организме взрослого мужчины производит примерно 80 Вт тепла, а тренированный велосипедист выдаёт до 400 Вт механической энергии. Конечно, такую мощь невозможно задействовать для питания электроники в полной мере, но ведь много не нужно. С человеческого тела в пассивном режиме легко снимается несколько ватт. Например, маленький браслет длиной 10 см на запястье генерирует в постоянном режиме около 40 мВт за счёт разницы температуры человеческого тела (примерно 37°С) и окружающего воздуха (20°С).



Если надеть не браслет, а целый терможакет или орсет шириной 50-100 см, то он снимет с тела около 2 Вт. А ведь можно ещё преобразовать кинетическую энергию движения и расщеплять сахар из крови. Этого достаточно, чтобы питать нательную электронику, одежду и самые простые гаджеты.

Кроме человеческого тела маломощные электронные устройства могут добывать энергию, например, из фонового радиоизлучения (СВЧ, радио, WiFi и др.), от вибраций окон и пола и т.д.

Обычный средний смартфон вряд ли может работать на энергии, собранной с человеческого тела или из эфира. По расчёту разработчиков, программа распознавания речи на смартфоне на обычном мобильном «железе» будет тянуть около 1 Вт. Это очень много. Использование специализированной микросхемы МТИ и Quanta Computer в реальных условиях означает экономию энергии 90-99%. Самое главное, что такое маломощное устройство кардинально расширяет сферу применения распознавания речи. Теперь его можно внедрять не только в смартфоны или дорогостоящие электронные приборы, но в самые банальные окружающие предметы, даже в зеркало в ванной.

Если собирать энергию из окружающей среды, то такому прибору вообще никогда не потребуется замена батарей. Если всё-таки снабжать его элементом питания для надёжности, то одного заряда хватит на месяцы или годы.

Совместный проект Qmulus в МТИ и Quanta Computer начали ещё в 2005 году, тогда он назывался T-Party. Разработчики предполагают, что с распространением Интернета вещей компьютерные чипы будут внедрять в разные объекты, даже в домашних животных и крупный рогатый скот — для учёта поголовья и контроля за состоянием. Микрочипы осуществляют постоянный сбор информации и отправляют её на центральный сервер в реальном режиме времени.

Возможно, чипы с распознаванием речи можно страивать в ошейники домашних животных — например, голосовая команда может подавать слабый электроимпульс в ошейник, стимулируя домашнего питомца выполнить то или иное действие. Впрочем, домашние животные и без микрочипа очень хорошо понимают голосовые команды хозяина, так что такое изобретение больше пригодится в других областях.

«Голосовые команды станут естественным интерфейсом для носимых и умных устройств, — говорит Анантха Чандракасан (Anantha Chandrakasan), профессор электротехники МТИ, чья группа разработала новый микрочип. — Миниатюризация таких устройств потребует иного интерфейса, кроме клавиатуры. Критически важно встроить функциональность распознавания речи на локальном уровне, снизив энергопотребление системы по сравнению с выполнением этой операции в облаке».

Спроектированный ASIC показывает точность распознавания примерно такую же, как коммерческое программное обеспечение Kaldi со словарём в 145 тыс. слов, а на тактовой частоте 80 МГц производительность микросхемы (скорость поиска слов в словарной решётке) примерно соответствует производительности компьютера с процессором Xeon и тактовой частотой 3,7 ГГц.



Качество распознавания слитной речи (WER) и энергопотребление ASIC показаны в таблице.
Задача Словарь Частота Обмен с памятью WER Энергопотребление
Цифры 11 3 МГц 0,11 МБ/с 1,65% 172 мкВт
Погода 2k 23 МГц 10,1 МБ/с 4,38% 4,70 мВт
Дневник питания 7k 46 МГц 9,02 МБ/с 8,57% 4,67 мВт
Новости (1) 5k 15 МГц 4,84 МБ/с 3,12% 1,78 мВт
Новости (2) 145k 40 МГц 15,0 МБ/с 8,78% 7,78 мВт
Научная статья "A Scalable Speech Recognizer with Deep-Neural-Network Acoustic Models and Voice-Activated Power Gating" с описанием микрочипа представлена на прошлой неделе на конференции International Solid-State Circuits Conference (презентация, pdf).
Поделиться с друзьями
-->

Комментарии (7)


  1. Delics
    14.02.2017 14:59
    -1

    Надо бы такой чип Ростелекому продать. Когда им звонишь, робот вообще ничего распознать не может. Дурацкое ощущение, будто говоришь с пылесосом.


    1. Hateman31
      14.02.2017 15:49

      Что значит WER? Процент ошибок?


      1. dernuss
        14.02.2017 16:16
        +2

        Качество распознавания слитной речи (Word Error Rate, WER)
        http://www.math.spbu.ru/ru/mmeh/AspDok/pub/2016/medennikov.pdf


  1. igor_kuznetsov
    14.02.2017 16:37

    У меня на motox 1 поколения есть чип который распознает голос, интересно, как он сделан… знает кто?


  1. DarkTiger
    15.02.2017 02:22

    Для псо и котэ — понятно, побрил, приклеил электроды и вуаля. Но для человека такое не покатит, надо создать в ухах звуковое давление, а это энергия на порядки больше.



  1. Sly_tom_cat
    15.02.2017 18:14
    -1

    Не ну распознает то команду от тепла тела, а вот исполнительная часть от чего питаться будет?
    Да хотя бы передать на внешнее исполнительное — уже нужна побольше моща…

    Но чип безусловно интересный — его в канал речевого обмена телефона/рации засунуть: уже сжатие будет не слабым (на другой стороне синтезатор можно персонализировать под вызывающего).