Распознавание речи с аппаратным ускорением. Специализированный ASIC потребляет менее 8 мВт / forpes.ru

Главная
Распознавание речи с аппаратным ускорением. Специализированный ASIC потребляет менее 8 мВт

Распознавание речи с аппаратным ускорением. Специализированный ASIC потребляет менее 8 мВт +13

14.02.2017 11:21

alizar 7 6400 Источник

Технические характеристики специализированной микросхемы ASIC для распознавания речи

Голосовые команды — самый естественный и удобный интерфейс для управления электроникой. Можно представить, что в будущем понимать команды хозяина будут практически все электронные приборы: от лампочек в квартире до холодильника, микроволновой печи и чайника на кухне. Соединённые в общую сеть Интернета вещей эти приборы будут не только понимать хозяина, но и согласовывать свои действия друг с другом.

В последние годы технологии распознавания речи достигли высокого уровня и созрели для различных коммерческих приложений: управление автомобильным компьютером, здравоохранение (ведение документации в цифровом виде по распознаванию речи врачей) и применение в армии. Например, в итальянском учебно-тренировочном самолёте M-346 и в американском истребителе-бомбардировщике F-35 точность систем распознавания речи достигает 98%. Но чтобы выполнять распознавание речи на бытовых приборах и носимой электронике, нужно кардинально снизить энергопотребление этого интерфейса.

Инженеры из Лаборатории информатики и искусственного интеллекта (CSAIL) Массачусетского технологического института (МТИ) уже начали подготовку к этой футуристичной картине, когда вся окружающая электроника начнёт понимать голос человека. В рамках совместного проекта Qmulus с компанией Quanta Computer исследователи из МТИ разработали прототип специализированной микросхемы (ASIC) для распознавания речи. Уникальная особенность этого чипа — сверхнизкое энергопотребление: всего от 0,2 мВт до 10 мВт, в зависимости от количества слов, которые нужно распознать. Это делает возможным использование такой электроники буквально в любых устройствах, даже с питанием от человеческого тела.

Нормальный метаболизм в организме взрослого мужчины производит примерно 80 Вт тепла, а тренированный велосипедист выдаёт до 400 Вт механической энергии. Конечно, такую мощь невозможно задействовать для питания электроники в полной мере, но ведь много не нужно. С человеческого тела в пассивном режиме легко снимается несколько ватт. Например, маленький браслет длиной 10 см на запястье генерирует в постоянном режиме около 40 мВт за счёт разницы температуры человеческого тела (примерно 37°С) и окружающего воздуха (20°С).

Если надеть не браслет, а целый терможакет или орсет шириной 50-100 см, то он снимет с тела около 2 Вт. А ведь можно ещё преобразовать кинетическую энергию движения и расщеплять сахар из крови. Этого достаточно, чтобы питать нательную электронику, одежду и самые простые гаджеты.

Кроме человеческого тела маломощные электронные устройства могут добывать энергию, например, из фонового радиоизлучения (СВЧ, радио, WiFi и др.), от вибраций окон и пола и т.д.

Обычный средний смартфон вряд ли может работать на энергии, собранной с человеческого тела или из эфира. По расчёту разработчиков, программа распознавания речи на смартфоне на обычном мобильном «железе» будет тянуть около 1 Вт. Это очень много. Использование специализированной микросхемы МТИ и Quanta Computer в реальных условиях означает экономию энергии 90-99%. Самое главное, что такое маломощное устройство кардинально расширяет сферу применения распознавания речи. Теперь его можно внедрять не только в смартфоны или дорогостоящие электронные приборы, но в самые банальные окружающие предметы, даже в зеркало в ванной.

Если собирать энергию из окружающей среды, то такому прибору вообще никогда не потребуется замена батарей. Если всё-таки снабжать его элементом питания для надёжности, то одного заряда хватит на месяцы или годы.

Совместный проект Qmulus в МТИ и Quanta Computer начали ещё в 2005 году, тогда он назывался T-Party. Разработчики предполагают, что с распространением Интернета вещей компьютерные чипы будут внедрять в разные объекты, даже в домашних животных и крупный рогатый скот — для учёта поголовья и контроля за состоянием. Микрочипы осуществляют постоянный сбор информации и отправляют её на центральный сервер в реальном режиме времени.

Возможно, чипы с распознаванием речи можно страивать в ошейники домашних животных — например, голосовая команда может подавать слабый электроимпульс в ошейник, стимулируя домашнего питомца выполнить то или иное действие. Впрочем, домашние животные и без микрочипа очень хорошо понимают голосовые команды хозяина, так что такое изобретение больше пригодится в других областях.

«Голосовые команды станут естественным интерфейсом для носимых и умных устройств, — говорит Анантха Чандракасан (Anantha Chandrakasan), профессор электротехники МТИ, чья группа разработала новый микрочип. — Миниатюризация таких устройств потребует иного интерфейса, кроме клавиатуры. Критически важно встроить функциональность распознавания речи на локальном уровне, снизив энергопотребление системы по сравнению с выполнением этой операции в облаке».

Спроектированный ASIC показывает точность распознавания примерно такую же, как коммерческое программное обеспечение Kaldi со словарём в 145 тыс. слов, а на тактовой частоте 80 МГц производительность микросхемы (скорость поиска слов в словарной решётке) примерно соответствует производительности компьютера с процессором Xeon и тактовой частотой 3,7 ГГц.

Качество распознавания слитной речи (WER) и энергопотребление ASIC показаны в таблице.

Задача	Словарь	Частота	Обмен с памятью	WER	Энергопотребление
Цифры	11	3 МГц	0,11 МБ/с	1,65%	172 мкВт
Погода	2k	23 МГц	10,1 МБ/с	4,38%	4,70 мВт
Дневник питания	7k	46 МГц	9,02 МБ/с	8,57%	4,67 мВт
Новости (1)	5k	15 МГц	4,84 МБ/с	3,12%	1,78 мВт
Новости (2)	145k	40 МГц	15,0 МБ/с	8,78%	7,78 мВт

Научная статья "A Scalable Speech Recognizer with Deep-Neural-Network Acoustic Models and Voice-Activated Power Gating" с описанием микрочипа представлена на прошлой неделе на конференции International Solid-State Circuits Conference (презентация, pdf).

Поделиться с друзьями

-->

Комментарии (7)

Delics
14.02.2017 14:59
#9886430
-1
Надо бы такой чип Ростелекому продать. Когда им звонишь, робот вообще ничего распознать не может. Дурацкое ощущение, будто говоришь с пылесосом.
1. Hateman31
  14.02.2017 15:49
  #9886586
  Что значит WER? Процент ошибок?
  1. dernuss
    14.02.2017 16:16
    #9886680
    +2
    Качество распознавания слитной речи (Word Error Rate, WER)
    http://www.math.spbu.ru/ru/mmeh/AspDok/pub/2016/medennikov.pdf

igor_kuznetsov
14.02.2017 16:37
#9886752
У меня на motox 1 поколения есть чип который распознает голос, интересно, как он сделан… знает кто?

DarkTiger
15.02.2017 02:22
#9887872
Для псо и котэ — понятно, побрил, приклеил электроды и вуаля. Но для человека такое не покатит, надо создать в ухах звуковое давление, а это энергия на порядки больше.
1. VJean
  16.02.2017 15:19
  #9891990
  есть еще костная проводимость

Sly_tom_cat
15.02.2017 18:14
#9890068
-1
Не ну распознает то команду от тепла тела, а вот исполнительная часть от чего питаться будет?
Да хотя бы передать на внешнее исполнительное — уже нужна побольше моща…

Но чип безусловно интересный — его в канал речевого обмена телефона/рации засунуть: уже сжатие будет не слабым (на другой стороне синтезатор можно персонализировать под вызывающего).

Распознавание речи с аппаратным ускорением. Специализированный ASIC потребляет менее 8 мВт +13

Комментарии (7)

Delics

Hateman31

dernuss

igor_kuznetsov

DarkTiger

VJean

Sly_tom_cat