Технические характеристики специализированной микросхемы ASIC для распознавания речи
Голосовые команды — самый естественный и удобный интерфейс для управления электроникой. Можно представить, что в будущем понимать команды хозяина будут практически все электронные приборы: от лампочек в квартире до холодильника, микроволновой печи и чайника на кухне. Соединённые в общую сеть Интернета вещей эти приборы будут не только понимать хозяина, но и согласовывать свои действия друг с другом.
В последние годы технологии распознавания речи достигли высокого уровня и созрели для различных коммерческих приложений: управление автомобильным компьютером, здравоохранение (ведение документации в цифровом виде по распознаванию речи врачей) и применение в армии. Например, в итальянском учебно-тренировочном самолёте M-346 и в американском истребителе-бомбардировщике F-35 точность систем распознавания речи достигает 98%. Но чтобы выполнять распознавание речи на бытовых приборах и носимой электронике, нужно кардинально снизить энергопотребление этого интерфейса.
Инженеры из Лаборатории информатики и искусственного интеллекта (CSAIL) Массачусетского технологического института (МТИ) уже начали подготовку к этой футуристичной картине, когда вся окружающая электроника начнёт понимать голос человека. В рамках совместного проекта Qmulus с компанией Quanta Computer исследователи из МТИ разработали прототип специализированной микросхемы (ASIC) для распознавания речи. Уникальная особенность этого чипа — сверхнизкое энергопотребление: всего от 0,2 мВт до 10 мВт, в зависимости от количества слов, которые нужно распознать. Это делает возможным использование такой электроники буквально в любых устройствах, даже с питанием от человеческого тела.
Нормальный метаболизм в организме взрослого мужчины производит примерно 80 Вт тепла, а тренированный велосипедист выдаёт до 400 Вт механической энергии. Конечно, такую мощь невозможно задействовать для питания электроники в полной мере, но ведь много не нужно. С человеческого тела в пассивном режиме легко снимается несколько ватт. Например, маленький браслет длиной 10 см на запястье генерирует в постоянном режиме около 40 мВт за счёт разницы температуры человеческого тела (примерно 37°С) и окружающего воздуха (20°С).
Если надеть не браслет, а целый терможакет или орсет шириной 50-100 см, то он снимет с тела около 2 Вт. А ведь можно ещё преобразовать кинетическую энергию движения и расщеплять сахар из крови. Этого достаточно, чтобы питать нательную электронику, одежду и самые простые гаджеты.
Кроме человеческого тела маломощные электронные устройства могут добывать энергию, например, из фонового радиоизлучения (СВЧ, радио, WiFi и др.), от вибраций окон и пола и т.д.
Обычный средний смартфон вряд ли может работать на энергии, собранной с человеческого тела или из эфира. По расчёту разработчиков, программа распознавания речи на смартфоне на обычном мобильном «железе» будет тянуть около 1 Вт. Это очень много. Использование специализированной микросхемы МТИ и Quanta Computer в реальных условиях означает экономию энергии 90-99%. Самое главное, что такое маломощное устройство кардинально расширяет сферу применения распознавания речи. Теперь его можно внедрять не только в смартфоны или дорогостоящие электронные приборы, но в самые банальные окружающие предметы, даже в зеркало в ванной.
Если собирать энергию из окружающей среды, то такому прибору вообще никогда не потребуется замена батарей. Если всё-таки снабжать его элементом питания для надёжности, то одного заряда хватит на месяцы или годы.
Совместный проект Qmulus в МТИ и Quanta Computer начали ещё в 2005 году, тогда он назывался T-Party. Разработчики предполагают, что с распространением Интернета вещей компьютерные чипы будут внедрять в разные объекты, даже в домашних животных и крупный рогатый скот — для учёта поголовья и контроля за состоянием. Микрочипы осуществляют постоянный сбор информации и отправляют её на центральный сервер в реальном режиме времени.
Возможно, чипы с распознаванием речи можно страивать в ошейники домашних животных — например, голосовая команда может подавать слабый электроимпульс в ошейник, стимулируя домашнего питомца выполнить то или иное действие. Впрочем, домашние животные и без микрочипа очень хорошо понимают голосовые команды хозяина, так что такое изобретение больше пригодится в других областях.
«Голосовые команды станут естественным интерфейсом для носимых и умных устройств, — говорит Анантха Чандракасан (Anantha Chandrakasan), профессор электротехники МТИ, чья группа разработала новый микрочип. — Миниатюризация таких устройств потребует иного интерфейса, кроме клавиатуры. Критически важно встроить функциональность распознавания речи на локальном уровне, снизив энергопотребление системы по сравнению с выполнением этой операции в облаке».
Спроектированный ASIC показывает точность распознавания примерно такую же, как коммерческое программное обеспечение Kaldi со словарём в 145 тыс. слов, а на тактовой частоте 80 МГц производительность микросхемы (скорость поиска слов в словарной решётке) примерно соответствует производительности компьютера с процессором Xeon и тактовой частотой 3,7 ГГц.
Качество распознавания слитной речи (WER) и энергопотребление ASIC показаны в таблице.
Задача | Словарь | Частота | Обмен с памятью | WER | Энергопотребление |
---|---|---|---|---|---|
Цифры | 11 | 3 МГц | 0,11 МБ/с | 1,65% | 172 мкВт |
Погода | 2k | 23 МГц | 10,1 МБ/с | 4,38% | 4,70 мВт |
Дневник питания | 7k | 46 МГц | 9,02 МБ/с | 8,57% | 4,67 мВт |
Новости (1) | 5k | 15 МГц | 4,84 МБ/с | 3,12% | 1,78 мВт |
Новости (2) | 145k | 40 МГц | 15,0 МБ/с | 8,78% | 7,78 мВт |
Поделиться с друзьями
Комментарии (7)
igor_kuznetsov
14.02.2017 16:37У меня на motox 1 поколения есть чип который распознает голос, интересно, как он сделан… знает кто?
DarkTiger
15.02.2017 02:22Для псо и котэ — понятно, побрил, приклеил электроды и вуаля. Но для человека такое не покатит, надо создать в ухах звуковое давление, а это энергия на порядки больше.
Sly_tom_cat
15.02.2017 18:14-1Не ну распознает то команду от тепла тела, а вот исполнительная часть от чего питаться будет?
Да хотя бы передать на внешнее исполнительное — уже нужна побольше моща…
Но чип безусловно интересный — его в канал речевого обмена телефона/рации засунуть: уже сжатие будет не слабым (на другой стороне синтезатор можно персонализировать под вызывающего).
Delics
Надо бы такой чип Ростелекому продать. Когда им звонишь, робот вообще ничего распознать не может. Дурацкое ощущение, будто говоришь с пылесосом.
Hateman31
Что значит WER? Процент ошибок?
dernuss
Качество распознавания слитной речи (Word Error Rate, WER)
http://www.math.spbu.ru/ru/mmeh/AspDok/pub/2016/medennikov.pdf