В этом посте представлена сравнительная таблица технических и заявленных функциональных характеристик устройств с голосовым интерфейсом: Лекси, Ubi, Ivee, Amazon Echo, Jibo, Cubic.
В прикрепленном pdf-файле также добавлен проект Robotalk.
Как выглядят устройства:
Если вы нашли несоответствие данных таблицы с действительными, сообщите об этом автору статьи!
Устройство | Лекси | Ubi | Ivee | Amazon Echo | Jibo | Cubic |
---|---|---|---|---|---|---|
Решаемые задачи | Естественное общение на заданную тему, справочная информация, управление умными устройствами, голосовое управление почтовыми сервисами, будильник, напоминания, новости | Будильник, справочная информация, напоминания, цифровая няня | Управление приборами, справочная информация, новости | Таймер, будильник, список покупок и дел, новостей, справочная информация, управление воспроизведением музыки | Сообщения, кулинарный консультант, сказки, селфи, справочная информация | Естественное общение на заданную тему, справочная информация, управление умными устройствами, голосовое управление почтовыми сервисами, будильник, напоминания, новости |
Эмоции | Да | Нет | Нет | Нет | Да | Да |
Подвижность | Нет | Нет | Нет | Нет | Вращается вокруг платформы | Нет |
Датчики | Датчики давления, освещения и температуры, сенсорные датчики, камера | Датчики давления, влажности, освещения и температуры | Датчики температуры и освещения | Нет | Сенсорные датчики, камера | Нет |
Материал корпуса | Пластик покрытый софт-тач | Пластик | Пластик | Пластик | Алюминий, ABS-пластик, стекло | Пластик |
Интеграция с социальными сетями и почтовыми сервисами | Да | Да | Нет | Нет | Да | Да |
Характер общения | Живое существо, домашний питомец | Дух, взаимодействие с пустотой | Настольный предмет | Музыкальная колонка | Живое существо, домашний питомец | Настольный предмет, персональный ассистент |
Опредление направления на собеседника | Да | Нет | Нет | Да | Да | Нет |
Персонализация общения | Может адаптироваться к привычкам каждого пользователя. Если речь идет о семье, то сможет приспособиться к любому члену семьи, учитывая персональные особенности каждого. | Нет | Нет | Нет | Реагирует на настроение человека, и ведет себя соответствующим образом. Может адаптироваться к привычкам любого человека. Может приспособиться к любому члену семьи, для каждого найдет собственный подход. | Нет |
Разделение голосов нескольких говорящих | Да | Нет | Нет | Нет | Да | Нет |
Визуальная составляющая | Светодиодная подсветка | Светодиодная подсветка | 4,3-дюймовый экран с голубой подсветкой | Светодиодная подсветка | HD дисплей с полным спектром LED | Светодиодная подсветка |
3g модуль | Да | Нет | Нет | Нет | Нет | Нет |
Питание и аккумулятор | От розетки, подставка для беспроводного питания, аккумулятор на случай отключения электричества | От розетки | От розетки, аккумулятор | От розетки | От розетки (зарядная подставка), аккумулятор (покупается отдельно) | От розетки |
Активационная фраза | Лекси | Уби | Hello, Ivee | Alexa | Джибо | Кубик |
Обращение к устройству по имени перед каждой командой | Нет | Да | Да | Да | Да | Да |
Подключение к интернету | Не обязательно | Обязательно | Обязательно | Обязательно | Обязательно | Обязательно |
Распознание голоса | Локальное, на самом устройстве | В облаке | В облаке | В облаке | В облаке | В облаке |
Приватность пользователя | Не нарушена | Нарушена | Нарушена | Нарушена | Нарушена | Нарушена |
Радиотюнер | Нет | Нет | Да | Нет | Нет | Нет |
Необходимое количество для нормальной работы | Один, для общения в пределах квартиры используются дополнительные гаджеты | В одной квартире может быть много Уби, они синхронизируются друг с другом, работают как одно устройство | В каждую комнату | В каждом необходимом месте. Есть пульт для дистанционного управления. | Ничего не сказано | Один на одного человека |
Для всей семьи/ сотрудников | Да | Нет | Нет | Да | Да | Персональное устройство |
Понимает произвольную речь | Да | Да | Да | Нет | Да | Да |
Узнает собеседника | Да | Нет | Нет | Нет | Да | Нет |
Обладает эмоциями | Да | Нет | Нет | Нет | Да | Да |
Компьютерное зрение | Да | Нет | Нет | Нет | Да | Нет |
Управление | Голосовое, вспомогательные гаджеты, мобильное устройство | Голосовое | Голосовое | Голосовое, мобильное устройство, пульт | Голосовое | Голосовое, мобильное устройство |
Мобильное приложение | Android, iOS | Android | Android, iOS | Android, iOS | Android, iOS | Android, iOS |
Технология распознавания речи | СТЭЛ | - | Watson от сотового оператора AT&T | - | - | Яндекс, Google (в западных странах) |
Общение вне дома с устройством | Через приложение мобильного телефона или часов, а также через Telegram Messenger | Нет | Нет | Нет | Нет | Через приложение мобильного телефона. Гарнитура с фирменным логотипом для телефона покупается отдельно. |
Язык | Русский, английский | Английский | Английский | Английский | Английский | Английский, русский |
Магазин приложений | LexyStore | Нет | Нет | Нет | Jibo Store | Да |
Платформа | Linux | Android4.1 JellyBean | - | - | Embedded Linux | VOIS |
Процессор | АРМ7-процессор | 800 мегагерц (ARM Cortex-A8) | 400-мегагерцевый процессор ARM9 | - | ARM-процессор | 1,5 ГГц |
Модули Wi-Fi и Bluetooth | Wi-Fi и Bluetooth | Wi-Fi и Bluetooth | Wi-fi | Wi-Fi и Bluetooth | Wi-Fi и Bluetooth | Wi-Fi и Bluetooth |
Оперативная память | 2 Гб | 1 Гб | 128 Мб | 256 Мб | - | 1 Гб |
Встроенная память | 16 Гб | 4 Гб | Флеш-модуль вместимостью 256 Гб | 4 Гб | - | 8 Гб |
Габариты | Диаметр сферы 13 см | 100 х 100 х 30 мм | - | Цилиндрическая форма с диаметром 82 и высотой 232 мм | 150х150х280 мм | 110 х 110 х 110 мм |
Страна | Россия | Канада | Америка | Америка | Америка | Россия |
Компания | ЛЕКСИ | Unified Computer Intelligence Corporation | Ivee | Amazon | Группа Бризил | Cubic Robotics (отделились от Лекси на раннем этапе) |
Стадия | Выход на Краудфандинг | Краудфандинг | Продажи | Продажи | Краудфандинг | Краудфандинг |
Стоимость | $400 | $300 | $200 | $200 | $500 | $250 |
Таблица в pdf-файле.
Сообщества проекта Лекси в социальных сетях: Вконтакте, Фейсбук.
Комментарии (17)
saboteur_kiev
23.07.2015 14:07-3Более серьезные конкуренты типа Siri и Cortana намеренно пропущены?
SedovArtem Автор
23.07.2015 14:16+2Это совершенно другой сегмент (мобильные голосовые помощники). Про них сравнительная таблица составляется.
saboteur_kiev
23.07.2015 15:09Хм. Cortana же доступна в настольной Windows?
Меня просто очень интересуют все голосовые помощники, работающие на русском языке.SedovArtem Автор
23.07.2015 15:25+1Да. Но в данной таблице я рассмотрел ассистентов, которые представлены как самостоятельные. У них есть рад преимуществ перед другими.
saboteur_kiev
23.07.2015 16:10А будет какое-то API для управления домашним компьютером?
Очень бы хотелось, например я даю команду, Лекси отправляет ее на мой комп, где запускается скрипт/программа?
SedovArtem Автор
23.07.2015 18:38Или управление горячими клавишами при работе в фотошопе ;-)
Насчет взаимодействия с мониторами. Есть идея, например, выводить визуальную информацию по запросу типа «Открой эту новость», «Включи скайп», «Скачай фильм» и т.д.saboteur_kiev
24.07.2015 01:06+1Сделать полноценную систему управления сложно, но как же в большинстве помощников не хватает тупо заранее запрограммированных действий, которые часто встречаются в рутине:
Сделай скриншот (файл с датой-временем)
Запусти «ключевое слово», задать список команд
Апи, чтобы задать фразу для произношения, которое можно выполнить из cmd (по голосовой команде например запустил скрипт, который проверил почту и тут же отправил в API текст типа «почта проверена xx новых писем», а помощник его вслух сказал.
В Кортане мне жутко не хватает нормальных голосовых напоминаний на русском. Не обязательно его распознавать, просто как wav/mp3 файл проиграть мне же в указанное время.
DexterKZ
23.07.2015 15:08Очень интересное устройство, Ваш Лекси. Главное, чтобы заявленный функционал не был маркетинговым ходом. Желаю удачи!
P.S. Модуляция голоса в видео немного топорная, надеюсь к релизу будет лучшеSedovArtem Автор
23.07.2015 15:21Синтез на видео олпенсорсный. На этом прототипе новый голос не стоит. Тот голос, который есть сейчас мы будем еще раз переделывать.
abyss
23.07.2015 17:52Проект интересный, если распознавание быстрое и точно.
Но лично мне нужен ещё и API как минимум для:
1. Чтобы можно было выполнять команды (например, настроить по фразе вызов определенного URL, а дальше я сам делаю что мне надо)
2. Чтобы озвучить какой-то текст
Планируется? Насколько полно покроете возможности устройства?
Ещё не очень понятно что за дополнительные гаджеты для работы в разных комнатах.
В идеале бы доп приборы для распознавания и озвучивания раздельно по комнатам. Включая возможность получать/указывать в API.
Как конкретно у вас планируется, сколько будет стоить и как общаются гаджеты с основным устройством?SedovArtem Автор
24.07.2015 11:09Мы говорим про Лекси, правильно?)
Суть дополнительных приборов заключается в удаленной связи с Лекси. 1. Это может быть прибор типа «ухорот» (сами мы их производить не будем, а продавать — возможно), который слушает, передает звук на борт Лекси и отвечает его же голосом. С помощью таких приборов Лекси сможет локализовать свое общение с говорящим, определяя в какой он комнате. 2. Это может быть телефон. Через приложение можно будет просто позвонить Лекси или написать.
API для открытия заготовленных URL тоже планируем.
Озвучивание текста с возможностью прерывания Лекси вопросом — делаем.
lightcaster
24.07.2015 12:17Распознавание на устройстве, это интересно. А что за технология, хотяб приблизительно? Сами сделали, или что-то адаптировали? Качество измеряли на каком-нибудь стандартном датасете?
SedovArtem Автор
24.07.2015 15:41У нас очень хорошие отношения с отечественной компанией СТЭЛ. Их распознавание речи мы совместно адаптировали под наше железо и наши цели. Качество еще не измеряли, так как полностью устройство не собрали. Сейчас измерять качество нет смысла и необходимости.
Предвижу ваш вопрос и поясню от чего зависит качество распознавание.
Во-первых, необходимо качественно получить звук с помощью массива микрофонов. Эта часть системы соединяет несколько каналов воедино, обрабатывая звук, усиливая человеческий голос и подавляя шумы.
Затем обработанный звук отправляется системе распознавания. Здесь есть аспект: мы используем множество языковых моделей — это называется контекстное распознавание речи, когда знание темы реплики позволяет сузить языковую базу.
Получается, что качество распознавания зависит от совместной работы массива микрофонов, виртуального собеседника (для определения контекста диалога) и «пучка» систем распознавания.
Чтобы повысить качество распознавания звука с массива микрофонов, записывается акустическая модель: необходимо в разных условиях записать большое количество дикторов на разных расстояниях. Тогда распознавание речи приспосабливается к тому звуку, что будет слать массив. Дальнейшее адаптация системы к конкретному пользователю происходит очень быстро.
В данный момент мы только занимаемся акустической моделью для массива микрофонов и создаем множество языковых моделей. По каждой из них качество распознавания может варьироваться, т.к. они отличаются объёмом. Т.е. качество зависит от конкретной языковой модели.lightcaster
24.07.2015 15:49Я говорю не о качестве устройства, а о качестве модели (аккустической, либо акустической + языковой).
Интересует как раз реализация акустической модели. На сайте Стэл ничего не нашел.SedovArtem Автор
24.07.2015 17:42Если вы про акустическую модель, то мы занимаемся ей сами. Пока раскрывать все карты мы не хотим.
lightcaster
24.07.2015 17:52Почему? Гугл вот расрывает. На ICML 2015 довольно подробный доклад был. Фейсбук тоже довольно открытый.
Ну дело ваше.
littleone
Обладает эмоциями? Я в этом сомневаюсь.