Добрый день, Хабрчане!

В этом посте представлена сравнительная таблица технических и заявленных функциональных характеристик устройств с голосовым интерфейсом: Лекси, Ubi, Ivee, Amazon Echo, Jibo, Cubic.

В прикрепленном pdf-файле также добавлен проект Robotalk.



Как выглядят устройства:

image
image
image
image
image
image
image

Если вы нашли несоответствие данных таблицы с действительными, сообщите об этом автору статьи!

Устройство Лекси Ubi Ivee Amazon Echo Jibo Cubic
Решаемые задачи Естественное общение на заданную тему, справочная информация, управление умными устройствами, голосовое управление почтовыми сервисами, будильник, напоминания, новости Будильник, справочная информация, напоминания, цифровая няня Управление приборами, справочная информация, новости Таймер, будильник, список покупок и дел, новостей, справочная информация, управление воспроизведением музыки Сообщения, кулинарный консультант, сказки, селфи, справочная информация Естественное общение на заданную тему, справочная информация, управление умными устройствами, голосовое управление почтовыми сервисами, будильник, напоминания, новости
Эмоции Да Нет Нет Нет Да Да
Подвижность Нет Нет Нет Нет Вращается вокруг платформы Нет
Датчики Датчики давления, освещения и температуры, сенсорные датчики, камера Датчики давления, влажности, освещения и температуры Датчики температуры и освещения Нет Сенсорные датчики, камера Нет
Материал корпуса Пластик покрытый софт-тач Пластик Пластик Пластик Алюминий, ABS-пластик, стекло Пластик
Интеграция с социальными сетями и почтовыми сервисами Да Да Нет Нет Да Да
Характер общения Живое существо, домашний питомец Дух, взаимодействие с пустотой Настольный предмет Музыкальная колонка Живое существо, домашний питомец Настольный предмет, персональный ассистент
Опредление направления на собеседника Да Нет Нет Да Да Нет
Персонализация общения Может адаптироваться к привычкам каждого пользователя. Если речь идет о семье, то сможет приспособиться к любому члену семьи, учитывая персональные особенности каждого. Нет Нет Нет Реагирует на настроение человека, и ведет себя соответствующим образом. Может адаптироваться к привычкам любого человека. Может приспособиться к любому члену семьи, для каждого найдет собственный подход. Нет
Разделение голосов нескольких говорящих Да Нет Нет Нет Да Нет
Визуальная составляющая Светодиодная подсветка Светодиодная подсветка 4,3-дюймовый экран с голубой подсветкой Светодиодная подсветка HD дисплей с полным спектром LED Светодиодная подсветка
3g модуль Да Нет Нет Нет Нет Нет
Питание и аккумулятор От розетки, подставка для беспроводного питания, аккумулятор на случай отключения электричества От розетки От розетки, аккумулятор От розетки От розетки (зарядная подставка), аккумулятор (покупается отдельно) От розетки
Активационная фраза Лекси Уби Hello, Ivee Alexa Джибо Кубик
Обращение к устройству по имени перед каждой командой Нет Да Да Да Да Да
Подключение к интернету Не обязательно Обязательно Обязательно Обязательно Обязательно Обязательно
Распознание голоса Локальное, на самом устройстве В облаке В облаке В облаке В облаке В облаке
Приватность пользователя Не нарушена Нарушена Нарушена Нарушена Нарушена Нарушена
Радиотюнер Нет Нет Да Нет Нет Нет
Необходимое количество для нормальной работы Один, для общения в пределах квартиры используются дополнительные гаджеты В одной квартире может быть много Уби, они синхронизируются друг с другом, работают как одно устройство В каждую комнату В каждом необходимом месте. Есть пульт для дистанционного управления. Ничего не сказано Один на одного человека
Для всей семьи/ сотрудников Да Нет Нет Да Да Персональное устройство
Понимает произвольную речь Да Да Да Нет Да Да
Узнает собеседника Да Нет Нет Нет Да Нет
Обладает эмоциями Да Нет Нет Нет Да Да
Компьютерное зрение Да Нет Нет Нет Да Нет
Управление Голосовое, вспомогательные гаджеты, мобильное устройство Голосовое Голосовое Голосовое, мобильное устройство, пульт Голосовое Голосовое, мобильное устройство
Мобильное приложение Android, iOS Android Android, iOS Android, iOS Android, iOS Android, iOS
Технология распознавания речи СТЭЛ - Watson от сотового оператора AT&T - - Яндекс, Google (в западных странах)
Общение вне дома с устройством Через приложение мобильного телефона или часов, а также через Telegram Messenger Нет Нет Нет Нет Через приложение мобильного телефона. Гарнитура с фирменным логотипом для телефона покупается отдельно.
Язык Русский, английский Английский Английский Английский Английский Английский, русский
Магазин приложений LexyStore Нет Нет Нет Jibo Store Да
Платформа Linux Android4.1 JellyBean - - Embedded Linux VOIS
Процессор АРМ7-процессор 800 мегагерц (ARM Cortex-A8) 400-мегагерцевый процессор ARM9 - ARM-процессор 1,5 ГГц
Модули Wi-Fi и Bluetooth Wi-Fi и Bluetooth Wi-Fi и Bluetooth Wi-fi Wi-Fi и Bluetooth Wi-Fi и Bluetooth Wi-Fi и Bluetooth
Оперативная память 2 Гб 1 Гб 128 Мб 256 Мб - 1 Гб
Встроенная память 16 Гб 4 Гб Флеш-модуль вместимостью 256 Гб 4 Гб - 8 Гб
Габариты Диаметр сферы 13 см 100 х 100 х 30 мм - Цилиндрическая форма с диаметром 82 и высотой 232 мм 150х150х280 мм 110 х 110 х 110 мм
Страна Россия Канада Америка Америка Америка Россия
Компания ЛЕКСИ Unified Computer Intelligence Corporation Ivee Amazon Группа Бризил Cubic Robotics (отделились от Лекси на раннем этапе)
Стадия Выход на Краудфандинг Краудфандинг Продажи Продажи Краудфандинг Краудфандинг
Стоимость $400 $300 $200 $200 $500 $250


Таблица в pdf-файле.
Сообщества проекта Лекси в социальных сетях: Вконтакте, Фейсбук.

Комментарии (17)


  1. littleone
    23.07.2015 12:51
    +2

    Обладает эмоциями? Я в этом сомневаюсь.


  1. saboteur_kiev
    23.07.2015 14:07
    -3

    Более серьезные конкуренты типа Siri и Cortana намеренно пропущены?


    1. SedovArtem Автор
      23.07.2015 14:16
      +2

      Это совершенно другой сегмент (мобильные голосовые помощники). Про них сравнительная таблица составляется.


      1. saboteur_kiev
        23.07.2015 15:09

        Хм. Cortana же доступна в настольной Windows?
        Меня просто очень интересуют все голосовые помощники, работающие на русском языке.


        1. SedovArtem Автор
          23.07.2015 15:25
          +1

          Да. Но в данной таблице я рассмотрел ассистентов, которые представлены как самостоятельные. У них есть рад преимуществ перед другими.


          1. saboteur_kiev
            23.07.2015 16:10

            А будет какое-то API для управления домашним компьютером?
            Очень бы хотелось, например я даю команду, Лекси отправляет ее на мой комп, где запускается скрипт/программа?


            1. SedovArtem Автор
              23.07.2015 18:38

              Или управление горячими клавишами при работе в фотошопе ;-)

              Насчет взаимодействия с мониторами. Есть идея, например, выводить визуальную информацию по запросу типа «Открой эту новость», «Включи скайп», «Скачай фильм» и т.д.


              1. saboteur_kiev
                24.07.2015 01:06
                +1

                Сделать полноценную систему управления сложно, но как же в большинстве помощников не хватает тупо заранее запрограммированных действий, которые часто встречаются в рутине:

                Сделай скриншот (файл с датой-временем)
                Запусти «ключевое слово», задать список команд
                Апи, чтобы задать фразу для произношения, которое можно выполнить из cmd (по голосовой команде например запустил скрипт, который проверил почту и тут же отправил в API текст типа «почта проверена xx новых писем», а помощник его вслух сказал.

                В Кортане мне жутко не хватает нормальных голосовых напоминаний на русском. Не обязательно его распознавать, просто как wav/mp3 файл проиграть мне же в указанное время.


  1. DexterKZ
    23.07.2015 15:08

    Очень интересное устройство, Ваш Лекси. Главное, чтобы заявленный функционал не был маркетинговым ходом. Желаю удачи!
    P.S. Модуляция голоса в видео немного топорная, надеюсь к релизу будет лучше


    1. SedovArtem Автор
      23.07.2015 15:21

      Синтез на видео олпенсорсный. На этом прототипе новый голос не стоит. Тот голос, который есть сейчас мы будем еще раз переделывать.


  1. abyss
    23.07.2015 17:52

    Проект интересный, если распознавание быстрое и точно.
    Но лично мне нужен ещё и API как минимум для:
    1. Чтобы можно было выполнять команды (например, настроить по фразе вызов определенного URL, а дальше я сам делаю что мне надо)
    2. Чтобы озвучить какой-то текст
    Планируется? Насколько полно покроете возможности устройства?

    Ещё не очень понятно что за дополнительные гаджеты для работы в разных комнатах.
    В идеале бы доп приборы для распознавания и озвучивания раздельно по комнатам. Включая возможность получать/указывать в API.
    Как конкретно у вас планируется, сколько будет стоить и как общаются гаджеты с основным устройством?


    1. SedovArtem Автор
      24.07.2015 11:09

      Мы говорим про Лекси, правильно?)

      Суть дополнительных приборов заключается в удаленной связи с Лекси. 1. Это может быть прибор типа «ухорот» (сами мы их производить не будем, а продавать — возможно), который слушает, передает звук на борт Лекси и отвечает его же голосом. С помощью таких приборов Лекси сможет локализовать свое общение с говорящим, определяя в какой он комнате. 2. Это может быть телефон. Через приложение можно будет просто позвонить Лекси или написать.

      API для открытия заготовленных URL тоже планируем.

      Озвучивание текста с возможностью прерывания Лекси вопросом — делаем.


  1. lightcaster
    24.07.2015 12:17

    Распознавание на устройстве, это интересно. А что за технология, хотяб приблизительно? Сами сделали, или что-то адаптировали? Качество измеряли на каком-нибудь стандартном датасете?


    1. SedovArtem Автор
      24.07.2015 15:41

      У нас очень хорошие отношения с отечественной компанией СТЭЛ. Их распознавание речи мы совместно адаптировали под наше железо и наши цели. Качество еще не измеряли, так как полностью устройство не собрали. Сейчас измерять качество нет смысла и необходимости.

      Предвижу ваш вопрос и поясню от чего зависит качество распознавание.
      Во-первых, необходимо качественно получить звук с помощью массива микрофонов. Эта часть системы соединяет несколько каналов воедино, обрабатывая звук, усиливая человеческий голос и подавляя шумы.

      Затем обработанный звук отправляется системе распознавания. Здесь есть аспект: мы используем множество языковых моделей — это называется контекстное распознавание речи, когда знание темы реплики позволяет сузить языковую базу.
      Получается, что качество распознавания зависит от совместной работы массива микрофонов, виртуального собеседника (для определения контекста диалога) и «пучка» систем распознавания.

      Чтобы повысить качество распознавания звука с массива микрофонов, записывается акустическая модель: необходимо в разных условиях записать большое количество дикторов на разных расстояниях. Тогда распознавание речи приспосабливается к тому звуку, что будет слать массив. Дальнейшее адаптация системы к конкретному пользователю происходит очень быстро.

      В данный момент мы только занимаемся акустической моделью для массива микрофонов и создаем множество языковых моделей. По каждой из них качество распознавания может варьироваться, т.к. они отличаются объёмом. Т.е. качество зависит от конкретной языковой модели.


      1. lightcaster
        24.07.2015 15:49

        Я говорю не о качестве устройства, а о качестве модели (аккустической, либо акустической + языковой).

        Интересует как раз реализация акустической модели. На сайте Стэл ничего не нашел.


        1. SedovArtem Автор
          24.07.2015 17:42

          Если вы про акустическую модель, то мы занимаемся ей сами. Пока раскрывать все карты мы не хотим.


          1. lightcaster
            24.07.2015 17:52

            Почему? Гугл вот расрывает. На ICML 2015 довольно подробный доклад был. Фейсбук тоже довольно открытый.

            Ну дело ваше.