Продолжаем рассказ о Лекси. Проект Лекси — участник кластера информационных технологий Фонда «Сколково». Статья понравится всем, кто интересуется разработкой хардварных проектов, кому интересны голосовые интерфейсы и будущее «умного дома». В статье проводим краткий обзор электроники, которая используется внутри нашего устройства.

image


Обзор электроники проводит Роман Жуков, технический директор ООО Лекси. Роман является ключевой фигурой проекта. На начальных этапах он отвечал и полностью реализовал следующие направления:
  • промышленный дизайн;
  • оснастка для изготовления;
  • электроника;
  • образ embedded linux;
  • организация производства в Китае.

Текстовую часть обзора дополнит для наглядности видео:



Первоначально само устройство было собрано на готовом железе, что позволило нам быстро создать работающий в ограниченном режиме прототип для его демонстрации на презентациях и отработки концепции. На текущий момент у нас вся электроника своя, сделана под наши конкретные задачи и под наш корпус.

Начнем мы с самой важной связки прибора: вычислительный модуль (рис. 1) и базовая плата (рис. 2).
image
Рис. 1

Эта очень гибкая связка, которая позволяет поддерживать устройство в течение многих лет. Она основана на специальном модуле, который описан специальным стандартом, имеющим промышленное, автомобильное и коммерческое использование. Постоянно модернизируя и поддерживая в хорошем состоянии программное обеспечение для этого модуля, можно развивать и поддерживать проект в течение длительного времени.

Рассмотрим по порядку элементы, которые находятся на базовой плате. Помимо самого вычислительного модуля, который вставляется в разъем как картридж (в общем случае — съемный, что повышает ремонтопригодность), здесь можно найти разъемы общего назначения, такие как USB, разъем HDMI (который необходим, по нашему замыслу, для того, чтобы применять эту плату в других проектах), а также для вывода отладочной информации и тестирования на заводе.

Мы можем увидеть даже SATA разъем, он тоже здесь присутствует, поддерживается контроллером. Этот разъем был добавлен как порт расширения для проекта в будущем.

Видны вспомогательные разъемы на плате, которые позволяют отлаживать устройства — UART; специальные разъемы, которые имеют вибрационную устойчивость и систему направляющих, которая уменьшает вероятность выскакивания. Несмотря на свой необычный вид, это, на самом деле, порт USB, он передает сигнал к звуковому модулю. Здесь можем также увидеть многоконтактный разъем, который обеспечивает питание плат подсветки и, в том числе, питание и передачу сигнала к звуковому модулю. По бокам можно увидеть знакомый нам порт mini-USB — этот порт предназначен для того, чтобы прошивать плату.

Теперь посмотрим, что на обратной стороне.

image
Рис. 2

Это тыльная (обратная) сторона платы и она обращена к задней части Лекси, куда подходят все основные порты: порт питания, порт для установки внешних аксессуаров. У прибора предусмотрено наличие внешних аксессуаров в процессе его развития; они могут быть разные, в основном для того, чтобы подчеркивать индивидуальность Лекси (как личности). Здесь же мы также можем видеть сетевой порт. Это обычный RJ45 разъем, сюда мы втыкаем знакомую нам витую пару, чтобы подключить устройство к интернету через роутер, что может быть востребовано на рабочем месте во многих местах, где нет беспроводной связи Wi-Fi. Мы видим батарейку, которая хранит системное время и отвечает за обеспечение некоторых других функций, подобно той батарейке, которая установлена на ваших материнских платах внутри настольного компьютера. Все остальное является полупроводниковой оснасткой, которая обеспечивает хранение данных (как имеющийся накопитель), сетевой конвертер и систему групповых перемычек, которая в общем предназначена для первичной прошивки Лекси, а также для восстановления его прошивки в течение времени, если она сломается.

Интересным является расположение на плате специального Mini PCI-Express разъема. Этот порт предназначен для установки 3G или 4G модема (Рис. 3). В общем случае изделие (как изделие из интернета вещей) может работать без подключения к вашей беспроводной сети, используя мобильную сеть оператора. Для этого изделие дополняется специальным модемом, на данный момент — фирмы Huawei, через который отлажена работа этого устройства полностью из коробки: достали, воткнули и ваше изделие в интернете.

image
Рис. 3

На этом о базовой плате все. Мы не будем вдаваться в подробности и вскрывать это изделие, убирая радиатор и многие другие компоненты. В общем случае — это стандартная обвязка, которая хранит данные, разъемы для антенн и много другое. Это в чистом роде электроника.

Перейдем к обзору другой платы. Это плата, обеспечивающая подсветку в устройстве, но не только (рис. 4-5).

image
Рис. 4

image
Рис. 5

На самом деле, плата многофункциональна. С лицевой (рис. 5) стороны расположено множество светодиодов, которые способны программно менять свои цвета и интенсивность. Таким образом, Лекси может светиться разными цветами. В нашем проекте подсветка играет функцию невербального метода коммуникации с пользователем в процессе диалога — обеспечивает обратную связь для собеседника во время общения.

На обратной стороне платы расположены датчики (рис. 4), а также система светодиодных драйверов, обеспечивающих их работу. Датчики были вынесены с базовой платы; в общем случае — это датчики, которые персонализируют Лекси как устройство. Они опознают его движение, способны определять температуру и давление и передавать эту информацию через голосовое общение с пользователем.

Здесь же мы видим знакомый нам ответный порт, который был на базовом модуле. Через него осуществляется передача данных и питание этого модуля. Как вы уже могли заметить, модуль имеет необычную округлую форму, а в центре материал отсутствует потому, что в центре платы монтируется звуковой модуль, которого в этом обзоре нет.

Про наш звуковой модуль мы расскажем во втором обзоре. В нем же мы можем осветить важные вопросы, которые могут возникнуть у вас по ходу обзора.

Передают данные и питают платы внутри этого прибора вот такого рода шлейфы (рис. 6).

image
Рис. 6

Также есть интересная реализация гибкой печатной платы, которая передает сигналы для видео-камеры (рис. 7). Специальная фото/видео камера, расположенная на своем модуле, с разрешением матрицы 5 Mpx, осуществляет фото и видео съемку, распознает ваше присутствие перед устройством, позволяет Лекси общаться с вами самостоятельно, обнаруживая вас автоматически.

image
Рис. 7

Внутри изделия в один ряд установлены специальные штыревые антенны (рис. 8). Эти антенны имеют достаточно высокую мощность для уверенного приема сигнала как в режиме 3G и 4G, так и Wi-Fi и Bluetooth. Все это проходит через специальный чип, который расположен на плате. В общем случае антенны подключаются специальным коннектором, расположенным внутри пробора.

image
Рис. 8

В частности, мы тестировали в проекте антенны специального печатного вида (рис. 9), которые в общем случае клеятся или монтируются на одну из плат и уменьшают габариты антенны, но в целом они показали себя хуже, чем штыревая антенна. Таким образом, штыревые антенны, так как они хорошо умещаются в корпусе, скорей всего, будут оставлены.

image
Рис. 9

Все внутренние компоненты были спроектированы и разработаны с учетом многократных подключений в процессе разработки робота.

Интересный вид имеют динамики (рис. 10), которые используются для вывода звука. Они имеют весьма необычную форму: прямоугольную. Их форма обусловлена тем, что прибор имеет округлую форму, внутри мало места и с точки зрения дизайна узкие вытянутые динамики нам подошли больше прочих. Это очень качественные немецкие динамики, которые имеют частотную характеристику, предназначенную для вывода голоса.

image
Рис. 10

Питание Лекси осуществляется через обыкновенный блок питания со штыревым разъемом. Это абсолютно стандартный блок питания. На выходе он даёт 12В, потребляет совсем немного ватт, питается от обычной розетки 110-220В.

На этом мы завершаем краткий обзор электроники Лекси.

image

В последующих публикациях мы планируем осветить следующие темы:
  • Обзор звукового модуля.
  • Организация системы умного дома с помощью Лекси.
  • Лекси как интеллектуальная интерактивная развивающая игрушка для детей.
  • Технологии, используемые в проекте Лекси, на основе рекомендательных систем.
  • Съем звука с помощью массива микрофонов.
  • Распознавание речи.


Вдогонку хотим анонсировать два события:
  • Запуск новой кампании на Кикстартере. Оставьте свои контактные данные в специальной форме и узнайте обо всём первыми: goo.gl/hxEEjr.
  • Начало beta-тестирования нашего устройства. Принять участие в тестировании beta-версии Лекси, Вы можете, оставив свою заявку в нашем сообщества Вконтакте: vk.com/topic-67233059_31971920.


Наиболее эффективно за нашим проектом можно следить в социальных сетях:

Комментарии (49)


  1. fizikdaos
    16.06.2015 11:40
    +7

    Хотим больше гик-порно!!! А то читать вот это не очень интересно:

    Она основана на специальном модуле, который описан специальным стандартом

    Что за проц, сколько памяти, у каких китайцев купили?


    1. stanislav_as
      16.06.2015 12:26

      Гик-порно мы не очень умеем, но будем учиться)
      Рома (Wicron) промахнулся немного комментом, он ниже привёл характеристики. Вот ещё порно-деталей можно из него вытянуть в комментах.


  1. xqz_me
    16.06.2015 12:06

    Мне понадобилось минут 10, чтобы найти информацию о том, что же ваш Лекси умеет. Я правильно понял, это такой Amazon Echo, только в 3 раза дороже, без амазона, но с возможностью обижаться?

    На самом деле крутой проект, удачи вам и все такое, но чего так дорого-то?


    1. stanislav_as
      16.06.2015 12:16
      +1

      Echo мы тестировали, с ней невозможно общаться: во-первых, долгий пинг очень раздражает, диалог всё время обрывается. Во-вторых, любую фразу, обращённую к Алексе, надо начинать со слова «Алекса, ...». Если интересно, попробуйте с женой или товарищем так пообщаться — это трудно, убого и неестественно.
      У нас своё оффлайновое распознавание, поэтому мы не завязаны на активационные фразы а-ля «Алекса, ...».
      Ну и у нас много других фишечек, мне больше всего нравится концепция контекстного распознавания речи: когда система распознавания речи взаимодействует с виртуальным собеседником, чтобы учитывать контекст разговора, повышая качество и скорость распознавания.


      1. xqz_me
        16.06.2015 12:19

        Интересно. Удачи вам!

        А распознование и синтез речи прямо совсем свои? Или какие-то библиотеки использовали?


        1. stanislav_as
          16.06.2015 12:24
          +1

          Спасибо! Следите за нами, мы будем бета-тест проводить, обратная связь нам очень полезна.

          Распознавание у нас совместное с отечественной компанией «Стэл»: адаптировали под ARM, строим языковые и акустические модели конкретно под Лекси, в общем.

          Синтез — из open source, тоже отечественный (RHVoice, на гитхабе есть). Мы для этого синтеза умеем делать свои голоса для своих роботов.


      1. Xom
        30.06.2015 12:32

        Вообще то фраза «Алекса, ...» служит для того, чтобы «интеллектуальный помощник» случайно не выполнил команды, которые вы дале жене, а не ему.

        Но интересней другое — как вы учитываете контекст и поддерживаете диалог? Чат бот логика или что то другое?


        1. ignat99
          30.06.2015 12:45

          Как вариант можно общаться с роботом на специальном языке. Что бы не было путаницы кому выдана команда. Но с другой стороны, было бы хорошо, если робот учитывал сколько собеседников поблизости и следил за контекстом каждого.


          1. Xom
            30.06.2015 12:48

            Специальный язык — плохо, не юзабильно. Его придется учить, а пользователь ленив (не гик). Следить за контекстом — адски сложная задача, поэтому и спрашиваю, как вы ее решили. А распознать из контекста, что речь обращена к тебе, почти невозможно без поддержки визуального контекста.


            1. ignat99
              30.06.2015 13:03

              Основы визуального контекста уже созданы. Так например Гугл в хранилище фотографий связывает реальные имена, реальные места и ссылки на реальные вещи, которые есть на фотографии. В идеальном мире, послав на сервер фотографию, вы получите и имена и перечень предметов и место где это происходит :-) В реальном мире, видимо надо делать свою базу данных с алгоритмами идентификации возможных деталей происходящего.


              1. Xom
                30.06.2015 13:22

                В визуальном контексте только есть наметки у таких гигантов как Google, но полностью рабочего варианта нет и у них. И вам я бы посоветовал искать более реалистичные пути )) Лучше исходить из речевого контекста, обращение к прибору — это не так сложно и вполне юзабельно для юзера. Так делают Google (Ok, google), Samsung на телевизорах и другие. Они тем самым создают вполне привычную модель поведения. И поверьте, они проверили ее на юзабельность, прежде чем внедрять. Так что не стоит тут придумывать что-то сложнее. А вот поддерживать контекст — это задачка важнее. Многие согласны с тем, что речевые интерфейсы не приживаются именно из-за этого. Поясню.

                Просто команды мало интересны, легче включить музыку или лампочку с экрана смартфона, чем командовать прибору, стоящему где-то в одной комнате, да еще к тому же не уверенно слышащему (не 100%). Поэтому умный дом сейчас активнее и проще развивается на смартфоне такими уже распространенными программами как IFTTT.

                Понимания заданного списка команд причем с предзаданной лексикой (сказал иначе — промах) — это не интересно. Поиграться на пару дней и отложить в угол. Вам же, чтобы выжить, надо дать новый экспириенс юзеру, из-за которого он будет готов общаться с вашей игрушкой. Дать то, что будет поддерживать к нему интерес больше, чем к командному пункту. Умение поддерживать диалог, исходя из контекста, и наличие общей «картины мира», о есть представления о чем может говорить человек. Нужно понимание расширенного контекста, так как ни одно предложение не содержит всю информацию об обстоятельствах речи. Без этого любая такая игрушка — тупое баловство, претендующее только на место в пыльном шкафу.

                Ваша игрушка должна содержать что-то человеческое, быть неожиданной для ее хозяина. Как это сделать? Вы сильны по железу, это уже хорошо. Но по семантике вам видимо еще надо расти и расти. Обращайтесь если что )


                1. ignat99
                  30.06.2015 13:26

                  Мои игрушки другие и я не участвовал в создании Лекси. У меня просто системы наблюдения с расширенными возможностями и фильтрами (изображения, звука).


                  1. Xom
                    30.06.2015 13:29

                    Извините, принял вас по ответам за автора проекта )) Продублирую авторам тогда.


                1. ignat99
                  30.06.2015 14:13

                  Если учитывать стоимость. То на сегодняшний день это 720P камера с микрофоном это доступный сенсор. Только из звука в помещении, да ещё с музыкой или на улице с шумом потока машин или соседских детей сложно фильтровать только речь. Либо надо расставлять по помещению целую сеть микрофонов, либо использовать гироскоп на мобильном телефоне в качестве микрофона или да же специальную гарнитуру.

                  Всё это выглядит сильно надуманным решением если китайский пульт управления RGB светом составляет 1$ из 10$ стоимости 5м LED ленты. Использовать оборудование стоимостью 30-100 евро для того же самого управления просто не рентабельно и не разумно.

                  Поэтому если использовать оборудование за 100 евро — то лучше сразу работать с видео — это то же сигнал но двухмерный или трёхмерный, в случае стерео-камеры.


  1. bormotov
    16.06.2015 12:09
    +1

    текст будто для детей.


    1. Wicron
      16.06.2015 12:50
      -1

      Текст адаптирован для широкого слоя аудитории, в том числе для детей.


      1. bormotov
        16.06.2015 13:03
        +2

        то есть автор не понимает какая аудитория у ресурса, какие ожидания, что интересно в первую очередь? Ок.


        1. Wicron
          17.06.2015 20:06
          -1

          Автор толерантно относится ко всем.


          1. bormotov
            17.06.2015 21:11

            не понимаю ваш ответ, простите.

            Если на ресурсе, 80% (условно, по закону 80/20) аудитории предпочитает технические подробности и конкретные факты, то «толерантный текст», который в равной мере ориентирован на оставшиеся 20% в виде «изложения для детей», фактически суть проявление неуважения к этим самым 80%.
            Единственное разумное объяснение — когда неизвестен расклад, тогда «бъют по площадям».

            Но еще раз простите, это Хабр, и расклад тут известен.


  1. Wicron
    16.06.2015 12:12
    +1

    В этом проекте базовым вычислительным элементов рассматривается не процессор, а больше модуль. Это сделано для улучшения поддерживаемости. На вооружение был взят стандарт EDM.
    В модуле, представленном в этой статье:
    — 4х ядерный CortexA9 процессор 1.2 ГГц IMX.6
    — 2 Гб ОЗУ DDR3 533 МГц
    — NAND eMMC 4.41 накопитель 4 Гб
    — совмещенный BT LE+WiFI BCM4330 чип
    — сетевой Ethernet контроллер 1Гбит


  1. Wicron
    16.06.2015 12:17

    Amazon Echo выпущен лишь в экспериментальной ограниченной партии. Его цена не является окончательной. Скорее отражает его себестоимость. Более адекватной является цена недавно анонсированного изделия компании Sony (300$) с функциями Echo. Сам по себе Echo неплох, у нас есть один такой. Но это ТОЛЬКО музыка. Это колонка. Ее распознавание заточено в основном на проигрывание треков. Смущает также принцип первичной настройки для подключения ее к Интернет. Она создает свою сеть. Так к примеру, будучи извлеченной из коробки, она создала сеть в том же диапазоне, в котором была создана рабочая сеть, в результате в офисе пропал Интернет. Само подключение в силу интерференции, проходило долго — процесс не отлажен, вследствие этого порог входа высокий. Будет не мало возвратов.


    1. stanislav_as
      16.06.2015 12:27

      Да просто как всегда будет — Алекса окажется в пыльном углу через месяц использования.


  1. Wicron
    16.06.2015 12:23

    Лекси — автономный прибор по своей идее. Голосовой интерфейс не терпит зависимости от качества Интернет. Если вы попробуете пользоваться им часто, то непостоянное время ответа рано или поздно достанет вас своей тупизной. Вы будете расценивать собеседника как тормоза. Не возникнет привыкания к постоянству услуги, не будет зависимости от ее отсутствия. Мир постоянно колеблется между подключенными гаджетами и принципом «все включено», Прогресс в мобильных процессорах позволяет делать такие гаджеты, имеющие на борту и синтез, и распознавание, и собеседника. Лекси — такой прибор.


  1. ignat99
    16.06.2015 12:29

    Вот теперь понятно в чём отличие (CortexA9) от OLinuXino. Впрочем у Olimex есть SoM с CortexA9 RK3188-SOM-4GB.

    В Европе лучше использовать поставщиков из Европы с гарантией качества. Тем более что цены близкие. Такие же примерно устройства, как в обзоре но с 3 камерами и USB-микрофонами встроенными в камеры мы ставим с декабря прошлого года местным клиентам в Испании.


    1. ignat99
      16.06.2015 12:39
      -1

      Стандартное решение: pocketsphinx, RHVoice, чат-бот, видео-демонстрация c YouTube как работает pocketsphinx.


      1. stanislav_as
        16.06.2015 12:44

        Pocketsphinx тестировали два года назад — очень плохо. RHVoice хорош.


        1. mbait
          16.06.2015 12:47

          Но pocketsphnx это распознавание, а не синтез?


          1. stanislav_as
            16.06.2015 14:07

            Да, распознавание. Моё сообщение было про то, что в указанной ignat99 связке покетсфинксовское распознавание — ужасно. Точнее, для распознавания ста команд оно подойдёт, но для общения — никак.


    1. Wicron
      16.06.2015 12:48

      Olimex и Цветан Усунов плотно работают с Allwinner. Мы также официально плотно работаем над новым модулем на базе 8ядерного процессора А80, работы начаты. Осенью будет новая Лекси с очень быстрым распознаванием и ответами на вопросы. Мы стараемся локализовать технологические платформы внутри себя. Стараемся снижать зависимость от внешних поставок и становиться по возможности поставщиками из комплектующих.


  1. Wicron
    16.06.2015 12:44

    Мы покупаем у Olimex компоненты для другого проекта. Увы, с качеством болгарских комплектующих не всё хорошо, у нас идет выборка с КПД примерно 80-90%.


    1. ignat99
      16.06.2015 12:54

      Очень интересная информация. Вы могли бы уточнить, о каких конкретно комплектующих вы говорите?


      1. Wicron
        16.06.2015 12:59

        Это дисплеи. Сами по себе, они качественные. Проблема — в драйвере.


        1. ignat99
          16.06.2015 13:07

          Хотел брать вот этот и TS отдельно. В этой модели есть проблемы с драйверами?


  1. Wicron
    16.06.2015 12:58

    Дисплеи из следующей номенклатуры:
    — LCD 4.3 TS
    — LCD 7 TS
    — LCD 10 TS
    Одна из причин неполадок была найдена, но Цветан и Олимекс не стали править ее. В новой версии мониторов еще более усугубили ситуацию. Проблема чисто статистическая. Проявляется иногда. Она связана с тем, как спроектирована маленькая плата позади монитора.


    1. ignat99
      16.06.2015 13:11

      Напишите мне в личку, могу дать контакты самих драйверо-писателей. Их там всего 2-3 человека штатных, видимо на весь спектр устройств не хватает людей (Не Samsung). Поэтому они принимают пулл реквесты охотно в свои репозитарии и держат весь код открытым.


      1. Wicron
        16.06.2015 13:16

        Про это я в курсе. Я пишу Цветану иногда. Я бы с радостью принял контакты именно Samsung. Потому что мы еще «собаку съели» на их платформе Exynos, которую есть потенциал развивать и делать на ней изделия дальше.


        1. ignat99
          16.06.2015 13:31

          Пишите в личку. Контакты из Samsung вряд ли вам помогут. Samsung Electronics не предоставляет полную техническую информацию и открытый исходный код для всех проектов. Так же работники Samsung не имеют права делиться любой технической информацией и не будут, скорее всего делать изменения в коде или учитывать ваши пожелания. Решения принимают менеджеры и тим. лидеры. А OLinuXino A20 дройвера полностью работают IMHO. Для Exynos были какие-то образы новые на Ubuntu. Но кажется не всё из драйверов там готово. У меня есть 1 Exynos устройство, покупали давно.


          1. Wicron
            16.06.2015 13:37

            Exynos — вне конкуренции. Все сделано очень хорошо. Все драйверы есть. Мы пошли по пути Allwinner, но изделие Samsung — мечта. Делать свои изделия на платформе 4 и 5 поколения — так и осталось недостижимым событием. Слишком сложный чип для монтажа, очень маленькие нормы на топологию, большое количество потребных слоев, достаточно высокая плотность компонентов и отсутствие профилей пайки не позволили получить с конвейера достаточно годных модулей на базе Exynos. Как это делает Hardkernel, я не знаю, но очень хочу разобраться.


            1. ignat99
              16.06.2015 13:54

              Да есть 2 компании с хорошей технологической основой Intel и Samsung. Обе проамериканские. У Samsung Electronics есть 2 основных производственных базы в Сувоне и в Гуми в Ю.Корее. Вице президенты компании, часто из Йельского университета. Каждая производственная база имеет минимум 2-3 команды по производству железа, и 10-20 по производству софта.

              Часто Samsung открывает дочерние компании с целью проверить эффективность бизнес модели. Если модель оказывается не эффективной, такие организации продолжают существовать самостоятельно. Так же Samsung Electronics имеет множество внутренних и внешних суб-подрядчиков. Одним из которых может быть и Hardkernel.

              Суб-подрядчики имеют доступ к технической документации, тестовым стендам и хорошим проджект процессам с оплаченными дорогими инструментами контроля качества кода но только в рамках их проекта.

              Тем не менее, если говорить об нововведениях и новых проектах, часто не крупные компании из Китая лидируют, но, конечно не могут поддерживать нововведения уровня www.artik.io


              1. Wicron
                16.06.2015 14:07

                Очень информативно. Напишу вам в личку. Спасибо. Поделюсь своим замыслом по линии Samsung. По ссылке Artic 10 напоминает то, что увы, пока не взлетело на чипах от Samsung у нас.


  1. Wicron
    16.06.2015 14:15

    В Samsung корень проблем — это дистрибуция их чипов, потому что с виду она напоминает закрытую деятельность. Чипы есть в очень ограниченных количествах на открытом рынке. Производство на базе них плат также сильно ограничено из-за этого. Каких-то общепринятых моделей поддержки пока не замечено. Чипы есть на рынке по 2 года, потом их трудно найти. Есть также чувство, что даже самой компании чипов не хватает. Причина дефицита этой продукции мне не ясна. Рынок готов потреблять ее в огромных количествах. Почему компания не занимается розничной дистрибуцией чипов для кастомных решений, мне не понятно.


    1. ignat99
      17.06.2015 20:14

      Возможно продают крупному бизнесу чипы. К тому же у них только завод в Гуми ещё 10 лет назад по 1 000 000 устройств в день мог выпустить. Так что возможно всё уходит внутренним заказчикам.


  1. enclis
    19.06.2015 00:05
    +1

    Неужели так сложно было снять радиатор с EDM модуля? Или было стыдно показать, что вас стоит EDM1-CF-iMX6?


  1. Xom
    30.06.2015 12:55
    +1

    А есть где нибудь обзор не электроники и распознания речи, а лингвистических способностей вашей штучки. И хорошо бы сравнение ее с другими аналогичными проектами (их уже не мало) по одинаковым фразам. Насколько я понимаю, что чат-ботная технология, что есть предзаданные команды. В связи с этим интересно как вы учитываете контекст, точнее сказать, историю диалога?


  1. Xom
    30.06.2015 13:29

    Просто команды мало интересны, легче включить музыку или лампочку с экрана смартфона, чем командовать прибору, стоящему где-то в одной комнате, да еще к тому же не уверенно слышащему (не 100%). Поэтому умный дом сейчас активнее и проще развивается на смартфоне такими уже распространенными программами как IFTTT.

    Понимания заданного списка команд причем с предзаданной лексикой (сказал иначе — промах) — это не интересно. Поиграться на пару дней и отложить в угол. Вам же, чтобы выжить, надо дать новый экспириенс юзеру, из-за которого он будет готов общаться с вашей игрушкой. Дать то, что будет поддерживать к нему интерес больше, чем к командному пункту. Умение поддерживать диалог, исходя из контекста, и наличие общей «картины мира», о есть представления о чем может говорить человек. Нужно понимание расширенного контекста, так как ни одно предложение не содержит всю информацию об обстоятельствах речи. Без этого любая такая игрушка — тупое баловство, претендующее только на место в пыльном шкафу.

    Ваша игрушка должна содержать что-то человеческое, быть неожиданной для ее хозяина. Как это сделать? Вы сильны по железу, это уже хорошо. Но по семантике вам видимо еще надо расти и расти. Обращайтесь если что )


    1. stanislav_as
      03.07.2015 16:54

      Про лампочку вы не правы: чтобы включить свет через смартфон, нужно секунд 8. Голосом — 3. И не нужно никуда лезть за телефоном.
      По поводу лексики — мы не обязываем пользователя запоминать формат команд.

      А что вы про семантику имеете в виду? Вы эксперт?)


      1. Xom
        03.07.2015 17:42

        Пока экосистема складывается так, что экономней не в каждом приборе по микрофону, а в одном, управляющем всеми остальными. Таким путем идет индустрия IoT. Тем более что смартфон (google, nuance) априори лучше распознают ваш голос (настраивают распознание под ваши индивидуальные характеристики). Трудно вынимать смартфон — командуйте через часы (но часы, кстати, не пошли в народ именно потому, что большинству не в лом вытащить смартфон).

        Если вы не обязываете юзера запоминать команды, значит у вас должен быть способ понимать одни и те же команды, выраженные по разному. У вас такой есть? Это не простая задача, которая далеко не сводится к синонимам. Для одной функции «включи свет» достаточно и синонимов, хотя тоже могут быть не тривиальными у креативного народа («вруби светило»). Но если будет много команд с общими глаголами, просто так у вас ничего не получится (известная проблема).

        Да, эксперт по семантике, у нас проект по семантическому поиску, речевых интерфейсов тоже касались, но сами ими не занимаемся. «Успех» всяких речевых ассистентов говорит о том, что без надлежащего «понимания» того, что говорит юзер реализовать проект будет трудно. Но тут не так много семантики. А вот если вы захотите придать ума и неожиданности своему детищу — вот тут уже сложнее. Диалог реализовать сложно, если не ограничиваться имитацией 12 летнего одесского дауна.

        П.С. Прав я или нет, рассудит рынок, а не мы с вами )


        1. stanislav_as
          04.07.2015 09:38

          «большинству не в лом вытащить смартфон» — ошибаетесь. Рынок умных домов сейчас ещё сырой именно потому, что умные дома сейчас неудобны и примитивны. У вас есть умная лампочка? У меня есть, и я пробовал включать её телефоном, а также с помощью Лекси. Через Лекси — удобнее (он всегда слушает и всегда подключён к лампочке, в отличие от телефона).

          Про нетривиальные синонимы для команд вы говорите верно, но «Вруби светило», например, у нас сработает. Как вы предлагаете действовать, если не описывать команды шаблонами, как делаем мы?

          Интересно, что за проект вы делаете. У вас есть сайт?


          1. Xom
            04.07.2015 10:11

            Смартфон тоже постоянно слушает. Hello Galaxy или Ok Google попробуйте. Если лампочка wi-fa, она всегда подключена и к смартфону как и мой принтер, например — я в любой моммент могу что то распечатать со смартфона. Лекси стоит в одной комнате и управляет только тем, что там. А смартфон всегда в кармане, так что вопрос спорный, что тут лучше. Но вам виднее, вы же разрабатываете это, я только высказываю мнение.

            Пока у вас только одна лампочка, вы можете обойтись синонимами. Как только у вас их появится много, синсеты (группы синонимов к одной команде) начнут пересекаться. И тут начнется… Распознавать придется команду целиком, а не реагировать на отдельные ключевые слова по шаблону. Свободный порядок слов и многозначность глаголов создают нетривиальные сложности. Я вот и спрашиваю, как вы это решаете, но вы похоже еще до таких трудностей не дошли.

            Мы делаем семантический поиск smart-search.info