image

Когда Ганг Сюй, 46-летний житель Пекина, должен связаться со своим канадским арендатором об арендных платежах или счетах за электроэнергию, он открывает приложение под названием iFlytek Input в своём смартфоне и нажимает значок, похожий на микрофон, а затем начинает говорить. Программное обеспечение превращает его китайские слова в текстовые сообщения на английском языке и отправляет их канадскому арендатору. Оно также переводит английские текстовые сообщения арендатора на китайские, позволяя прозрачное общение.

В Китае более 500 миллионов человек используют iFlytek Input для преодоления препятствий в общении. Некоторые используют его для отправки текстовых сообщений с помощью голосовых команд во время вождения или для общения с носителем другого китайского диалекта. Приложение было разработано iFlytek, китайской ИИ компанией, которая применяет глубокое обучение в таких областях, как распознавание речи, обработка на естественном языке, машинный перевод и интеллектуальный анализ данных (см. «50 Smartest Companies 2017»).

Судебные системы используют их технологию распознавания голоса, чтобы расшифровать длительные судебные разбирательства; бизнес-центры обработки вызовов используют технологию синтеза голоса для генерации автоматизированных ответов; и Didi, популярное китайское приложение для перевозчиков, также использует технологию iFlytek для передачи заказов водителям.

Но, хотя некоторые впечатляющие успехи в распознавании голоса и мгновенном переводе позволили Сюй говорить со своим канадским арендатором, понимание языка и перевод остаются для машин невероятно сложной задачей (см. «AI’s Language Problem»).

Сюй вспоминает недоразумение, когда он пытался спросить своего арендатора, когда он придёт с работы, чтобы подписать продление аренды. Но текстовое сообщение, отправленное приложением, было «Когда вы идёте на работу сегодня?» Оглядываясь назад, он полагает, что, вероятно, из-за формулировки его вопроса: до какого времени вы будете работать сегодня? «Иногда, в зависимости от контекста, я не могу передать смысл, – говорит Сюй, которому приложение всё ещё нужно для общения.

История Сюй подчёркивает, почему так важно, чтобы такая компания, как iFlytek, собирала как можно больше данных из реальных взаимодействий. Бесплатное приложение собирает эти данные с момента его запуска в 2010 году.

Платформа разработчика iFlytek, называемая iFlytek Open Platform, предоставляет голосовые ИИ технологии более чем 400 000 разработчиков в различных отраслях, таких как интеллектуальный домашний и мобильный Интернет. Компания оценивается в 80 млрд. юаней ($12 млрд.) и имеет международные амбиции, в том числе дочернее предприятие в США, и планы по расширению на другие языки. Между тем компания меняет то, как многие отрасли, такие как вождение, здравоохранение и образование, взаимодействуют со своими пользователями в Китае.

image

В августе iFlytek запустил голосовой помощник для водителей под названием Xiaofeiyu (летучая рыбка). Для обеспечения безопасного вождения у него нет экрана и никаких кнопок. После подключения к Интернету и смартфону водителя он может размещать вызовы, играть музыку, искать маршруты и рестораны через голосовые команды. В отличие от голосовых ассистентов, предназначенных для дома, Xiaofeiyu был разработан, чтобы распознавать голоса в шумной обстановке.

Мин Чу, вице-президент AISpeech, еще одной китайской компании, работающей над голосовыми технологиями взаимодействия человека и компьютера, говорит, что голосовые помощники для водителей в некотором смысле более перспективны, чем умные динамики и виртуальные помощники, встроенные в смартфоны. Когда глаза и руки водителя заняты, имеет смысл полагаться на голосовые команды. Кроме того, как только водители привыкнут к тому, чтобы делать что-то, используя свой голос, помощник может также стать поставщиком контента, рекомендуя варианты развлечений вместо пассивного выполнения запросов. Таким образом, будет развиваться новая бизнес-модель.

Хотя искусственный интеллект имеет потенциал для снижения издержек и улучшения результатов лечения пациентов в сфере здравоохранения, многие больницы неохотно идут на решительные шаги, опасаясь разрушить загруженную систему, в которой мало врачей и много пациентов.

В Провинциальной больнице Аньхой, которая проводит испытание ИИ, голосовые технологии трансформируют многие аспекты обслуживания. Десять речевых помощников в форме девушки-робота используют технологию iFlytek, чтобы приветствовать посетителей в фойе амбулаторного отделения и предлагать помощь для перегруженных регистраторов. Пациенты могут сказать голосовому помощнику, каковы их симптомы, а затем выяснить, какой отдел может помочь.

Основываясь на данных, собранных больницей с июня, помощник направил пациентов в правильное отделение в 84% случаев.

Врачи в больнице также используют iFlytek, чтобы диктовать жизненные показатели пациента, принимаемые лекарства и иную информацию в мобильное приложение, которое затем превращает их в записи. Приложение использует технологию голосовой печати как систему подписи, которая не может быть сфальсифицирована. Приложение собирает данные, которые со временем улучшат его алгоритмы.

Хотя голосовые методы ИИ становятся более полезными в разных сценариях, остаётся одна фундаментальная проблема: машины не понимают ответы, которые они генерируют, говорит Сяоюн Ван, профессор Пекинского университета, который занимается исследованиями в сфере обработки на естественном языке. ИИ отвечает на голосовые запросы, ища соответствующий ответ в огромном количестве данных, но он не имеет реального понимания того, что он говорит.

Другими словами, технология обработки на естественном языке, которая управляет современными голосовыми помощниками, основана на наборе жёстких правил, в результате чего возникает недоразумение, которое произошло c Сюй.

Изменение способа обработки языка машиной поможет компаниям создавать голосовые ИИ устройства, которые станут неотъемлемой частью нашей повседневной жизни. «Тот, кто сделает прорыв в обработке на естественном языке, будет иметь преимущество на рынке», – говорит Чу.



image
image

Комментарии (3)


  1. Nakosika
    17.09.2017 12:56
    +1

    Судя по количеству смартфонов в Китае, утверждается что все пользователи используют данную программу. Сомнительно. Если только она по умолчанию встроена в каждую клавиатуру. Хайперы ИИ не стесняются…


  1. romxx
    17.09.2017 13:59
    +3

    Интересно, как они решили проблемы региональных диалектов, которых только крупных — десятки, причем это не просто «аканье» или «оканье» в русском, а почти полноценные отдельные языки в произношении. Или просто проигнорировали их, мол, не говоришь на пекинском, «государственном» диалекте — твои проблемы?


  1. Alcpp
    17.09.2017 21:57
    +2

    Видел попытку русских туристов общаться с тайцем через гугл-транслейт на английский:
    Диктует в телефон:
    «Но мы же заказывали две комнаты»
    Проигрывает звук и показывает тайцу.
    Таец не может понять, что от него хотят, ведь он только что по английски объянил, что вторая комната освободится завтра.
    Туристы уходят с чемоданами.