Хабр, привет! Мы уже рассказывали вам несколько раз про нашу интеллектуальную службу распознавания речи — LUIS. И в этих историях всегда была одна проблема: LUIS крутой, но не понимает русский язык. Сегодня всё изменится. Под катом вы узнаете о методе добавления поддержки дополнительных языков в LUIS с помощью службы Translation Cognitive API.



Цикл статей «Digital Transformation»


Технологические статьи:
1. Начало.
2. Лотерея в облаке.
3. Блокчейн в банке.
4. Учим машину разбираться в генах человека.
5. Учим машину разбираться в языках.
6. Loading…

Серия интервью с Дмитрием Завалишиным на канале DZ Online:
1. Александр Ложечкин из Microsoft: Нужны ли разработчики в будущем?

Moed.ai — израильский стартап, позволяющий поставщикам услуг управлять своими рабочими календарями и вносить в них новые события с помощью единой облачной платформы, доступной с любого устройства.

Используя панель управления Moed.ai, пользователи могут планировать выполнение услуг, использование ресурсов и другие события. Под ресурсами здесь подразумеваются как объекты, например машины и переговорные комнаты, так и работники, к примеру водители-испытатели и торговые представители авто-дилера. Платформа Moed.ai позволяет планировать использование каждого из ресурсов и подстраивать под их доступность встречи с клиентами.

В настоящее время Moed.ai работает над созданием чат-ботов для каждого из своих заказчиков, чтобы клиенты этих компаний могли планировать выполнение услуг на удобном им языке привычным способом (в мессенджере Facebook, через Skype или Slack и т. д.).

Проблема


Moed.ai — израильская компания, поэтому для многих ее клиентов родной язык — иврит. Англоязычная версия чат-бота Moed.ai умеет выделять из сообщения пользователя намерение и сущности, и компания хочет создать программу на иврите с таким же функционалом. К сожалению, в платформе LUIS, которую компания планировала использовать для выделения намерений и сущностей, в настоящее время нет официальной поддержки иврита.

Решение


Целью совместной работы с Moed.ai было найти способ добавить поддержку иврита в LUIS с помощью когнитивной службы перевода (Translation Cognitive Service). В ходе работы мы сравнили два способа обеспечения поддержки иврита. Первый способ — загрузка текста, переведенного когнитивного сервиса, напрямую в существующую модель LUIS для английского языка — показал неудовлетворительные результаты, однако нам удалось создать более успешный метод.

Мы по-новому подошли к процессу обучения модели LUIS: вместо вычитанных английских фраз мы использовали в качестве примеров неотредактированный машинный перевод. Этот подход позволил нам преодолеть существенные различия между переводом, выполненным машиной, и правильной человеческой речью.

Чтобы понять, почему этот метод работает, рассмотрим следующую ситуацию.

Предположим, что пользователь обращается к программе четырьмя предложениями на иврите:
  ??? ???? ????? ?????
  ??? ???? ????? ????? ???? 
  ??? ???? ????? ????? ???? ????
  ???? ????? ????? ???? ?????

Правильный английский перевод этих предложений таков:
I want to schedule a meeting.
I want to schedule a test drive.
I want to schedule a test drive for tommorrow.
Can I schedule a test drive tomorrow?

Однако служба машинного перевода выдает следующий результат:
I want to schedule an appointment.
I want to schedule a test drive.
I want to make a test tomorrow.
Can set a test tomorrow?

Перевод первых двух фраз почти идентичен их смыслу, но обратите внимание, что между переводами третьего и четвертого предложений («Я хочу поставить тест завтра», «Я могу установить тест завтра?») и их истинным значением («Я хочу назначить тест-драйв на завтра», «Могу я назначить тест-драйв на завтра?») есть существенная разница.

Например, в обеих фразах система перевода заменила идею «тест-драйв» словом «тест», близким по форме, но очень далеким от смысла исходного текста. Модель LUIS, тренировавшаяся только на правильных предложениях, таких как «Я хочу назначить тест-драйв на завтра», едва ли сможет угадать смысл, скрытый за этой заменой, так как эта ошибка характерна именно для перевода предложений с иврита на английский. Различия в грамматике и словоупотреблении между двумя языками ведут к появлению в переводах одних и тех же неточностей, характерных именно для этой пары языков.

Если же мы будем изначально обучать модель на предложениях, переведенных с иврита, служба быстро научится выявлять несоответствия между некорректным переводом и исходным значением. Со временем модель запомнит, какие именно ошибки в переводе с иврита служба перевода допускает в каждом конкретном контексте, и будет чаще правильно реагировать на запросы.

Руководство по использованию


В этом разделе описан процесс обучения и использования нашего модуля узла для добавления поддержки дополнительных языков для программ-роботов. Предполагается, что пользователь уже создал приложение LUIS и сгенерировал ключ для когнитивной системы перевода (Translation Cognitive Service).

  1. Составьте список команд на необходимом вам языке (в нашем случае на иврите). Например:

    ??? ???? ????? ?????             // I want to schedule an appointment
    ??? ???? ????? ????? ????        // I want to schedule a test drive
    ??? ???? ????? ????? ???? ????   // I want to schedule a test drive for tomorrow
    ???? ????? ????? ???? ?????      // Can I schedule a test drive tomorrow?
  2. Выполните скрипт «Массовый перевод и импорт в LUIS».
  3. Выделите переводы, намерения и сущности с помощью портала LUIS.
  4. Используйте на портале LUIS программу автоматического обучения и тестирования, чтобы опробовать и еще раз потренировать свою модель, пока она не научится сопоставлять переводы с нового языка с их значениями.
  5. Примените npm-модуль LUIS, чтобы использовать обученную модель LUIS и интегрировать ее в свое приложение.

Код


Исходный код и заметки по использованию описанного метода вы можете найти на GitHub.

Возможности для использования


Описанный в данной статье метод можно использовать для обнаружения намерений и сущностей в тексте на любом естественном языке, поддерживаемом когнитивной службой перевода. Он также применим при локализации многих продуктов вида «общение как платформа», чтобы разговор с программой-роботом был более естественным.

P.S. Благодарим Костю Кичинского (Quantum Quintum) за иллюстрацию к этой статье.

Комментарии (1)


  1. PakoSmith
    15.12.2017 15:01

    Печалька…


    Людям необходимо сначала довести машинный перевод до совершенства, или хотя бы приблизить его к совершенству. И только потом мы сможем научить машину разбираться в языках.


    Прослеживается небольшой парадокс — машинные переводчики должны уметь осуществлять т.н. "смысловой перевод", дабы не искажать первоначальный смысл текста.