Оды автоматизации на основе технологий перевода речи в текст и обратно не утихают. Кто только не хвалится тем, как оптимизировал бизнес и сократил издержки. Да взять хотя бы нас самих: не только автоматизируем собственные процессы, а еще и другим помогаем. Но важно понимать, что автоматизация не только полезна, но и вредна. Под катом пара примеров второго вида (без имен, разумеется) плюс чек-лист, с помощью которого удастся не превратить первое во второе.
Начнем с вредного
В недрах одной компании зарождался интерактивный помощник для клиентов. Очень многообещающий. Ну то есть как. Автоматический секретарь, который должен был помочь клиентам сориентироваться среди множества телефонных сервисов компании.
Из-за ограничений технологии распознавания и возможности робота понимать живую речь получилось громоздко и неудобно. Клиентам приходилось использовать строго заданный набор слов (чтобы робот их понимал). Для этого составили подсказки для «правильных» ответов на поставленный роботом вопрос. Несмотря на инструкцию, робот переспрашивал, правильно ли он понял решение человека.
Все это сделало общение с машиной крайне утомительным и неприятным для людей, и помощника тихо погасили, заменив старым добрым IVR с передачей решений человека по DTMF. И правильно сделали.
Кстати, о DTMF. Еще один неудачный пример автоматизации — объединенный сервис рекомендаций и бронирования, в котором клиенту нужно провзаимодействовать с роботом-ассистентом, выпытывающим предпочтения и на их основе предлагающим различные варианты досуга.
Подготовили динамическое голосовое меню, которое формировалось под каждого клиента в зависимости от его решений на предыдущих шагах. То есть как таковой строгой структуры меню не было, зато была возможность выразить свои предпочтения ответами на вопросы робота в виде сигналов DTMF.
Проект запустили в эксплуатацию, не озаботившись серьезным тестированием на своей целевой аудитории. И после этого внезапно выяснилось, что люди не очень любят подолгу выслушивать робота и выбирать минимум из пяти вариантов, чтобы ответить на его вопрос.
Оба кейса объединяет одно: интеллект ассистента и ограничения технологии не позволяют строить сложные дискуссии с автоматизированной системой по телефону. Люди быстро устают от механического помощника и пытаются соединиться с живым оператором. Либо просто отказываются от использования.
Запилим автоматизацию с распознаванием и роботами
Как же понять, что пора браться за автоматизацию с использованием этих технологий? Если на все вопросы из списка ниже можно ответить утвердительно, значит, время пришло:
- автоматизация принесет пользу продукту, за которую определенная аудитория захочет платить?
- она снизит/устранит барьеры при использовании продукта?
- точно не привнесет новых проблем и барьеров?
- предусмотрены все точки касания в пользовательском интерфейсе — от типового кейса до нестандартного, например, реакция системы на ошибки?
Добавить общение с роботом можно, если он сможет ответить на ряд вопросов и разгрузить службу поддержки. Поставить робота перед продавцом — практически подарить клиента конкуренту.
Еще несколько рекомендаций, которые помогут при внедрении технологии Text-to-speech:
- скорость воспроизведения текста должна быть тщательно подобрана — чтобы речь робота оказалась разборчива, но не слишком заунывна (старательно-отчетливая декламация очень быстро утомляет); особое внимание стоит уделить случаям, когда система диктует какие-то важные данные, скажем, номер заказа — здесь торопиться точно не стоит, чтобы дать человеку возможность записать информацию (еще можно предусмотреть повтор важных сведений);
- хорошо, если система синтеза речи поддерживает разметку интонации: это помогает сделать искусственную речь более естественной;
- количество касаний должно быть небольшим: вряд ли кому-то понравится продираться сквозь сложносочиненную структуру вопросов и уточнений; с каждым новым касанием вероятность отказа пользователя будет расти;
- то же самое можно сказать и про общее время взаимодействия — в идеале задача пользователя должна решаться за несколько секунд.
А вот на что стоит обратить внимание при использовании обратной технологии, Speech-to-text:
- качество распознавания должно чуть превышать порог, при котором система сможет неверно истолковать пользователя;
- если качество распознавания не очень высокое, то нужно продумать структуру диалога так, чтобы ответы человека (и их вариации — например, согласие можно выразить множеством способов: от простого «угу» до какого-нибудь редкого «есть такое дело») были максимально разнесены по звучанию;
- краткая инструкция для человека поможет ему отвечать понятнее для системы;
- линейность диалога, а также переход на оператора поможет спасти от негатива.
Text-to-speech мы внедрили давно, на ее основе работает несколько инструментов Виртуальной АТС, а прямо сейчас тестируем Speech-to-text, о чем я писал в прошлом материале. Интерактивная обработка вызова поможет увеличить отдачу от этих технологий, например, с помощью Text-to-speech можно для каждого звонящего «на лету» готовить персональное приветствие или меню с индивидуальными опциями.
Комментарии (20)
Aingis
28.06.2017 22:59+2Голосовой интерфейс во многом неудобен в принципе. Например, может быть шумно, кто-то не хочет чтобы все становились свидетелями разговора в общественном месте, наконец, это долго. Гораздо лучше будет простое приложение, сайт или просто бот в Телеграмме.
StephanDeshevikh
29.06.2017 13:36Ну шум сейчас — это не вот прям какая серьезная проблема. А вот приватность и удобство (в том числе и скорость решения своих проблем через автоматизированную голосовую систему) — да, существенные сдерживающие факторы.
Aingis
29.06.2017 17:31Не такая проблема? Вы в метро пробовали говорить, когда поезда раз в несколько десятков секунд? Или рядом с оживлённой трассой? Даже на обычных городских улицах далеко не всегда тихо. В автобусе или машине может шуметь двигатель. Основной кейс голоса, как я понимаю, это как раз действия на ходу. А это зачастую означает шумное окружение.
StephanDeshevikh
29.06.2017 18:51Ну это экстремальный случай. :) Голос из метро и люди-то очень плохо понимают.
zenkz
29.06.2017 00:23+2У меня все эти автоинформаторы и голосовые меню не вызывают ничего кроме отторжения. Максимум что готов послушать — это одно меню с 3-5 вариантами и возможностью вызвать оператора. Если что-то более сложное, то и мне и компании будет проще воспользоваться веб-сайтом…
electronus
29.06.2017 04:54+1Есть позитивный опыт пользования распознавателя голоса для записи в госпиталь. Спрашивает имя и фамилию, номер медкарты, записываешься сам или кого-то записываешь и отвечает временем рандеву.
StephanDeshevikh
29.06.2017 13:27Расскажите подробнее? Я бы сам позвонил и пообщался с роботом.
electronus
29.06.2017 19:48+1 514 3601435 Запись открывается в 21-00 EST. Электробаба говорит и слушает по французски. Если не понимает, то переспрашивает.
StephanDeshevikh
30.06.2017 12:54Лингвисты говорят, что языковые модели романских языков проще, чем модели языков славянских. А не знаете ли чего-то на русском?
lingvo
29.06.2017 11:03+1А вот на что стоит обратить внимание при использовании обратной технологии, Speech-to-text:
Я как-то думал, что статья о речевом управлении, а не наборе текста. Если о первом, то ИМХО очень важно иметь не краткую, а полную инструкцию для человека о всевозможных командах для распознавалки. Так как это не GUI — там нет видимых кнопок, которые можно понажимать и посмотреть что произойдет. Речь гораздо многограннее — одну и ту же команду можно произнести 10-ком различных способов и нормальный человек ее поймет, а вот роботу будет намного труднее. Поэтому обязательно надо предоставлять пользователю список всех возможных команд, воспринимаемых роботом.
StephanDeshevikh
29.06.2017 13:32Справедливо. Но вопрос в том, как это делать? Можно (и нужно, навреное) встраивать инструкцию в само голосовое меню, но надо с одной стороны клиенту дать возможность его как-то прослушать, а с другой — не грузить человека тем, что он уже знает, и не тратить его время на ненужные подсказки. В этом и есть большая сложность с голосовыми интерфейсами. Из-за необходимости обучения они становятся малоюзабельными, и из-за обучения они тоже малоюзабельны. Отсюда есть выход в виде ассистента, понимающего естественную речь, но тут мы упираемся в технологические ограничения. Собственно, об этом и статья: несколько попыток уже видели создания замены IVR «барышней», но пока из 100% наблюдаемых все 100% провалились и тихонько вернулись к обычному меню с DTMF.
lingvo
29.06.2017 16:02Как пример Siri и управление Homekit. На сайте имеется несколько примеров, но многие пользователи проваливались на том, что на жалюзи надо было говорить не "открыть", а "поднять". Или что люстры надо называть лампами и прочие приколы, которые возможно появились из-за локализации, но в итоге для нужной команды приходится долго подбирать слова, пока система, наконец, не поймет.
snnwolf
29.06.2017 11:35+1Лично у меня был с такой штукой только один, увы, негативный опыт. Сайт РЖД. Пытался забронировать билет на поезд.
- Назовите пункт назначения
- Адлер
- Вы указали пункт назначения… Краснодар
…
и так несколько раз, пока мне не надоело...
StephanDeshevikh
29.06.2017 13:33Ага, вот об этом и пишу. Звонящие от непонятливых роботов быстро устают.
khett
29.06.2017 17:05+1Странно, но создается впечатление, что авто сознательно подменяет понятие «смена интерфейса» на «автоматизация». Все, о чем пишется в статье — к автоматизации имеет лишь опосредованное отношение. Поскоьку задача стоит не столько облегчить жизнь оператору/сотруднику выписки (автоматизация), сколько — убрать оператора (сменить интерфейс/способ общения с заказчиком). С этой очевидной ошибки и растут проблемы. Не проанализировав, что именно нужно, народ расчехлил шашки и помчался на нечто грохочущенее в клубах пыли и дыма :)
Это еще не учитывая, что даже нормальный, напечатанный текст, ПО не способно обработать даже с 80% точностью (кто сомневается, переводческое ПО в помощь). Поэтому, автору могу лишь порекомендовать разобраться, что именно нужно заказчику, а уже только потом думать о том, что и как лучше делать.
Что касается голосовых интерфейсов, то они убоги, что называется, по определению — поскольку с одной стороны (человек) имеется источник неформализованных/неформатированных данных, а с другой (система распознования) система, которая может работь только с данными в рамках известных ей форматов и форм.
Если брать примеры, то самым простым вариантом «телефонного меню», будет система. где от человека требуется лишь отвечать «да» или «нет». Применительно к продаже билетов, я бы рекомендовал следующие вариант " «автозаказов»
1. выбрать с 5к самых популярных направлений. и просто спрашивать заказчика, в какой из пунктов он хочет.
что-то типа «Пожалуйста, ответьте да или нет на следующий несколько вопросов»
— Нужен билет в Сочи?
— Нужен билет в Санкт-Питербург?
— Нужен билет в Минск
и так далее, не более 5 вариантов в сумме.
2. Если человеку нужны другие направления, то переключаться на оператора — и далее как всегда (можно, конечно, паралельно включить автораспознование, чтобы оператор меньше вводил, а заодно и проверял).
3. Если какой-то их преложенных вариантов, то включить запись, и попросить человека четко произнести количество билетов, дату и ФИО пассажиров.
4. Сообщить, что на СМС ему придет подтверждение заказа.
5. автоматически распознать произнесенное и передать информацию оператору для проверки.
6 Оператор внесет необходимые изменения и дальше система работает как обычно
Это самый простой и достаточно удобный вариант работы с системами распознования речи на неком сферическом примере.StephanDeshevikh
29.06.2017 18:49Подразумеваю, что «замена живого человека роботом» — это «вид автоматизации». Можно ли назвать это подменой понятий? Наверное, можно. Имеет ли это для сути статьи принципиальное значение? Не уверен. В статье делюсь, как телефонист, своими наблюдениями за результатами своих действий и действий партнеров и конкурентов. Если кратко, то вы правы: пока не взлетает по причине технологических ограничений, которые делают получающееся предложение малоюзабельным, а значит и малополезным.
khett
29.06.2017 20:39+1как я и боялся, все сильно хуже. Замена ручного (человеческого) труда на некий «нечеловеческий» не является «автоматизацией», это обычная, допотопная уже механизация. Но Вы не поняли основной проблемы. Вы не «механизировали» труд, незаметным для пользователя образом. И даже не упростили ему жизнь. В итоге Вы (или не Вы лично, а Ваши коллеги) кардинально сменили интерфейс и назвали это — автоматизацией. Видать видео про лифт и ирландцев, желающих попасть на 11й этаж, надо обязательно показывать всем, кто хочет что-то «автоматизировать» :)
А результат вполне ожидаем — «механизированный бардак». И дело тут не только в технологиях.StephanDeshevikh
30.06.2017 12:57От того, что я начну «правильные» слова использовать для названия тех же самых сущностей, суть проблемы и сложности с её решением никак не меняются. А за нас не бойтесь, у нас все хорошо. ;)
VMichael
Я бы на картинке последний и предпоследний рисунок местами поменял.