На рынке коллтрекинга зреет революция: мы стоим на пороге внедрения технологии распознавания речи. Недавно она нашла применение в американских сервисах, как скоро тренд придет в Россию, какую выгоду получат владельцы бизнесов, рассказывает Евгений Власов — генеральный директор Calltouch.
История вопроса
Сначала разберемся, что такое распознавание речи. В научной среде так называют процесс преобразования речевого сигнала в цифровую информацию (например, текстовые данные). Антиподом технологии служат говорящие роботы, преобразующие цифровую информацию в речевой сигнал.
Первое устройство распознавания речи появилось в 1952 году, оно понимало произнесенные человеком цифры. В начале 1990 годов были выпущены программы, позволяющие работать с текстом людям с ограниченными возможностями. Но повсеместного распространения технология не получила, потому что распознавание было неточным из-за нескольких проблем:
- произвольный, наивный пользователь;
- спонтанная речь, сопровождаемая аграмматизмами и «речевым мусором»;
- акустические помехи и искажения;
- речевые помехи.
Кроме того, одно и то же слово может звучать по-разному, если человек говорит с акцентом, неправильно ставит ударение, меняет темп и громкость речи. Иногда эти детали влияют на понимание между людьми, не говоря уже компьютерах.
Тем не менее, постепенно программы научились распознавать голос и первым языком, который они поняли, стал английский: он широко распространен, достаточно прост (проще русского и китайского), а потому требует менее сложных математических алгоритмов. Рынок западных IT-технологий быстро рос и благодаря высокой конкуренции вскоре распознавание речи стало широко использоваться в бизнесе.
Разговорный бизнес
В России наибольших успехов добился пока только Яндекс: в 2013 году компания запустила облачную технологию SpeechKitCloud, которая помогает синтезировать и распознавать речь.
Синтез происходит за счет статистического подхода в акустическом моделировании. Проще говоря, программа формирует новый голос, основываясь на интонациях живых людей. Это позволяет придать искусственной речи эмоциональную окраску (добрая, злая, нейтральная) или наделить половыми признаками (мужчина, женщина). На момент написания статьи сервис предлагал бесплатное тестирование в течение месяца, дальнейшая ориентировочная стоимость составляет 5$ за 1000 запросов.
К сожалению, крупные компании пока не спешат использовать эту технологию на полную катушку, но энтузиасты все-таки есть. К примеру, российский разработчик систем автоматизации колл-центров Oktell использует SpeechKitCloud для формирования приветствий и голосового меню, которые слышат звонящие, а также записи ответов на часто задаваемые вопросы. Технология применяется одновременно с работой колл-центра, снижая нагрузку на операторов.
Коллегам из Repka.UA практически удалось заменить людей машинами. Они соединили синтезатор речи SpeechKitCloud и учетную систему интернет-магазина, разработали сценарий подтверждения заказа, в результате появилась робот Кристина, которая автоматически проверяет наличие товара и его цену при поступлении заказа, рассчитывает дату отправки и звонит клиенту для подтверждения.
Если у человека остаются вопросы, звонок переводится на оператора колл-центра. Естественно, сначала процент распознавания речи у Кристины был невысок, в нестандартных ситуациях она не могла заменить человека и подключалась к работе во время пика входящих обращений.
Но, благодаря созданию собственной речевой модели, компании удалось повысить ее точность; и уже сейчас затраты на робота в 5 раз ниже, чем на оператора и в 8 раз ниже, чем на внешний колл-центр.
Еще одна возможность SpeechKitCloud – распознавание речи, позволяет клиентам делать заказ по телефону в автоматическом режиме. На сегодняшний день кроме стандартных ответов («оформить», «доставка», «подтверждаю») технология распознает такие фразы, как «давайте оформим», «не знаю», «сам заберу», «окей». При этом система распознает порядка 82-95% русской речи, в зависимости от исходного звука, качества кодирования, разборчивости и темпа речи, сложности фраз и их длины. Использование технологии, как и в случае с синтезом речи, в первую очередь снижает нагрузку на колл-центр, а в будущем при условии повышения качества, может полностью его заменить.
Недалекое будущее
Сейчас системы используются только для приема и распределения исходящих и входящих звонков. Однако мы в Calltouch уверены, что это не предел и к концу года планируем завершить интеграцию технологии распознавания речи с сервисом коллтрекинга, что позволить вывести оптимизацию рекламных кампаний и бизнес-процессов в целом на новый уровень.
Возьмем для примера историю с распределением звонков. Большинство бизнесменов на сегодняшний день хотят научиться управлять потоком обращений по телефону и разделять тех, кто звонит, с целью совершить покупку, от тех, кого интересует консультация.
Например, магазину игрушек, который дает объявления в Яндекс.Директе, рекламной сети Яндекса (РСЯ) и социальной сети ВКонтакте, интересно, какой источник приносит ему звонки, заканчивающиеся покупками. Предположим, что ВКонтакте приводит, в основном, желающих получить бесплатную консультацию, РСЯ – звонки в сервис, а Яндекс.Директ – продажи. В таком случае стоит перераспределить бюджеты в пользу Яндекс.Директ, максимально сократив при этом затраты на рекламу в соцсети. Но, не зная, как распределяются звонки потенциальных клиентов, сделать это невозможно.
На сегодняшний день существует два метода разделения:
- Автоматический. При звонке срабатывает голосовая система, которая предлагает сделать выбор: кнопка «1» переводит в отдел продаж, кнопка «2» — в сервисный центр. Эта информация поступает в систему коллтрекинга и анализируется.
- Механический. Секретарь компании, понимая, что позвонившего клиента интересует покупка, нажимает цифру «1», если услуги сервиса – цифру «2». Сервис помечает первые звонки как «продажные», вторые как «сервисные» и строит анализ на основе этих данных.
Оба способа зависят от человеческого фактора. В первом случае клиенту неудобно совершать дополнительное действие (нажимать на кнопки), и он повесит трубку, либо нажмет другую цифру. Во втором, секретарь может забыть пометить звонок или «накрутить» результат, если, например, от количества «продажных» звонков зависит его KPI.
С приходом новой технологии человеческий фактор удастся исключить. Если научить систему понимать ключевые слова, которые чаще всего используются в рекламных объявлениях, она сама будет разделять их на группы и помечать звонок как «продажный» или «сервисный».
Также распознавание речи поможет контролировать сотрудников. Например, у владельца компании есть ощущение, что подчиненные не дорабатывают, грубят клиентам или пропускают звонки. Проверить это можно только одним способом – прослушав записи телефонных разговоров. Но на это придется потратить время и деньги, если нанять сотрудника для выполнения задачи. Тогда как сервис коллтрекинга с распознаванием речи автоматически укажет на существующие проблемы. Для этого в систему загружаются скрипты и шаблоны «правильного» общения с клиентами и определяется, сколько раз сотрудник должен произнести эти слова. Если программа обнаружит их в разговоре, значит, менеджер вел себя корректно. С другой стороны, коллтрекинг поможет выявить агрессивное поведение или неправильное ведение беседы. Естественно, метод не даст стопроцентного результата, но поможет понять качество общения с клиентами.
Проанализировав предоставленную технологией информацию, можно увеличить продажи. Например, программа выявит слова, которые никогда не использовались в рекламных кампаниях, но большинство клиентов произносят их при звонке в магазин. Такие фразы полезно вставить в объявления, это расширит аудиторию контекста и принесет больший эффект, чем обычный текст, сочиненный маркетологами.
Конечно, нужно время для того, чтобы российские коллтрекинг-сервисы научились понимать речь. Но нет сомнений, что пользователи по достоинству оценят возможности, которые откроет технология.
Источник: SearchEngines.ru.
olegych76
А можно посмотреть данные, на которых основано утверждение об успехе распознавания 82-95%?