Новое слово в сфере голосового ИИ: разработан прототип детектора лжи для колл-центров / forpes.ru

Главная
Новое слово в сфере голосового ИИ: разработан прототип детектора лжи для колл-центров

Новое слово в сфере голосового ИИ: разработан прототип детектора лжи для колл-центров +12

29.07.2021 02:39

neuroonet 29 4200 Источник

Голосовые агенты становятся все совершеннее, буквально каждый месяц появляются новые интересные наработки. Одна из них — немецкий проект по созданию детектора лжи для колл-центров. Речь идет о создании системы, которая может с высокой степенью вероятности определить, говорит звонящий в колл-центр абонент правду либо же пытается приврать/приукрасить свои утверждения или скрыть намерения.

Система базируется на специфическом дата-сете, сформированном из аудио-записей нескольких десятков преподавателей и студентов. Добровольцы участвовали в дебатах, обсуждая острые темы вроде смертной казни и платного обучения, а произносимые речи записывались на диктофон. О результатах проекта — под катом.

Модель обучали на архитектуре, которая включала сверточные нейронные сети (CNN) и долгую краткосрочную память (LSTM). Точность модели в итоге составляет 98%.

После изучения результатов проекта модель признали пригодной для анализа широкого спектра процессов обслуживания, с уклоном в коммуникацию с клиентами по телефонной связи. Разработанный алгоритм может применяться в любой ситуации, когда сотруднику колл-центра нужно знать, говорит ли клиент искренне.

Зачем? Подобное может понадобиться, например, при анализе сомнительных страховых случаев или оценки утверждений соискателя при приеме на работу. Если он будет делать ложные заявления, система сможет выявить неправду. В итоге алгоритм сможет не только снизить операционные потери сервисных компаний но и уменьшит количество неправдивых утверждений со стороны абонентов.

Подробнее о дата-сете

В отсутствие подходящего общедоступного дата-сета на немецком языке исследователи из Университета прикладных наук Ной-Ульма (HNU) собрали собственный. Для этого пришлось привлекать добровольцев. Авторы идеи решили их найти при помощи простейшего метода — раздачей информационных материалов. Листовки раздавались и расклеивались в университете и местных учебных заведениях. В итоге было отобрано 40 добровольцев в возрасте от 16 лет. Волонтерам платили подарочными картами Amazon на 10 евро — никакого другого вознаграждения не предусматривалось.

Встречи добровольцев проводились по модели дискуссионного клуба, призванной резко поляризовать мнения и вызвать сильные заявления на спорные темы. Это помогало привести к эмоциональному напряжению участников, которое может возникнуть в проблемных разговорах операторов колл-центров с клиентами по телефону.

Участникам дискуссий можно было три минуты выступать перед другими добровольцами на такие темы:

Следует ли вернуть в Германии смертную казнь и публичные наказания?
Следует ли в Германии взимать плату за обучение, покрывающую расходы государства?
Следует ли легализовать в Германии употребление тяжелых наркотиков, таких как героин и метамфетамин?
Следует ли запретить в Германии сети ресторанов, предлагающих нездоровую фаст-фуд еду, например McDonald’s или Burger King?

Обработка данных

В ходе обработки данных предпочтение отдавалось подходу автоматического распознавания речи (ASR), а не подходу НЛП (где речь анализируется на лингвистическом уровне с определением «температуры» дискуссии.

Предварительно обработанные образцы записей были проанализированы сначала при помощи Мел-кепстральных коэффициентов (MFCC). Это весьма надежный, зарекомендовавший себя ранее метод, который весьма популярен среди специалистов по анализу речи. Этот метод был впервые предложен в 1980 году. Он не требует использования значительных вычислительных мощностей и не особо требователен к качеству записей. Это особенно важно, поскольку качество аудиопотока в колл-центрах далеко не всегда можно назвать высоким.

Комбинация этих методов позволила создать весьма надежную модель обработки звука, которая вполне работоспособна без привлечения значительных ресурсов и в условиях не самого высокого качества аудиозаписей.

Последние обрабатывались еще и с использованием алгоритма быстрого преобразования Фурье (БПФ) для получения спектрального профиля каждого «аудиокадра» перед окончательной фиксацией для шкалы Мела.

Обучение, результаты и ограничения

Во время обучения извлеченные векторы признаков передаются на слой сверточной сети с распределением по времени, выравниваются и затем передаются на уровень LSTM.

В результате обучения точность системы составила 98,91% с точки зрения распознавания намерений (т.е. когда заявленное голосом действие или намерение может не отражать реального положения вещей).

Конечно, для того, чтобы утверждать, что проект успешен на все 100%, желательно иметь более объемную исходную базу данных, т.е. дата-сет не из 40 аудиозаписей. Кроме того, любой язык специфичен и модель, обученная на немецком языке, может не подходить для работы с пользователями, которые говорят на других языках. Поэтому проект требует доработки, но его результаты и точность модели позволяют говорить о том, что модель вполне надежна.

Комментарии (29)

ss-nopol
29.07.2021 04:11
#23311516
+9
Хорошо бы наоборот, мне как клиенту хотелось бы знать, говорит ли сотрудник коллцентра правду.
1. Andrey_Epifantsev
  29.07.2021 06:52
  #23311636
  Сотрудник колл-центра идёт жёстко заданному алгоритму. Он говорит то, что ему велели говорить. Скорей всего он даже не знает, говорит ли он правду или неправду.
  1. shushu
    29.07.2021 07:04
    #23311650
    Ну тут как раз всё просто, если он не знает - то скорее всего он доверяет работодателю и верит что говорит правду. Алгоритм то определяет что говорящий говорит осознанную неправду! Даже если на самом деле эта неправда - правда :)
    Всё относительно :)
    
    awoland
    29.07.2021 10:08
    #23312154
    shushu
    Ве́ра — признание чего-либо истинным независимо от фактического или логического обоснования...
    
    т.е. вера не относится к категории признаков и параметров, опрелеяющих инстинность
    
    shushu
    29.07.2021 15:31
    #23313700
    Дык, алгоритм то не определяет истину/ложь. Алгоритм орюпределяет аномалии в речи, которые свойственны человеку, который говорит осознанную неправду.
  1. BalinTomsk
    30.07.2021 00:19
    #23315580
    Много раз сталкивался с тем что сотрудники коллцентра врут, при чем когда я ловил их на вранье они на ходу переобувались. Нельзя говорит что они всегда озвучивают по бумажке.
    
    Элемент продажи морали там тоже бывает присутствует.

anonymous
00.00.0000 00:00
#23311750
1. GospodinKolhoznik
  29.07.2021 09:13
  #23311924
  Не правду и не неправду, они говорят пустоту по составленному шаблону, особо не пытаясь вникнуть в суть вопросов.

shushu
29.07.2021 06:22
#23311602
А вот мне бы хотелось узнать более технические подробности этого :)
Например как вообще происходит захват звука в риалтайм для скормления потока в AI API?
Ну и я так понимаю что AI API должен поддерживать стриминговые данные?

barbaris76
29.07.2021 07:17
#23311676
Ну, то есть, судя по методике сбора датасета, фактически модель определяет не то, что поцыэнт говорит правду или неправду, а то, что он волнуется, слишком сильно эмоционирует и т.п.

C4ET4uK
29.07.2021 07:38
#23311710
Мне вот интересно, а насколько это законно, не получат ли множественные иски от 2% ложно-положительных?
1. DmitriiR
  29.07.2021 07:55
  #23311768
  Скорей всего решение ИИ будет поводом для более глубокой проверки.
  1. GospodinKolhoznik
    29.07.2021 08:47
    #23311852
    +2
    Нет, оно будет поводом для отказа. Глубокую проверку слишком дорого и неэффективно с точки зрения ведения бизнеса проводить.
    
    DmitriiR
    29.07.2021 09:42
    #23312046
    "при анализе сомнительных страховых случаев "
    
    для проверки...
    
    vikarti
    02.08.2021 10:32
    #23326084
    Не получится вмешаться в голос же на телефоне.
    Скорее уж всякие Zadarma (у которых IP-телефония) сделают такую доработку.
    А потом сделает ТиньковМобайл, в рамках Олега (в голосовой поток они умеют уже лазить же)

anonymous
00.00.0000 00:00
#23312456

GospodinKolhoznik
29.07.2021 08:37
#23311828
+2
Немецкий проект по созданию детектора лжи для колл-центров в ходе исследования на аудио-записях нескольких десятков преподавателей и студентов доказали эффективность собственного детектора лжи на 98%.

Ну вот совсем незаангажированное исследование. Ни один детектор лжи до сих пор не смог доказать статистическую значимость при проведении объективного эксперимента, а эти ребята утверждают, что их шайтан машинка не такая.

Все существующие детекторы определяют не ложь, а в лучшем случае волнение человека. И этот не исключение.

Я уверен, что их детектор такой же лженаучный, как все прочие, но к моему глубокому сожалению боссы многих компаний по всему миру скажут "А почему бы и нет? Внедряем!" И будут заворачивать людей на основании мало того, что аморальных методов, так ещё и лженаучных.

abutorin
29.07.2021 08:40
#23311834
+2
40 добровольцев по 3 часа? И ИИ начинает отличать правду от неправды в 98% случаев? Тесла с принятием луны за желтый сигнал светофора (https://habr.com/ru/news/t/569702/) на дата-сете не меньше десятков тысяч часов нервно курит в сторонке.

GreySS
29.07.2021 09:31
#23311992
+1
Я так понимаю скоро начнут появляться приложения для смартфонов, для обфускации голоса.
1. olehorg
  29.07.2021 12:08
  #23312780
  которые оставят слова неизменными - но придадут речи нотки уверенности и уберут из голоса сомнения? вот вряд ли.
  1. wataru
    29.07.2021 23:45
    #23315502
    Скорее будут просто вставлять невоспринимаемый людьми шум. Как тут.

olehorg
29.07.2021 12:06
#23312772
+3
представьте себе условную "яжемать", которая (например) разворачивалась через двойную сплошную и "допустила проишествие".

она - хоть какой интеллект будет анализировать ее голос - будет внутренне абсолютно уверена в своей правоте "потому что мне надо и я включила поворотник".

в то же время профессиональный водитель (который был вторым участником) будет корить себя за то что начал тормозить на секунду позже - и это сомнение будет выявлено искусственным интеллектом.

очень много людей, совершающих преступления, искренне уверены в своей правоте и правомочности. Если ориентироваться на голос как на уверенность - то все психи-преступники будут на свободе (или будут получать незаслуженные ништяки от кол-центров компаний).
1. OlegIva
  08.08.2021 21:37
  #23349444
  Так и сейчас немало психов-преступников на свободе, в общем-то.

Stormwalker
29.07.2021 13:03
#23313070
Это автоматизация предрассудков. Очень соблазнительная технология, которая, конечно, найдет некоторых лжецов, но мне страшно представить, сколько людей с настоящими проблемами она заклеймит лжецами.

Tyusha
29.07.2021 13:14
#23313116
+1
— Здравствуйте, это робот Олег. Хотите взять кредит?

— Нет. Отстаньте.

— Вы всё врёте: вы хотите взять кредит! Согласно п. 5.6.4 раздел (д) параграф 7 по тембру вашего голоса акцепт договора кредитования от вас получен...

...

— Пожалуйста, после разговора помолчите немного в трубку. По вашему молчанию наш робот Олег определит, на как ещё услуги нашего банка вы даёте автоматическое согласие в будущем.

cahbe
29.07.2021 14:46
#23313504
Тех поддержка:

-Я ничего не нажимала оно само...

Там в 102% случаев врёт. Раз они такие молодцы может придумают переводчик с бухгалтерского "У меня тут это, а вчера было то, но в другом месте, и вы исправьте, а то ведь работать не возможно"

Serg10
29.07.2021 18:43
#23314658
+1
Перед выборами бы обещания кандидатов проверять такой штукой.
1. Wingtiger
  30.07.2021 23:53
  #23319378
  а смысл?
1. vikarti
  02.08.2021 10:40
  #23326118
  Не поможет
  Исландская правдивость для них — профессиональный навык