Развитие LLM вызывает всё больше споров о том, увидим ли мы AGI в ближайшем будущем. Но пока одни рассуждают, мы применяем технологии. Мы в Сбере разработали тренажёр для клиентских менеджеров на основе GigaChat. Принцип его работы прост: когда менеджер общается с клиентом, разговор записывается и расшифровывается. Затем наш GigaChat анализирует этот диалог и предоставляет конкретные рекомендации для улучшения качества обслуживания.

Изображение сгенерировано Kandinsky по запросу: «Нейросеть гигачат учит клиентского менеджера сбербанка общаться по телефону. Зеленые цвета»
Изображение сгенерировано Kandinsky по запросу: «Нейросеть гигачат учит клиентского менеджера сбербанка общаться по телефону. Зеленые цвета»

С чего всё началось

Дивизион «Малый и Микро Бизнес» Сбера насчитывает тысячи клиентских менеджеров. Среди них всегда есть новички, полная адаптация которых занимает в среднем два месяца. Однако, даже опытные сотрудники могут допускать ошибки, работая с широким спектром продуктов и клиентов. Обработать все звонки вручную нереально, поэтому наши заказчики из бизнес-блока обратились за инструментом для тренировки и обучения клиентских менеджеров, который бы давал качественную обратную связь по итогам дня работы.

Процесс разработки

Наша команда давно занимается речевой аналитикой. В частности, мы работаем с данными и моделями для портала Voice AI, который, кстати, в прошлом году стал доступен внешним клиентам в рамках продуктов Сбер Бизнес Софт. Поэтому вопрос с данными не стоял — мы уже получали транскрибации звонков, сделанные SaluteSpeech в режиме реального времени (NRT). Дальнейшую разработку AI-наставника мы разбили на несколько этапов.

Подбор промпта

Первым шагом мы хотели проверить, насколько корректные рекомендации можем получить от GigaChat. Мы сразу определили, что в MVP сосредоточимся на узкой теме — проверим, насколько корректно GigaChat понимает методы работы с возражениями. Изначально было два варианта zero-shot промптов, один динамический one-shot промпт и один подход, в котором GigaChat выступал в роли менеджера, а в качестве запросов использовались фразы клиентов.

Упрощенная версия подхода, в котором нейросеть выступала в роли менеджера:

messages = [{
      "role": "system",
      "content": "Ты менеджер банка. Ты разговариваешь с клиентом. Твоя задача убедить клиента согласиться на твое предложение и корректно отработать его возражения"
    },
{"role": "user",
"content": Фраза_клиента1
},
{"role": "assistant",
"content": Фраза_менеджера1
},
…
{"role": "user",
"content": Фраза_клиента_с_возражением
}]

Лично я возлагал большие надежды на такую версию промпта, но в итоге она показала себя хуже всех. Мы остановились на динамическом one-shot подходе, где промпт для каждого диалога немного менялся — указывалось конкретное возражение клиента и просили GigaChat оценить корректность ответа менеджера.

Первая версия промпта
Первая версия промпта

Разработка алгоритма расчёта дополнительных метрик и агрегации данных

Чтобы указать конкретное возражение в тексте, нужно было его найти. Мы упростили себе работу, использовав уже готовую модель классификации фраз. Идея заключалась в том, чтобы избежать использования LLM для каждого диалога. Во‑первых, это лишняя нагрузка на GigaChat, во‑вторых, менеджер всё равно не сможет изучить все рекомендации. Мы построили воронку фильтрации, ранжируя диалоги по нескольким критериям, показывающим важность или интересность разбора этого разговора с клиентом. Среди таких критериев было наличие возражения, отработка возражения менеджером, вопрос «как дела в бизнесе?» от менеджера, длина диалога и другая метаинформация.

Дизайн отчёта и настройка рассылки

Вопрос с форматом рекомендаций решился просто. Так как это был MVP, мы не стали делать интеграцию с CRM-системой или порталом речевой аналитики, а стали отправлять руководителям менеджеров отчёты на почту по итогам каждого рабочего дня. Для этого придумали дизайн документа, содержащий всю важную информацию, написали небольшой сервис рассылки и приступили к тестированию.

Первый дизайн отчёта. Текст в квадратных скобках динамический, меняется в зависимости от содержания.
Первый дизайн отчёта. Текст в квадратных скобках динамический, меняется в зависимости от содержания.

A/Б-тест и проблемы

Мы запускали пилот, понимая, что генерация ответов может привести к неправильным рекомендациям и галлюцинациям. Поэтому отчёты отправлялись руководителям менеджеров для фильтрации ошибок. Руководители вдохновились проектом и активно собирали информацию для улучшения рекомендаций. Однако, спустя месяц мы увидели падение конверсии в целевой группе и поняли, что все забыли работать с рекомендациями, как планировалось изначально. Мы перезапустили пилот, внесли множество изменений по обратной связи и дали четкие указания по работе с отчётом.

Вторая сложность — GigaChat не всегда выполнял инструкции из промпта и давал поверхностные рекомендации. Чтобы повысить точность, наши партнёры из Лаборатории Искусственного Интеллекта предложили цепочку промптов. Это сделало ответы нейросети более полными, четкими и структурированными.

Цепочка промптов
Цепочка промптов

Итоги пилота

Главный итог пилота — положительная обратная связь от менеджеров и их руководителей. Но я знаю, если не напишу цифры, кто-нибудь спросит в комментариях. Поэтому формальный итог следующий. Конверсия выросла на 10,7% в согласиях. По зарплатным проектам и кредитованию получили самые внушительные результаты (+18% и +15% соответственно). При этом, мы поняли, что можно сократить периодичность направления отчётов до один раза в неделю и дополнить метрики эмоциональной оценки диалога, близости реплик к рекомендованным скриптам.

А по обратной связи мы также дополнили промпт ограничениями, чтобы рекомендации стали более практичными и применимыми: запретили рекомендовать индивидуальные тарифы и дополнительные консультации специалиста.

Планы

Разумеется, мы будем пробовать масштабировать эти рекомендации для других менеджеров и направлений. Самое сложное — это подбирать промпт под запросы бизнеса и проверять качество этих промптов. Чтобы сделать решение универсальным и простым в адаптации под бизнес‑задачи, мы создадим личный кабинет наставника, где можно будет простым языком написать запрос к GigaChat, а сервис сам переведёт этот запрос в промпт и проверит качество и точность полученного промпта. Дальше останется настроить наполнение отчёта и выбрать способ и регулярность доставки.

Но это не всё. Остаётся ещё одна сложность для новичка — тренировки в реальных диалогах. Чтобы помочь новичку подготовиться к диалогу с реальным клиентом, мы с Лабораторией Искусственного Интеллекта Сбера создадим специальный обучающий режим, который не только примет роль клиента со всеми его особенностями, но и будет сразу подсказывать, как лучше изменить реплику, чтобы выстроить доверительные отношения с клиентом, говорить на его языке и получать больше продаж в каждом звонке.

Пример рекомендаций GigaChat по результатам звонка

Для интересующихся, ниже пример одной из рекомендаций:

Анализ диалога:

Менеджер банка звонит клиенту, чтобы уточнить информацию о его бизнесе и предложить свои услуги. Клиент сообщает, что у него нет розничной торговли, и возражает против предложения менеджера о торговом эквайринге. Менеджер не настаивает и не пытается убедить клиента, а просто принимает его возражение и благодарит за информацию. Сфера деятельности: сельское хозяйство Предлагаемый продукт: торговый эквайринг

Оценка обработки возражения:

Положительные моменты: — Менеджер не настаивает и не пытается убедить клиента, что показывает его профессионализм и уважение к клиенту. — Менеджер благодарит клиента за информацию, что создает положительное впечатление о банке и его сотрудниках. Отрицательные моменты: — Менеджер не задает дополнительных вопросов, чтобы лучше понять потребности клиента и предложить альтернативные продукты или услуги. — Менеджер не пытается выяснить, какие формы оплаты используются в сельском хозяйстве, чтобы предложить более подходящие решения. В целом, менеджер обработал возражение клиента корректно, но не использовал все возможности для предложения альтернативных продуктов или услуг, которые могли бы быть более подходящими для клиента.

Рекомендации менеджеру по обработке возражения:

1. Задайте дополнительные вопросы, чтобы лучше понять потребности клиента и предложить альтернативные продукты или услуги. Например: «Понимаю, что торговый эквайринг не подходит для вашего бизнеса. Могу я узнать, какие формы оплаты вы обычно используете в сельском хозяйстве?». 2. Предложите альтернативные продукты или услуги, которые могут быть более подходящими для клиента. Например: «У нас также есть возможность предложить вам онлайн‑кассу, которая может быть полезна для вашего бизнеса. Это позволит принимать оплату через интернет и упростит процесс учета продаж». 3. Подчеркните преимущества предлагаемых продуктов или услуг для клиента. Например: «Онлайн‑касса может значительно упростить процесс приема оплаты и учета продаж, что позволит вам сэкономить время и ресурсы». 4. Попросите клиента рассмотреть ваше предложение и дайте ему время на принятие решения. Например: «Я понимаю, что вам нужно время, чтобы обдумать наше предложение. Могу я отправить вам дополнительную информацию по электронной почте, чтобы вы могли ознакомиться с ней более подробно?». 5. Предложите дополнительный или смежный банковский продукт Сбербанка. Например: «Кроме того, мы также предлагаем услуги по открытию расчетного счета для вашего бизнеса. Это может быть удобно для управления финансами и упрощения процесса оплаты поставщикам и клиентам».

Комментарии (3)


  1. ttldtor
    26.06.2024 18:44

    Участие работников в пилоте было добровольное?
    Как отреагировали менеджеры?
    Как вы поняли, что конверсия выросла из-за применения "коуча на базе LLM", а не из-за того, что менеджеры стали чувствовать "большого брата" за спиной?
    Вы проводили психологические тесты? Как изменилось состояние людей?


    1. RaveNHol
      26.06.2024 18:44

      Я разработчик решения и автор статьи, отвечу по пунктам.

      1. Мы выбрали 4 сектора. В целевой группе принимали участие все менеджеры из выбранных секторов. Сделано это для того, чтобы не было влияния одной группы на другую в рамках одного сектора. Тем более отчёты на менеджеров шли через руководителей этих секторов и было бы странно руководителю работать только с частью подопечных. В контрольной группе мы сделали сектора "виртуальными", выбрали менеджеров из незадействованных в пилоте отделов так, чтобы они совпали с целевой группой. Да, мы не спрашивали согласие менеджеров на участие в пилоте, но перед стартом мы подробно рассказали зачем все это делаем, чего хотим добиться и как этот инструмент может помочь самим менеджерам. Никаких протестов это не вызвало, так как подобные пилоты подходят постоянно.

      2. Первый месяц мы очень плотно работали с менеджерами и собирали обратную связь. В основном негативные комментарии были связаны с ошибками в срабатывании тех или иных моделей и с галлюцинациями LLM. Но позитивной ос было гораздо больше. Менеджерам понравился инструмент и те, кто участвовал в пилоте, уже ждут полноценный запуск решения.

      3. Это не первая речевая аналитика в Сбере. Все менеджеры (и не только у нас) уже давно записываются, транскрибируются и получают ос на основе их работы с клиентами. Важно понимать, что это не карательные, а развивающие инструменты. Введение нашего тренажёра в работу менеджеров призвано помочь новичкам в адаптации, а опытным в улучшении своих навыков. Так что для наших км не было эффекта "большого брата". Тут ещё такой момент, что на первом этапе пилота у нас была просадка. Пока разбирались в чем дело, поняли, что руководители так сосредоточились на улучшении отчёта, что забыли основную цель пилота - работать с рекомендациями по звонкам и развивать своих сотрудников. При этом руководители и так постоянно проводили наставнические сессии, процесс изменился только тем, что появились рекомендации от Гигачат.

      4. Мы не проводили тестирование, а основывались на обратной связи. В течение пилота мы постоянно были на связи и проводили еженедельные синки с руководителями КМов. Я понимаю и полностью разделяю вашу заботу о менеджерах, поэтому мы очень старались сделать рекомендации максимально дружелюбными. Даже если какой-то менеджер сильно отставал от своих коллег по нашим метрикам, никакого негатива в отчёте не было, а лишь мотивируются обратная связь. Но идея с тестами хорошая, возьмём на заметку.


  1. ArtyomO
    26.06.2024 18:44

    Спасибо за статью! Очень здорово читать про реальные кейсы внедрения LLM и отдельное спасибо что поделились цифрами