Чат-бот для электронной коммерции / forpes.ru

Главная
Чат-бот для электронной коммерции

Чат-бот для электронной коммерции +25

04.04.2021 10:10

ru_vds 5 3000 Источник

В наши дни чат-боты используются в самых разных сценариях взаимодействия с пользователями. Например, в службах поддержки клиентов различных компаний, о чём я уже писала. В этом материале я хочу рассказать о механизмах, которые используются в чат-ботах при поиске того, что нужно пользователю.

Например, посетитель сайта что-то ищет и пользуется для этого чат-ботом, работающим на сайте или в мобильном приложении. Бот разбирает сообщение и, основываясь на имеющихся в нём ключевых словах, отвечает пользователю, выдавая ссылку на страницу с результатами поиска, среди которых пользователь может найти то, что ему нужно.

Бот, о котором пойдёт речь в этом материале, создан с использованием Java и Apache OpenNLP. Здесь мы поговорим о том, как боты разбирают сообщения пользователей, удаляя из них всё ненужное.

Удаление из сообщений ненужных символов

Когда пользователь общается с ботом, в сообщениях пользователя могут присутствовать ненужные символы. Поэтому, прежде чем бот сможет адекватно ответить, всё ненужное из сообщений пользователя нужно удалить.

Вот пример сообщения, которое пользователь отправил боту. В верхней части находится исходный текст, а в нижней — он же, но очищенный от ненужных символов.

Исходное и обработанное сообщение

В Java для удаления ненужных символов можно воспользоваться следующим регулярным выражением:

"[^\\w.,;:'\"\\s]+"

Токенизация текста в OpenNLP

После очистки текста от ненужных символов его нужно токенизировать с использованием соответствующих инструментов OpenNLP. В результате исходное предложение будет разбито на мелкие фрагменты (токены). Этот процесс и называют токенизацией. В целом можно сказать, что исходный необработанный текст токенизируется с опорой на набор символов-разделителей (это, в основном, пробелы). Токенизация используется при решении, например, следующих задач:

Проверка правописания.
Выполнение поиска.
Идентификация частей речи.
Обнаружение предложений.
Классификация документов.

В следующем примере сначала выполняется обучение токенизатора с использованием классов TokenizerMe и TokenizerModel:

try (InputStream modelIn = new ByteArrayInputStream(Files.readAllBytes(tokeniserTrainingFile.get()))) {
  this.tokenizer = new TokenizerME(new TokenizerModel(modelIn));
}

Класс TokenizerMe преобразует исходный текст в набор токенов. Он, принимая решение о разделении текста на токены, пользуется показателем энтропии.

В машинном обучении энтропия — это мера неопределённости некоей системы (1 — полная определённость, 0 — полная неопределённость).

Затем выполняется токенизация текста:

private tokenizerMe;
final String[] tokenizedMessage = this.tokenizerMe.tokenize(RobotUtil.getOnlyValidCharacters(inputMessage));

На следующем изображении показан результат токенизации сообщения.

Результат токенизации сообщения

После токенизации сообщения нужно определить тип токенов, понять, к каким частям речи они относятся, и убрать те из них, которые нам не нужны.

Выявление частей речи с использованием OpenNLP

Теперь нам нужно выяснить то, к какой части речи относится каждый из токенов. Узнать о том, что это: имя существительное, глагол, наречие, имя прилагательное. В OpenNLP для обозначения частей речи используются сокращения, приведённые в следующей таблице.

Сокращение	Часть речи
NN	Имя существительное в единственном числе или неисчисляемое существительное
DT	Определяющее слово
VB	Глагол в базовой форме
VBD	Глагол в прошедшем времени
VBZ	Глагол в третьем лице единственного числа настоящего времени
IN	Предлог или подчинительный союз
NNP	Имя собственное в единственном числе
TO	to
JJ	Имя прилагательное

Вот код, в котором для выявления частей речи в тексте используется класс POSTaggerME:

private POSTaggerME ptagger;
try (InputStream modelIn = new ByteArrayInputStream(Files.readAllBytes(trainingFile.get()))) {
  this.ptagger = new POSTaggerME(new POSModel(modelIn));
}

Класс POSTaggerME используется для определения частей речи в исходном тексте. Он, при обработке текста, использует показатель энтропии.

final String[] tags = this.ptagger.tag(tokenizedMessage);

После того, как выяснено то, к какой части речи относится каждый из токенов, мы убираем из текста всё ненужное.

Удаление ненужных токенов

Нас в данном случае интересует имя прилагательное (JJ) и имя существительное (NN).

Теперь в нашем распоряжении оказываются ключевые слова. Бот, воспользовавшись ими, может выдать ссылку, позволяющую пользователю найти то, что ему нужно.

Бот отвечает пользователю

Применяются ли в ваших проектах чат-боты?

Комментарии (5)

rsashka
04.04.2021 14:01
#22883688
Зачем для поиска на сайте использовать бота и машинное обучение?
1. minalexpro
  05.04.2021 12:00
  #22886808
  Думаю, что это просто примитивный пример. Разобрав приведенным способом сообщение, можно поискать и сделать ссылку на конкретную статью в Базе знаний или FAQ, например.

achekalin
05.04.2021 09:05
#22886012
Котел в аду, приготовленный для авторов (и отдельно — для заказчиков) таких ботов, будет, пожалуй, превышать размерами знаменитые фабрики для сжигания говнофотографов.

Я лично в поддержку обращаюсь, когда на сайте компании нет нужно мне информации. Не «не нахожу» (т.е. она там есть, а я не осилил найти, а именно нет ее там) переводя на русский — когда нужно разобраться. Боты ни разу не помогли: они могут работать в рамках данных если не сайта, то в рамках тех мыслей, что держали в голове и авторы сайта, отчего разобраться ничем не помогает.

Пример: мне везут вещь, служба доставки затянула доставку. Звоню в СД, там дружелюбный бот «введите цифрами номер отправления». Ок, печатаю (не уверенный, что распознается правильно) — мне в ответ «ваше отправление еще в пути!» Блин, я и звоню спросить, что произошло, почему оно еще в пути!

А выбрасывание из вопроса знаков препинания и вообще нормализация текста, как это осилил для упрощения придумать не специалист по языку (более того, без учета опечаток, которые постоянно делаются с мобильных наэкранных клавиатур) — это просто еще один котел в аду! Видел пару раз сайты, где название города «Санкт-Петерьург» было не ввести, потому что программист запилил «эффективный регексп» для проверки валидности — вот с ботом польза та же.

Ну а до котла: пусть им до конца жизни робот будет делать завтрак: «хочу омлет! — доброе утро, ваш запрос очень важен, я Бобин-брось-таблицу, ваш робот по завтраку! Смузи нет, до свиданья, поставьте мне оценку!»
1. minalexpro
  05.04.2021 12:18
  #22886896
  Иногда срабатывает вызов оператора )
  
  Заголовок спойлера

thomasR
05.04.2021 15:29
#22887668
даже в нынешние времена, не только лишь все, умеют пользоваться даже гуглом.

Чат-бот для электронной коммерции +25

Удаление из сообщений ненужных символов

Токенизация текста в OpenNLP

Выявление частей речи с использованием OpenNLP

Комментарии (5)

rsashka

minalexpro

achekalin

minalexpro

thomasR