В современном мире всё большую популярность приобретает методика под названием customer development для тестирования идей и гипотез о будущем продукте. Методику придумал "крёстный отец Кремниевой долины" Стив Бланк.
Одним из числа сильных инструментов в "разработке клиентов" является интервью, когда вы можете побеседовать с респондентом. Однако им не всегда можно воспользоваться ввиду разных причин, которые условно можно свести к объёму бюджета и имеющемуся времени. Но во многих ситуациях можно воспользоваться опросом. Причём опросом, который можно автоматизировать за счёт применения чат-бота и нейронной сети для определения смысла слов, которые написал респондент в ответ на заданный вопрос.
В этой статье сконцентрируюсь на алгоритме работы чат-бота для проведения опроса. Как сделать чат-бота для VK писал в отдельной статье на Хабре. Использовал: Python, MySQL, API VK и готовую нейросеть от RusVectores.
Статья будет полезна для тех, кто только начинает погружаться в тему и хотел бы получить информацию, изложенную в более простой, упрощённой форме.
Дисклеймер. Не претендую на академическую точность изложения, говорю лишь о том, что удалось понять на текущий момент по итогу изучения различных материалов. Не рекламирую какие-либо технологии и сервисы.
Содержание
Нейросеть для понимания смысла текста, вводимого пользователем
Сделать бота, который распознаёт только ключевые слова в фразе пользователя - не очень жизненно. Проверку всех ключевых слов можно постараться прописать в коде, но это трудоёмко и негибко. Поэтому стоит воспользоваться возможностями нейросетей для определения смысла введённых пользователем слов.
В данном решении была использована готовая нейросеть от сервиса RusVectores, обученная на корпусе НКРЯ с использованием алгоритма word2vec CBOW с длиной вектора 300.
НКРЯ – это совокупность русскоязычных текстов, Национальный Корпус Русского Языка в полном объёме. Содержит 270 миллионов слов, объём словаря 189 193 слова.
Word2vec CBOW — алгоритм, благодаря которому слово на естественном языке представляется в виде числового вектора. Т.е. определяет «координату» слова в «смысловом пространстве». CBOW – это аббревиатура Continuous Bag of Words. Она обозначает алгоритм, который есть в word2vec. Данный алгоритм называют моделью «мешка слов», он предсказывает слово по контексту. Ещё один алгоритм в word2vec - Skip-gram предсказывает контекст по слову.
С помощью данных алгоритмов генерируют близкие по смыслу слова при запросе в поисковой системе, сравнивают документы по смыслу, определяют смысловую близость слов и предложений.
Более подробно о word2vec можно почитать в статье "Немного про word2vec: полезная теория".
О векторном представлении слов (эмбеддинге) хорошо и с примерами описано в статье "Что такое эмбеддинги и как они помогают машинам понимать тексты".
Представление слова в виде вектора позволяет оценивать его смысловую близость с другими словами, так же представленными в виде вектора. Для оценки близости слов можно вычислить косинус угла между их векторами. Чем ближе к 1 будет косинус угла между векторами слов, тем они ближе по смыслу. Единице будет соответствовать косинус угла 0 градусов, т. е. когда векторы слов совпадают.
Чтобы создать такой набор векторов почти для 200 000 слов и постоянно иметь к ним доступ, нужно располагать вычислительными мощностями. Т.к. у меня таких мощностей нет, я воспользовался доступным онлайн сервисом RusVectores.
База данных для хранения вопросов
Для проведения опроса я подготовил табличку с вопросами и разместил её в базе данных MySQL. Как видно из рисунка ниже, вопросы имеют ответвления, похожие на древовидную структуру или структуру графа.
В базе данных таблица с вопросами выглядит так (фрагмент):
Поле question_num служит для того, чтобы определить порядок вопросов и ответвления. Это путь от корневого элемента дерева вопросов до листового, разделённый точкой.
Описание алгоритма работы чат-бота
Начало опроса
По договорённости с пользователем он заходит на страницу сообщества в ВК и инициирует диалог, нажав кнопку «Сообщение».
Бот здоровается и спрашивает разрешения начать опрос. Текст приветствия задавал в разделе "Управление"> "Сообщения" на странице сообщества в ВК.
Если пользователь ответил что-то близкое по смыслу со словом «да», то бот начинает задавать вопросы. Как определить, что пользователь одобрил старт интервью? Для этого как раз нужна нейросеть, чтобы определить смысловую близость введённых пользователем слов к словам: да, можем, можно, начинай, ок. Для этого воспользуемся API сервиса RusVectores.
Далее приведён код функции, которая определяет начинать интервью или нет. Если интервью уже было начато, то функция определяет какой вопрос задать следующим.
фрагменты кода из bot_methods.py
модуля, в котором реализованы все методы бота
def _identify_phrase(user_id, user_message):
"""
identify start question or greeting
return number of phrase in database
"""
# identification variable, on start set "I don't know"
identi = 'I dont know'
# find in database current position in conversation between user and chatbot
identi = get_current_position_in_conversation(user_id)
if identi != 'err':
# if the conversation has just begun
if identi == '0':
# define greetings
similarity = _get_similarity(user_message, u'привет здравствуйте добрый')
if similarity > 0.5:
identi = "greetings"
else:
# define start interview or not
identi = _start_or_not(user_message)
# if the conversation continues
elif identi == '1':
# define start interview or not
identi = _start_or_not(user_message)
else:
pass
return identi
Вначале определим возможность начать опрос исходя из ответа пользователя с помощью метода _start_or_not():
def _start_or_not(user_message):
"""
define <identi>: start or don't start interview
"""
if user_message != 'старт' or user_message != 'Старт':
_identi = 'I dont know'
# define if user agree to start interview
start = _get_similarity(user_message, u'да можем можно начинай ок')
# define if user don't agree to start interview
later = _get_similarity(user_message, u'нет позже потом завтра')
if start > later and start > 0.15:
_identi = 'start'
elif later > start and later > 0.15:
_identi = 'later'
else:
_identi = "start"
return _identi
Если пользователь решил сначала поприветствовать бота, то нужно понять это и поприветствовать в ответ. Для этого проверим на смысловую близость сообщения от пользователя со словами приветствия с помощью метода _get_similarity(). Данный метод будет использоваться и далее для определения смысловой близости сообщений пользователя.
def _get_similarity(text1, text2):
"""
Function return similarity between text1 and text2
text1 - user message
text2 - key words
"""
text1.strip() # delete empty space on start and end of string
text2.strip()
text1_words = text1.split(' ')
text2_words = text2.split(' ')
similarity = 0.0 # init variable
try:
for word1 in text1_words:
if word1 != '':
for word2 in text2_words:
if word2 != '':
# prepare url for request to API rusvectores.org
# url example https://rusvectores.org/ruscorpora_upos_cbow_300_20_2019/дело__папка/api/similarity/
url = '/'.join(['https://rusvectores.org/ruscorpora_upos_cbow_300_20_2019',
word1 + '__' + word2, 'api', 'similarity/'])
# GET request to API rusvectores.org
r = requests.get(url, stream=True)
# sum similarity of couple of words
similarity = similarity + float(r.text.split('\t')[0])
except Exception as e:
log_exception = str(e)
# average similarity
similarity = similarity/len(text2_words)
# return similarity between text1 and text2
return similarity
Переменная similarity содержит числовое обозначение смысловой близость фраз text1 и text2. Чем ближе similarity к 1, тем ближе фразы по смыслу.
Метод _identify_phrase() используется для обработки всех фраз, которые пользователь пишет в чат. Поэтому необходимо заложить в него логику проверки как начального этапа - приветствие и старт интервью, так и последующее движение по вопросам. Для этого необходимо определять на каком вопросе и на какой развилке находится диалог. Текущую позицию в беседе определяем с помощью метода get_current_position_in_conversation()
фрагмент кода из mysqldb_methods.py
модуля, в котором реализованы все методы для работы с MySQL базой данных
def get_current_position_in_conversation(user_id):
"""
find in database current position in conversation between user and chatbot
using in bot_methods.py
"""
try:
conn = MySQLdb.connect(host=HOST, user=USER, passwd=PASSWORD,
db=DATABASE, charset='utf8', init_command='SET NAMES UTF8')
cursor = conn.cursor()
query = "SELECT `question_num` FROM `conversations` WHERE `user_id`=%(user_id)s LIMIT 1"
cursor.execute(query, {'user_id': user_id})
result = cursor.fetchone()
if result is None:
identi = '0'
else:
identi = result[0]
conn.close()
except Exception as e:
identi = 'err'
return identi
Таким образом мы обрабатываем три сценария взаимодействия с чат-ботом:
- старт опроса (понимаем согласен пользователь начать опрос или нет с помощью функции _start_or_not()),
- обмен приветствиями, если пользователь поздоровался (понимаем по смысловой близости к словам приветствия с помощью функции _get_similarity());
- движение по структуре вопросов с помощью функции get_current_position_in_conversation() для определения текущего положения в структуре вопросов.
Давайте рассмотрим движение по структуре вопросов более подробно.
Стоп-слова
Одним из важных моментов является удаление "стоп-слов", т.е. слов, которые можно с лёгкостью удалить из предложения и при этом его смысл не потеряется. Вот набор стоп-слов, которые я использовал в данном проекте:
stop_words = [
u'а',
u'большой',u'бы',u'быть',
u'в',u'весь',u'вот',u'всей',u'вы',
u'говорить',u'год',
u'для',u'до',
u'еще',u'если',
u'же',
u'знать',
u'и',u'из',u'или',
u'к',u'как',u'который',
u'мочь',u'мы',u'мне',
u'на',u'наш',u'него',u'нее',u'них',u'но',
u'о',u'один',u'она',u'они',u'оно',u'оный',u'от',u'ото',
u'по',
u'с',u'свой',u'себя',u'сказать',
u'та',u'такой',u'такое',u'только',u'тот',u'ты',u'то',
u'у',
u'что',
u'это',u'этот',
u'я'
]
stop_characters = [u'.',u',',u' - ',u'- ',u' -',u':',u';',u'?',u'№',u'!',u'_',u'(',
u')',u'=',u'+',u"#",u'$',u'@',u'%',u'*',u' ',u'<',u'>','1','2','3','4','5','6',
'7','8','9','0']
С помощью метода _clear_text() очищаю предложение от стоп-слов:
Движение по структуре вопросов
Для определения в каком направлении опроса двигаться исходя из ответов респондента воспользуемся функцией _define_conversation_way():
def _define_conversation_way(user_message, identi):
"""
define in which way we are goin to?
"""
# all questions, unless № 3 has two ways: 'yes' (positive) or 'no' (negative)
if identi != '3' and identi != '6':
yes = _get_similarity(user_message, u'да заказывал просить')
no = _get_similarity(user_message, u'нет никогда')
elif identi == '6':
# the question number 6 has different ways: 'delivery' or 'self-delivery'
yes = _get_similarity(user_message, u'заказываю доставку')
no = _get_similarity(user_message, u'еду сам ищу аналог')
elif identi == '3':
# the question number 3 has different ways: 'from store' or 'delivery'
yes = _get_similarity(user_message, u'магазин сам')
no = _get_similarity(user_message, u'доставка почта все перечисленное курьер дом')
if yes > no and yes > 0.15:
_way = 'yes'
elif no > yes and no > 0.15:
_way = 'no'
else:
_way = 'I dont know'
return _way
Для удобства использования я сгруппировал всю логику по определению того что бот должен ответить в функцию _get_bot_answer(). Для удобства восприятия приведу ниже не только данный метод, а модуль с методами бота в целом:
bot_methods.py
полный код модуля, в котором реализованы все методы бота
# -*- coding: utf-8 -*-
"""
Bot methods.
Realizes all what bot can do.
"3. Использование API сервиса RusVectores"
https://github.com/akutuzov/webvectors/blob/master/preprocessing/rusvectores_tutorial.ipynb
"""
import re # for work with regular expressions
import requests # for using HTTP requests
from bot_config import stop_words
from bot_config import stop_characters
from mysqldb_methods import get_current_position_in_conversation
from mysqldb_methods import get_question_from_DB
from mysqldb_methods import write_current_question_number_for_user
def get_bot_answer(user_id, user_message):
"""
using in views.py
make answer to user
"""
answer = ''
# delete stop-words and punctuation characters in sentence
user_message = _clear_text(user_message)
# identify what to do: start or continue conversation
identi = _identify_phrase(user_id, user_message)
if identi == 'greetings':
answer = get_question_from_DB('1')
write_current_question_number_for_user(user_id, '1')
elif identi == 'start':
answer = get_question_from_DB('2')
write_current_question_number_for_user(user_id, '2')
elif identi == 'later':
answer = "Когда у вас будет возможность пройти интервью напишите мне 'старт'."
elif identi == 'I dont know':
answer = "Я не совсем вас понимаю...\nУточните, пожалуйста."
elif identi == 'end':
answer = "Спасибо за ваше участие в интервью!"
else:
# if top-level question: 1, 2 or 3 etc.
if len(identi) == 1:
# define in which way we are goin to?
way = _define_conversation_way(user_message, identi)
if way == 'yes' or way == 'no':
if way == 'yes':
# going to positive way
question_num = '.'.join([identi,'1','1'])
if way == 'no':
# going to negative way
question_num = '.'.join([identi,'2','1'])
answer = get_question_from_DB(question_num)
if answer != 'None':
write_current_question_number_for_user(user_id, question_num)
else:
question_num = str(int(identi) + 1)
answer = get_question_from_DB(question_num)
write_current_question_number_for_user(user_id, question_num)
else:
# if way='I dont know'
answer = "Я не совсем вас понимаю...\nУточните, пожалуйста."
else:
# if subquestion: e.g. identi=2.1.1 or 3.2.2 etc.
identi_numbers = identi.split('.')
next_num = str(int(identi_numbers[2]) + 1)
question_num = '.'.join([identi_numbers[0],identi_numbers[1],next_num])
answer = get_question_from_DB(question_num)
# if we get end of subquestions in this top-level-question
if answer == 'None':
# going to the next top-level question
question_num = str(int(identi_numbers[0]) + 1)
# checking that the question is the last
if _is_the_last_question(question_num):
answer = get_question_from_DB(question_num)
question_num = 'end'
else:
# is not the last question
answer = get_question_from_DB(question_num)
write_current_question_number_for_user(user_id, question_num)
return answer
def _is_the_last_question(question_num):
"""
define is the last question?
by the condition (len(identi) == 1) of the function "get_bot_answer"
question_num has lenght 1
"""
is_the_last = True
question_num = str(int(question_num) + 1)
question = get_question_from_DB(question_num)
if question != 'None':
is_the_last = False
return is_the_last
def _define_conversation_way(user_message, identi):
"""
define in which way we are goin to?
"""
# all questions, unless № 3 has two ways: 'yes' (positive) or 'no' (negative)
if identi != '3' and identi != '6':
yes = _get_similarity(user_message, u'да заказывал просить')
no = _get_similarity(user_message, u'нет никогда')
elif identi == '6':
# the question number 6 has different ways: 'delivery' or 'self-delivery'
yes = _get_similarity(user_message, u'заказываю доставку')
no = _get_similarity(user_message, u'еду сам ищу аналог')
elif identi == '3':
# the question number 3 has different ways: 'from store' or 'delivery'
yes = _get_similarity(user_message, u'магазин сам')
no = _get_similarity(user_message, u'доставка почта все перечисленное курьер дом')
if yes > no and yes > 0.15:
_way = 'yes'
elif no > yes and no > 0.15:
_way = 'no'
else:
_way = 'I dont know'
return _way
def _identify_phrase(user_id, user_message):
"""
identify start question or greeting
return number of phrase in database
"""
# identification variable, on start set "I don't know"
identi = 'I dont know'
# find in database current position in conversation between user and chatbot
identi = get_current_position_in_conversation(user_id)
if identi != 'err':
# if the conversation has just begun
if identi == '0':
# define greetings
similarity = _get_similarity(user_message, u'привет здравствуйте добрый')
if similarity > 0.5:
identi = "greetings"
else:
# define start interview or not
identi = _start_or_not(user_message)
# if the conversation continues
elif identi == '1':
# define start interview or not
identi = _start_or_not(user_message)
else:
pass
return identi
def _start_or_not(user_message):
"""
define <identi>: start or don't start interview
"""
if user_message != 'старт' or user_message != 'Старт':
_identi = 'I dont know'
# define if user agree to start interview
start = _get_similarity(user_message, u'да можем можно начинай ок')
# define if user don't agree to start interview
later = _get_similarity(user_message, u'нет позже потом завтра')
if start > later and start > 0.15:
_identi = 'start'
elif later > start and later > 0.15:
_identi = 'later'
else:
_identi = "start"
return _identi
def _clear_text(sentence):
"""
delete stop-words and punctuation characters in sentence
"""
try:
# sentence to low-case
sentence = sentence.lower()
# delete stop-characters
for char in stop_characters:
sentence = sentence.replace(char, '')
# delete stop-words
words_of_sentence = sentence.split(' ')
result = ''
for word in words_of_sentence:
if word not in stop_words:
result = result + ' ' + word
except Exception as e:
result = str(e)
return result
def _get_similarity(text1, text2):
"""
Function return similarity between text1 and text2
:param text1: user message
:param text2: key words
"""
text1.strip() # delete empty space on start and end of string
text2.strip()
text1_words = text1.split(' ')
text2_words = text2.split(' ')
similarity = 0.0 # init variable
try:
for word1 in text1_words:
if word1 != '':
for word2 in text2_words:
if word2 != '':
# prepare url for request to API rusvectores.org
# url example http://rusvectores.org/araneum_none_fasttextcbow_300_5_2018/дело__папка/api/similarity/
url = '/'.join(['http://rusvectores.org/araneum_none_fasttextcbow_300_5_2018',
word1 + '__' + word2, 'api', 'similarity/'])
# GET request to API rusvectores.org
r = requests.get(url, stream=True)
# sum similarity of couple of words
similarity = similarity + float(r.text.split('\t')[0])
except Exception as e:
log_exception = str(e)
# average similarity
similarity = similarity/len(text2_words)
# return similarity between text1 and text2
return similarity
Как видно из кода, с помощью метода write_current_question_number_for_user() бот сохраняет в базу данных текущую позицию в диалоге с пользователем. Это необходимо для того, чтобы бот понимал какой следующий вопрос нужно задать респонденту.
Функция get_question_from_DB() возвращает текст вопроса из базы данных для того, чтобы бот задал его в чате.
Для удобства приведу полный код модуля с методами для работы с базой данных:
mysqldb_methods.py
полный код модуля, в котором реализованы все методы для работы с MySQL базой данных
# -*- coding: utf-8 -*-
"""
Methods for work with MySQL database.
"""
import MySQLdb # before using it do in ssh: pip install mysqlclient
"""
import configuration variables for connect to MySQL database:
"""
from mysqldb_config import HOST
from mysqldb_config import USER
from mysqldb_config import PASSWORD
from mysqldb_config import DATABASE
def write_current_question_number_for_user(user_id, question_num):
"""
write question number to database for this user
"""
try:
conn = MySQLdb.connect(host=HOST, user=USER, passwd=PASSWORD,
db=DATABASE, charset='utf8', init_command='SET NAMES UTF8')
cursor = conn.cursor()
if question_num == '2':
query = (
"INSERT INTO `conversations`(`user_id`, `question_num`) "
"VALUES (%s, %s)"
)
data = (user_id, question_num)
else:
query = (
"UPDATE `conversations` "
"SET `question_num`=%s "
"WHERE `user_id`=%s "
)
data = (question_num, user_id)
cursor.execute(query,data)
conn.commit() # commit transaction
conn.close()
except Exception as e:
exception = str(e)
def get_current_position_in_conversation(user_id):
"""
find in database current position in conversation between user and chatbot
using in bot_methods.py
"""
try:
conn = MySQLdb.connect(host=HOST, user=USER, passwd=PASSWORD,
db=DATABASE, charset='utf8', init_command='SET NAMES UTF8')
cursor = conn.cursor()
query = "SELECT `question_num` FROM `conversations` WHERE `user_id`=%(user_id)s LIMIT 1"
cursor.execute(query, {'user_id': user_id})
result = cursor.fetchone()
if result is None:
identi = '0'
else:
identi = result[0]
conn.close()
except Exception as e:
identi = 'err'
return identi
def get_question_from_DB(question_num):
"""
return question text from database
"""
try:
conn = MySQLdb.connect(host=HOST, user=USER, passwd=PASSWORD,
db=DATABASE, charset='utf8', init_command='SET NAMES UTF8')
cursor = conn.cursor()
query = "SELECT `question_text` FROM `questions` WHERE `question_num`=%(num)s LIMIT 1"
cursor.execute(query, {'num': question_num})
result = cursor.fetchone()
if result is not None:
question_text = result[0]
else:
question_text = "None"
conn.close()
except Exception as e:
question_text = str(e)
return question_text
Теперь для полноты картины приведу код скрипта, который резюмирует всю логику работы чат-бота.
скрипт views.py
"точка входа" для приёма сообщений пользователя и отправки ответов бота в чат
# -*- coding: utf-8 -*-
from __future__ import unicode_literals
import json
import threading # for async executing tasks with VK API
import vk # vk is library from VK
from django.views.decorators.csrf import csrf_exempt
from django.shortcuts import render
from django.http import HttpResponse
from bot_config import * # import token, confirmation_token and over constants from bot_config.py
from bot_methods import get_bot_answer
@csrf_exempt # exempt index() function from built-in Django protection
def index(request): # requested url
if (request.method == "POST"):
data = json.loads(request.body) # take POST request from auto-generated variable <request.body> in json format
if (data['secret'] == secret_key): # if json request contain secret key and it's equal my secret key
if (data['type'] == 'confirmation'): # if VK server request confirmation
"""
For confirmation my server (webhook) it must return
confirmation token, which issuing in administration web-panel
your public group in vk.com.
Using <content_type="text/plain"> in HttpResponse function allows you
response only plain text, without any format symbols.
Parameter <status=200> response to VK server as VK want.
"""
# confirmation_token from bot_config.py
return HttpResponse(confirmation_token,
content_type="text/plain",
status=200)
if (data['type'] == 'message_new'): # if VK server send a message
# t - is new thread to async execute answer_to_message()
t = threading.Thread(target=_answer_to_message, args=(data,))
t.start()
return HttpResponse('ok', content_type="text/plain", status=200)
else:
return HttpResponse('see you :)')
# send anser to user message
def _answer_to_message(data):
session = vk.Session()
api = vk.API(session, v=5.5)
user_id = data['object']['user_id']
user_message = data['object']['body']
# get bot answer
answer = get_bot_answer(user_id, user_message)
# token from bot_config.py
api.messages.send(access_token = token, user_id = str(user_id), message = answer)
О том как устроена структура файлов приложения, его настройка описывал в подробностях в отдельной статье на Хабре.
Успехов!
Уверен, что для решения изложенной задачи существуют более элегантные решения и подходы. Несмотря на это надеюсь что изложенный материал найдёт своего читателя и будет полезен как в целом, так и в каких-то аспектах.
Желаю всем интересных проектов и успехов в их реализации!
zero-code
Тяжело читать. Длинные куски кода обычно скрывают под соответствующим тегом.
Maxim_Mezhov Автор
Согласен, но вместе с тем, я думаю, код тоже стоит почитать. В нём существенная доля информации. Комментариев в коде не жалел :), так что не должно быть ощущения «дебрей», через которые нужно продираться :)
Код писал в специально предусмотренном блоке «код». Вы имеете ввиду, что нужно было воспользоваться тегом «спойлер»?