В современном мире всё большую популярность приобретает методика под названием customer development для тестирования идей и гипотез о будущем продукте. Методику придумал "крёстный отец Кремниевой долины" Стив Бланк.
Одним из числа сильных инструментов в "разработке клиентов" является интервью, когда вы можете побеседовать с респондентом. Однако им не всегда можно воспользоваться ввиду разных причин, которые условно можно свести к объёму бюджета и имеющемуся времени. Но во многих ситуациях можно воспользоваться опросом. Причём опросом, который можно автоматизировать за счёт применения чат-бота и нейронной сети для определения смысла слов, которые написал респондент в ответ на заданный вопрос.

В этой статье сконцентрируюсь на алгоритме работы чат-бота для проведения опроса. Как сделать чат-бота для VK писал в отдельной статье на Хабре. Использовал: Python, MySQL, API VK и готовую нейросеть от RusVectores.

Статья будет полезна для тех, кто только начинает погружаться в тему и хотел бы получить информацию, изложенную в более простой, упрощённой форме.

Дисклеймер. Не претендую на академическую точность изложения, говорю лишь о том, что удалось понять на текущий момент по итогу изучения различных материалов. Не рекламирую какие-либо технологии и сервисы.

Содержание

Нейросеть для понимания смысла текста, вводимого пользователем

Сделать бота, который распознаёт только ключевые слова в фразе пользователя - не очень жизненно. Проверку всех ключевых слов можно постараться прописать в коде, но это трудоёмко и негибко. Поэтому стоит воспользоваться возможностями нейросетей для определения смысла введённых пользователем слов.

В данном решении была использована готовая нейросеть от сервиса RusVectores, обученная на корпусе НКРЯ с использованием алгоритма word2vec CBOW с длиной вектора 300.

НКРЯ – это совокупность русскоязычных текстов, Национальный Корпус Русского Языка в полном объёме. Содержит 270 миллионов слов, объём словаря 189 193 слова.

Word2vec CBOW — алгоритм, благодаря которому слово на естественном языке представляется в виде числового вектора. Т.е. определяет «координату» слова в «смысловом пространстве». CBOW – это аббревиатура Continuous Bag of Words. Она обозначает алгоритм, который есть в word2vec. Данный алгоритм называют моделью «мешка слов», он предсказывает слово по контексту. Ещё один алгоритм в word2vec - Skip-gram предсказывает контекст по слову.

С помощью данных алгоритмов генерируют близкие по смыслу слова при запросе в поисковой системе, сравнивают документы по смыслу, определяют смысловую близость слов и предложений.

Более подробно о word2vec можно почитать в статье "Немного про word2vec: полезная теория".

О векторном представлении слов (эмбеддинге) хорошо и с примерами описано в статье "Что такое эмбеддинги и как они помогают машинам понимать тексты".

Представление слова в виде вектора позволяет оценивать его смысловую близость с другими словами, так же представленными в виде вектора. Для оценки близости слов можно вычислить косинус угла между их векторами. Чем ближе к 1 будет косинус угла между векторами слов, тем они ближе по смыслу. Единице будет соответствовать косинус угла 0 градусов, т. е. когда векторы слов совпадают.

Чтобы создать такой набор векторов почти для 200 000 слов и постоянно иметь к ним доступ, нужно располагать вычислительными мощностями. Т.к. у меня таких мощностей нет, я воспользовался доступным онлайн сервисом RusVectores.

База данных для хранения вопросов

Для проведения опроса я подготовил табличку с вопросами и разместил её в базе данных MySQL. Как видно из рисунка ниже, вопросы имеют ответвления, похожие на древовидную структуру или структуру графа.

Структура вопросов
Структура вопросов

В базе данных таблица с вопросами выглядит так (фрагмент):

Фрагмент таблицы в БД с вопросами
Фрагмент таблицы в БД с вопросами

Поле question_num служит для того, чтобы определить порядок вопросов и ответвления. Это путь от корневого элемента дерева вопросов до листового, разделённый точкой.

Описание алгоритма работы чат-бота

Начало опроса

По договорённости с пользователем он заходит на страницу сообщества в ВК и инициирует диалог, нажав кнопку «Сообщение».

Бот здоровается и спрашивает разрешения начать опрос. Текст приветствия задавал в разделе "Управление"> "Сообщения" на странице сообщества в ВК.

Если пользователь ответил что-то близкое по смыслу со словом «да», то бот начинает задавать вопросы. Как определить, что пользователь одобрил старт интервью? Для этого как раз нужна нейросеть, чтобы определить смысловую близость введённых пользователем слов к словам: да, можем, можно, начинай, ок. Для этого воспользуемся API сервиса RusVectores.

Далее приведён код функции, которая определяет начинать интервью или нет. Если интервью уже было начато, то функция определяет какой вопрос задать следующим.

фрагменты кода из bot_methods.py
модуля, в котором реализованы все методы бота

def _identify_phrase(user_id, user_message):
    """
    identify start question or greeting
    return number of phrase in database
    """
    # identification variable, on start set "I don't know"
    identi = 'I dont know'
    # find in database current position in conversation between user and chatbot
    identi = get_current_position_in_conversation(user_id)
    if identi != 'err':
        # if the conversation has just begun
        if identi == '0':
            # define greetings
            similarity = _get_similarity(user_message, u'привет здравствуйте добрый')
            if similarity > 0.5:
                identi = "greetings"
            else:
                # define start interview or not
                identi = _start_or_not(user_message)
        # if the conversation continues
        elif identi == '1':
            # define start interview or not
            identi = _start_or_not(user_message)
        else:
            pass
            
    return identi

Вначале определим возможность начать опрос исходя из ответа пользователя с помощью метода _start_or_not():

def _start_or_not(user_message):
    """
    define <identi>: start or don't start interview
    """
    if user_message != 'старт' or user_message != 'Старт':
        _identi = 'I dont know'
        # define if user agree to start interview
        start = _get_similarity(user_message, u'да можем можно начинай ок')
        # define if user don't agree to start interview
        later = _get_similarity(user_message, u'нет позже потом завтра')
        if start > later and start > 0.15:
            _identi = 'start'
        elif later > start and later > 0.15:
            _identi = 'later'
    else:
        _identi = "start"

    return _identi

Если пользователь решил сначала поприветствовать бота, то нужно понять это и поприветствовать в ответ. Для этого проверим на смысловую близость сообщения от пользователя со словами приветствия с помощью метода _get_similarity(). Данный метод будет использоваться и далее для определения смысловой близости сообщений пользователя.

def _get_similarity(text1, text2):
    """
    Function return similarity between text1 and text2
    text1 - user message
    text2 - key words
    """
    text1.strip()  # delete empty space on start and end of string
    text2.strip()
    text1_words = text1.split(' ')
    text2_words = text2.split(' ')

    similarity = 0.0 # init variable
    try:
        for word1 in text1_words:
            if word1 != '':
                for word2 in text2_words:
                    if word2 != '':
                        # prepare url for request to API rusvectores.org
                        # url example https://rusvectores.org/ruscorpora_upos_cbow_300_20_2019/дело__папка/api/similarity/
                        url = '/'.join(['https://rusvectores.org/ruscorpora_upos_cbow_300_20_2019', 
                                        word1 + '__' + word2, 'api', 'similarity/'])
                        # GET request to API rusvectores.org
                        r = requests.get(url, stream=True)
                        # sum similarity of couple of words
                        similarity = similarity + float(r.text.split('\t')[0])
    except Exception as e:
        log_exception = str(e)

    # average similarity
    similarity = similarity/len(text2_words)

    # return similarity between text1 and text2
    return similarity

Переменная similarity содержит числовое обозначение смысловой близость фраз text1 и text2. Чем ближе similarity к 1, тем ближе фразы по смыслу.

Метод _identify_phrase() используется для обработки всех фраз, которые пользователь пишет в чат. Поэтому необходимо заложить в него логику проверки как начального этапа - приветствие и старт интервью, так и последующее движение по вопросам. Для этого необходимо определять на каком вопросе и на какой развилке находится диалог. Текущую позицию в беседе определяем с помощью метода get_current_position_in_conversation()

фрагмент кода из mysqldb_methods.py
модуля, в котором реализованы все методы для работы с MySQL базой данных

def get_current_position_in_conversation(user_id):
    """
    find in database current position in conversation between user and chatbot
    using in bot_methods.py
    """
    try:
        conn = MySQLdb.connect(host=HOST, user=USER, passwd=PASSWORD, 
                               db=DATABASE, charset='utf8', init_command='SET NAMES UTF8')
        cursor = conn.cursor()
        query = "SELECT `question_num` FROM `conversations` WHERE `user_id`=%(user_id)s LIMIT 1"
        cursor.execute(query, {'user_id': user_id})
        result = cursor.fetchone()
        if result is None:
            identi = '0'
        else:
            identi = result[0]
        conn.close()
    except Exception as e:
        identi = 'err'
    
    return identi

Таким образом мы обрабатываем три сценария взаимодействия с чат-ботом:
- старт опроса (понимаем согласен пользователь начать опрос или нет с помощью функции _start_or_not()),
- обмен приветствиями, если пользователь поздоровался (понимаем по смысловой близости к словам приветствия с помощью функции _get_similarity());
- движение по структуре вопросов с помощью функции get_current_position_in_conversation() для определения текущего положения в структуре вопросов.

Давайте рассмотрим движение по структуре вопросов более подробно.

Стоп-слова

Одним из важных моментов является удаление "стоп-слов", т.е. слов, которые можно с лёгкостью удалить из предложения и при этом его смысл не потеряется. Вот набор стоп-слов, которые я использовал в данном проекте:

stop_words = [
u'а',
u'большой',u'бы',u'быть',
u'в',u'весь',u'вот',u'всей',u'вы',
u'говорить',u'год',
u'для',u'до',
u'еще',u'если',
u'же',
u'знать',
u'и',u'из',u'или',
u'к',u'как',u'который',
u'мочь',u'мы',u'мне',
u'на',u'наш',u'него',u'нее',u'них',u'но',
u'о',u'один',u'она',u'они',u'оно',u'оный',u'от',u'ото',
u'по',
u'с',u'свой',u'себя',u'сказать',
u'та',u'такой',u'такое',u'только',u'тот',u'ты',u'то',
u'у',
u'что',
u'это',u'этот',
u'я'
]

stop_characters = [u'.',u',',u' - ',u'- ',u' -',u':',u';',u'?',u'№',u'!',u'_',u'(',
u')',u'=',u'+',u"#",u'$',u'@',u'%',u'*',u'   ',u'<',u'>','1','2','3','4','5','6',
'7','8','9','0']

С помощью метода _clear_text() очищаю предложение от стоп-слов:

Движение по структуре вопросов

Для определения в каком направлении опроса двигаться исходя из ответов респондента воспользуемся функцией _define_conversation_way():

def _define_conversation_way(user_message, identi):
    """
    define in which way we are goin to?
    """
    # all questions, unless № 3 has two ways: 'yes' (positive) or 'no' (negative)
    if identi != '3' and identi != '6':
        yes = _get_similarity(user_message, u'да заказывал просить')
        no = _get_similarity(user_message, u'нет никогда')
    elif identi == '6':
        # the question number 6 has different ways: 'delivery' or 'self-delivery'
        yes = _get_similarity(user_message, u'заказываю доставку')
        no = _get_similarity(user_message, u'еду сам ищу аналог')
    elif identi == '3':
        # the question number 3 has different ways: 'from store' or 'delivery'
        yes = _get_similarity(user_message, u'магазин сам')
        no = _get_similarity(user_message, u'доставка почта все перечисленное курьер дом')

    if yes > no and yes > 0.15:
        _way = 'yes'
    elif no > yes and no > 0.15:
        _way = 'no'
    else:
        _way = 'I dont know'

    return _way

Для удобства использования я сгруппировал всю логику по определению того что бот должен ответить в функцию _get_bot_answer(). Для удобства восприятия приведу ниже не только данный метод, а модуль с методами бота в целом:

bot_methods.py
полный код модуля, в котором реализованы все методы бота

# -*- coding: utf-8 -*-
"""
Bot methods.
Realizes all what bot can do.
"3. Использование API сервиса RusVectores"
https://github.com/akutuzov/webvectors/blob/master/preprocessing/rusvectores_tutorial.ipynb
"""
import re  # for work with regular expressions
import requests  # for using HTTP requests

from bot_config import stop_words
from bot_config import stop_characters

from mysqldb_methods import get_current_position_in_conversation
from mysqldb_methods import get_question_from_DB
from mysqldb_methods import write_current_question_number_for_user


def get_bot_answer(user_id, user_message):
    """
    using in views.py
    make answer to user
    """
    answer = ''
    # delete stop-words and punctuation characters in sentence
    user_message = _clear_text(user_message)
    # identify what to do: start or continue conversation
    identi = _identify_phrase(user_id, user_message)
    if identi == 'greetings':
        answer = get_question_from_DB('1')
        write_current_question_number_for_user(user_id, '1')
    elif identi == 'start':
        answer = get_question_from_DB('2')
        write_current_question_number_for_user(user_id, '2')
    elif identi == 'later':
        answer = "Когда у вас будет возможность пройти интервью напишите мне 'старт'."
    elif identi == 'I dont know':
        answer = "Я не совсем вас понимаю...\nУточните, пожалуйста."
    elif identi == 'end':
        answer = "Спасибо за ваше участие в интервью!"
    else:
        # if top-level question: 1, 2 or 3 etc.
        if len(identi) == 1:
            # define in which way we are goin to?
            way = _define_conversation_way(user_message, identi)
            if way == 'yes' or way == 'no':
                if way == 'yes':
                    # going to positive way
                    question_num = '.'.join([identi,'1','1'])
                if way == 'no':
                    # going to negative way
                    question_num = '.'.join([identi,'2','1'])

                answer = get_question_from_DB(question_num)
                if answer != 'None':
                    write_current_question_number_for_user(user_id, question_num)
                else:
                    question_num = str(int(identi) + 1)
                    answer = get_question_from_DB(question_num)
                    write_current_question_number_for_user(user_id, question_num)
            else:
                # if way='I dont know'
                answer = "Я не совсем вас понимаю...\nУточните, пожалуйста."
        else:
            # if subquestion: e.g. identi=2.1.1 or 3.2.2 etc.
            identi_numbers = identi.split('.')
            next_num = str(int(identi_numbers[2]) + 1)
            question_num = '.'.join([identi_numbers[0],identi_numbers[1],next_num])
            answer = get_question_from_DB(question_num)
            # if we get end of subquestions in this top-level-question
            if answer == 'None':
                # going to the next top-level question
                question_num = str(int(identi_numbers[0]) + 1)
                # checking that the question is the last
                if _is_the_last_question(question_num):
                    answer = get_question_from_DB(question_num)
                    question_num = 'end'
                else:
                    # is not the last question
                    answer = get_question_from_DB(question_num)
            
            write_current_question_number_for_user(user_id, question_num)
        
    return answer


def _is_the_last_question(question_num):
    """
    define is the last question?
    by the condition (len(identi) == 1) of the function "get_bot_answer"
    question_num has lenght 1
    """
    is_the_last = True
    question_num = str(int(question_num) + 1)
    question = get_question_from_DB(question_num)
    if question != 'None':
        is_the_last = False

    return is_the_last


def _define_conversation_way(user_message, identi):
    """
    define in which way we are goin to?
    """
    # all questions, unless № 3 has two ways: 'yes' (positive) or 'no' (negative)
    if identi != '3' and identi != '6':
        yes = _get_similarity(user_message, u'да заказывал просить')
        no = _get_similarity(user_message, u'нет никогда')
    elif identi == '6':
        # the question number 6 has different ways: 'delivery' or 'self-delivery'
        yes = _get_similarity(user_message, u'заказываю доставку')
        no = _get_similarity(user_message, u'еду сам ищу аналог')
    elif identi == '3':
        # the question number 3 has different ways: 'from store' or 'delivery'
        yes = _get_similarity(user_message, u'магазин сам')
        no = _get_similarity(user_message, u'доставка почта все перечисленное курьер дом')

    if yes > no and yes > 0.15:
        _way = 'yes'
    elif no > yes and no > 0.15:
        _way = 'no'
    else:
        _way = 'I dont know'

    return _way


def _identify_phrase(user_id, user_message):
    """
    identify start question or greeting
    return number of phrase in database
    """
    # identification variable, on start set "I don't know"
    identi = 'I dont know'
    # find in database current position in conversation between user and chatbot
    identi = get_current_position_in_conversation(user_id)
    if identi != 'err':
        # if the conversation has just begun
        if identi == '0':
            # define greetings
            similarity = _get_similarity(user_message, u'привет здравствуйте добрый')
            if similarity > 0.5:
                identi = "greetings"
            else:
                # define start interview or not
                identi = _start_or_not(user_message)
        # if the conversation continues
        elif identi == '1':
            # define start interview or not
            identi = _start_or_not(user_message)
        else:
            pass
            
    return identi


def _start_or_not(user_message):
    """
    define <identi>: start or don't start interview
    """
    if user_message != 'старт' or user_message != 'Старт':
        _identi = 'I dont know'
        # define if user agree to start interview
        start = _get_similarity(user_message, u'да можем можно начинай ок')
        # define if user don't agree to start interview
        later = _get_similarity(user_message, u'нет позже потом завтра')
        if start > later and start > 0.15:
            _identi = 'start'
        elif later > start and later > 0.15:
            _identi = 'later'
    else:
        _identi = "start"

    return _identi


def _clear_text(sentence):
    """
    delete stop-words and punctuation characters in sentence
    """
    try:
        # sentence to low-case
        sentence = sentence.lower()
        # delete stop-characters
        for char in stop_characters:
            sentence = sentence.replace(char, '')
        # delete stop-words
        words_of_sentence = sentence.split(' ')
        result = ''
        for word in words_of_sentence:
            if word not in stop_words:
                result = result + ' ' + word

    except Exception as e:
        result = str(e)

    return result


def _get_similarity(text1, text2):
    """
    Function return similarity between text1 and text2
    :param text1: user message
    :param text2: key words
    """
    text1.strip()  # delete empty space on start and end of string
    text2.strip()
    text1_words = text1.split(' ')
    text2_words = text2.split(' ')

    similarity = 0.0 # init variable
    try:
        for word1 in text1_words:
            if word1 != '':
                for word2 in text2_words:
                    if word2 != '':
                        # prepare url for request to API rusvectores.org
                        # url example http://rusvectores.org/araneum_none_fasttextcbow_300_5_2018/дело__папка/api/similarity/
                        url = '/'.join(['http://rusvectores.org/araneum_none_fasttextcbow_300_5_2018', 
                                        word1 + '__' + word2, 'api', 'similarity/'])
                        # GET request to API rusvectores.org
                        r = requests.get(url, stream=True)
                        # sum similarity of couple of words
                        similarity = similarity + float(r.text.split('\t')[0])
    except Exception as e:
        log_exception = str(e)

    # average similarity
    similarity = similarity/len(text2_words)

    # return similarity between text1 and text2
    return similarity

Как видно из кода, с помощью метода write_current_question_number_for_user() бот сохраняет в базу данных текущую позицию в диалоге с пользователем. Это необходимо для того, чтобы бот понимал какой следующий вопрос нужно задать респонденту.
Функция get_question_from_DB() возвращает текст вопроса из базы данных для того, чтобы бот задал его в чате.

Для удобства приведу полный код модуля с методами для работы с базой данных:

mysqldb_methods.py
полный код модуля, в котором реализованы все методы для работы с MySQL базой данных

# -*- coding: utf-8 -*-
"""
Methods for work with MySQL database.
"""
import MySQLdb  # before using it do in ssh: pip install mysqlclient

""" 
import configuration variables for connect to MySQL database:
"""
from mysqldb_config import HOST
from mysqldb_config import USER
from mysqldb_config import PASSWORD
from mysqldb_config import DATABASE


def write_current_question_number_for_user(user_id, question_num):
    """
    write question number to database for this user
    """
    try:
        conn = MySQLdb.connect(host=HOST, user=USER, passwd=PASSWORD, 
                               db=DATABASE, charset='utf8', init_command='SET NAMES UTF8')
        cursor = conn.cursor()
        if question_num == '2':
            query = (
                "INSERT INTO `conversations`(`user_id`, `question_num`) "
                "VALUES (%s, %s)"
            )
            data = (user_id, question_num)
        else:
            query = (
                "UPDATE `conversations` "
                "SET `question_num`=%s "
                "WHERE `user_id`=%s "
            )
            data = (question_num, user_id)

        cursor.execute(query,data)
        conn.commit()  # commit transaction
        conn.close()
    except Exception as e:
        exception = str(e)


def get_current_position_in_conversation(user_id):
    """
    find in database current position in conversation between user and chatbot
    using in bot_methods.py
    """
    try:
        conn = MySQLdb.connect(host=HOST, user=USER, passwd=PASSWORD, 
                               db=DATABASE, charset='utf8', init_command='SET NAMES UTF8')
        cursor = conn.cursor()
        query = "SELECT `question_num` FROM `conversations` WHERE `user_id`=%(user_id)s LIMIT 1"
        cursor.execute(query, {'user_id': user_id})
        result = cursor.fetchone()
        if result is None:
            identi = '0'
        else:
            identi = result[0]
        conn.close()
    except Exception as e:
        identi = 'err'
    
    return identi


def get_question_from_DB(question_num):
    """
    return question text from database
    """
    try:
        conn = MySQLdb.connect(host=HOST, user=USER, passwd=PASSWORD, 
                               db=DATABASE, charset='utf8', init_command='SET NAMES UTF8')
        cursor = conn.cursor()
        query = "SELECT `question_text` FROM `questions` WHERE `question_num`=%(num)s LIMIT 1"
        cursor.execute(query, {'num': question_num})
        result = cursor.fetchone()
        if result is not None:
            question_text = result[0]
        else:
            question_text = "None"
        conn.close()
    except Exception as e:
        question_text = str(e)
    
    return question_text

Теперь для полноты картины приведу код скрипта, который резюмирует всю логику работы чат-бота.

скрипт views.py
"точка входа" для приёма сообщений пользователя и отправки ответов бота в чат

# -*- coding: utf-8 -*-
from __future__ import unicode_literals

import json
import threading  # for async executing tasks with VK API
import vk  # vk is library from VK

from django.views.decorators.csrf import csrf_exempt
from django.shortcuts import render
from django.http import HttpResponse

from bot_config import *  # import token, confirmation_token and over constants from bot_config.py
from bot_methods import get_bot_answer


@csrf_exempt  # exempt index() function from built-in Django protection
def index(request):  # requested url
    if (request.method == "POST"):
        data = json.loads(request.body)  # take POST request from auto-generated variable <request.body> in json format
        if (data['secret'] == secret_key):  # if json request contain secret key and it's equal my secret key
            if (data['type'] == 'confirmation'):  # if VK server request confirmation
                """
                For confirmation my server (webhook) it must return
                confirmation token, which issuing in administration web-panel
                your public group in vk.com.
                Using <content_type="text/plain"> in HttpResponse function allows you
                response only plain text, without any format symbols.
                Parameter <status=200> response to VK server as VK want.
                """
                # confirmation_token from bot_config.py
                return HttpResponse(confirmation_token, 
                                    content_type="text/plain", 
                                    status=200)
            if (data['type'] == 'message_new'):  # if VK server send a message
                # t - is new thread to async execute answer_to_message()
                t = threading.Thread(target=_answer_to_message, args=(data,))
                t.start()
                return HttpResponse('ok', content_type="text/plain", status=200)
    else:
        return HttpResponse('see you :)')

# send anser to user message
def _answer_to_message(data):
    session = vk.Session()
    api = vk.API(session, v=5.5)
    user_id = data['object']['user_id']
    user_message = data['object']['body']
    # get bot answer
    answer = get_bot_answer(user_id, user_message)
    # token from bot_config.py
    api.messages.send(access_token = token, user_id = str(user_id), message = answer)

О том как устроена структура файлов приложения, его настройка описывал в подробностях в отдельной статье на Хабре.

Успехов!

Уверен, что для решения изложенной задачи существуют более элегантные решения и подходы. Несмотря на это надеюсь что изложенный материал найдёт своего читателя и будет полезен как в целом, так и в каких-то аспектах.
Желаю всем интересных проектов и успехов в их реализации!