Голосовой ассистент Виталий (школьный проект) / forpes.ru

Главная
Голосовой ассистент Виталий (школьный проект)

Голосовой ассистент Виталий (школьный проект) +10

26.03.2021 11:21

sdrom 13 2100 Источник

Предостережение

Данный пост создан исключительно для получения отзывов у специалистов, поэтому смело минусуйте его, дабы не засорять ленту школьными проектами.

Также не советую использовать пост как гайд, так как я сам учусь и собираю отзывы и советы от знающих людей.

Введение

Меня зовут Глеб (8 кл) и я задался целью сделать хорошую открывалку/закрывалку и немного говорилку для windows, в ообщем голосового ассистента на python.

На момент написания поста ассистент имеет версию alfa 4.0 и Не позиционирует себя как серьезный продукт или, не дай бог, конкурента Алисе или Siri.

Для ассистента был по-быстрому накидан сайт, где можно скачать exe или исходник на питоне, который вероятно вам и интересен. Гитхаб тоже в наличии.

Код

Так как я уже прикреплял гитхаб, предлагаю сакцентировать внимание на интересных, спорных или непонятных для меня моментах.

Распознавание речи

Для работы разпознавалки я выбрал speech recognition и в итоге был реализован такой код(сборная солянка из видеоуроков):

import speech_recognition as sr

#кортеж с предлжениями, каждую итерацию цикла ассистент дает рандомное предложение (Скажите что-нибудь например "открой браузер")
recomend = ("Открой браузер", "Найди в интернете стихи А. Пушкина.", "Как дела?", "Что ты умеешь?", "Запомни код от домофона 495 544.", "Найди на ютубе котиков.")

#распознование (и не просите, в функцию не добавлю так, как оно все-равно нужно только раз за итерацию цикла)
    rec1 = len(recomend) - 1
    rec2 = recomend[random.randint(0, rec1)]
    print('-------------------')
    r = sr.Recognizer()
    with sr.Microphone() as source:
	    print("Скажите что нибудь, например:", rec2)
	    r.pause_threshold = 1
	    #r.adjust_for_ambient_noise(source, duration=1)
	    audio = r.listen(source)
    try:
	    #разпознаное сохраняется в переменную an (answer)
      an = r.recognize_google(audio, language="ru-RU").lower()
	    print("Вы сказали: " + an)
    except sr.UnknownValueError:
        t = "Я вас не слышу, говорите громче!"
        print("Сбой системы распознования речи. ")

Очень прошу в комментарии покидать более качественные аналоги speech recognition.

Синтез речи

Для синтеза речи я выбрал голос vokolizer, а также библиотеку pyttsx3. В коде это выглядит так:

import pyttsx3

#Настройка голоса, индекс голоса читаем из файла.
f = open("tts.txt", "r")
tts1 = int(f.read(1))
f.close()
text = ""
tts = pyttsx3.init()
speak_engine = pyttsx3.init()
voices = speak_engine.getProperty('voices')
speak_engine.setProperty('voice', voices[tts1].id)
#функция синтезы речи
def run():
    tts.say(t)
    tts.runAndWait()
    print("Виталий:", t)
    
#пример запроса
t = "Привет мир"
run()

Подбор фраз для красивого SMALLTALK

Тут я решил сделать возможность быстрого изменения фраз, поэтому сделал такой алгоритм:

import os

#читаем файл smalltalk и делаем 2 списка: 1 - с ключевыми словами, 2 - с ответами ассистента
f = open("smalltalk.txt", "r", encoding="utf-8")
smalltalkdialog = f.read()

asksmalltalk = smalltalkdialog[len("вопросы: "):smalltalkdialog.find(" | [конецстроки1]")].split(" | ")

answersmalltalk = smalltalkdialog[smalltalkdialog.find("ответы: ") + len("ответы: "):smalltalkdialog.find(" | [конецстроки2]")].split(" | ")

#подбор нужной фразы
for word in range(len(asksmalltalk)):
    if asksmalltalk[word] in an:
        t = answersmalltalk[word]
        run()
        break

Тут тоже нужен ваш совет: подскажите пожалуйста более эфективный способ искать фразы.

К Dialog Flove у меня неприязнь. Личная.

Открытие программ, сайтов и поиск в интернете

import webbrowser
#переменная error сообщает о том, нашла-ли программа ответ на фразу пользователя, если да, то error = 0
while условный True:
    #поиск
    elif "найди" in an:
        error = 0
        if "в интернете" in an:
            t = "Начинаю поиск в интернете" + an[an.find("ете")+3:]
            run()
            sear = an[an.find("ете")+3:]
            webbrowser.open("https://www.google.com/search?q=" + sear)

        elif "youtube" in an:
            sear = an[an.find("be")+2:]
            t = "Начинаю поиск в ютубе " + sear
            run()
            webbrowser.open("https://www.youtube.com/results?search_query=" + sear)

        else:
            t = "Вы дали мало данных, скажите найди в интернете, либо найди в ютубе и ваш вопрос."
            run()
        continue
    #функция на закрытие Тут мы берем 2 кортежа, в кортеже "listprogram" у нас ключевые слова, а в "listprogram2" команды.
    elif "закрой" in an:
        listprogram = ("steam", "skype", "браузер")
        listprogram2 = ("TASKKILL /IM steam.exe", "TASKKILL /IM skype.exe", "TASKKILL /IM chrome.exe")
        for net in range(len(listprogram)):
            if listprogram[net] in an:
                program = listprogram2[net]
                os.system(program)
                os.system('cls' if os.name == 'nt' else 'clear')
                t = "Закрываю " + listprogram[net] 
                run()
                error = 0
        continue

    #синтезатор речи
    elif "текст" in an:
        error = 0
        t = "Вставьте сюда текст, который надо синтезировать. в конце текста напишите команду стопсинтез"
        run()
        t = ""
        while True:
            t = t + " " + str(input("Вставьте сюда текст > "))
            if "стопсинтез" in t:
                break
                t = t[:t.find("стопсинтез")]
        run()
         

    #интернет Тут мы берем 2 кортежа, в кортеже "fordefweb" у нас ключевые слова, а в "fordefweb" ссылки.
    fordefweb = ("youtube", "вконтакте", "браузер", "google", "новости", "окко", "хабр", "facebook", "wifmedia", "свой сайт")
    fordefweb2 = ("https://www.youtube.com/", "https:/vk.com", "https://www.google.ru/", "https://www.google.ru/", "https://lenta.ru/", "https://okko.tv/", "https://habr.com/ru/feed/", "https://www.facebook.com/", "https://wifmedia.com/", "http://vitaliy.renderforestsites.com")
    for net in range(len(fordefweb)):
        if fordefweb[net] in an:
            web = fordefweb2[net]
            runweb()
            error = 0


    #программы Тут мы берем 2 кортежа, в кортеже "listprogram" у нас ключевые слова, а в "listprogram2" команды.
    listprogram = ("проводник", "skype")
    listprogram2 = ("explorer.exe", "start skype.exe")
    for net in range(len(listprogram)):
        if listprogram[net] in an:
            program = listprogram2[net]
            os.system(program)
            t = "Открываю " + listprogram[net] 
            run()
            error = 0

Опять же не могу найти ничего действеннее elif, но в этой версии и хотя бы меньше.

Остальное

Напоследок хочу похвастаться возможностью ассистента запоминать имя пользователя и хранить заметки, эти функции можно найти в полном коде проекта на гитхаб.

Материалы

САЙТ (просто дешевая одностраничка на renderforest)

ГИТХАБ

демонстрационный ролик

Только зарегистрированные пользователи могут участвовать в опросе. Войдите, пожалуйста.

Что лучше?

21,4%Speech recognition3
0,0%PSGR0
35,7%Yandex speech kit (жалько денежек на него тратить)5
28,6%Vosk4
14,3%Свой вариант в комментариях2

Комментарии (13)

hack3r
26.03.2021 16:14
#22851770
не хочу показаться токсиком, но на хабре много статей по голосовым ассистентам как хороших, так и плохих
еще там есть как минимум один подобный пост, когда школьник выложил свой вариант помощника, не смогу найти уже статью, к сожалению, так вот там было большое количество агрессивных (но по делу) комментариев
надеюсь с их наплывом у тебя не пропадет желание заниматься чем-то подобным :)
1. sdrom Автор
  26.03.2021 16:21
  #22851798
  Но зато я поменял способ подбора фраз для smalltalk и оптимизировал код, сократив количество строк и elif`ов. Меня совершенно не оскорбляет рейтинг или агресивность комментария, мне очень важно получить feedback от знающих и практикующих специалистов.
  Кроме того я еще раз подчеркну, что с наплывом отрицательных комментариев желание делать проект у меня не пропало, сравните этот пост и ту версию, которую я публиковал ранее.
  1. hack3r
    26.03.2021 16:30
    #22851854
    а вот и тот самый пост :))
    оптимизация это хорошо, но если писать пост о каждых изменениях в альфе, тут будет слишком много мусора и такого вот
    
    кстати об изменениях: все еще есть ехе-шник, говорили же в прошлый раз о том, что лучше не надо
    (а еще слишком много кнопок скачать я как будто торенты ищу без блокировщика рекламы и нужно угадать где настоящая кнопка)
    
    sdrom Автор
    26.03.2021 16:35
    #22851882
    EXE есть и будет на сайте проекта так как обычный пользователь не будет разбираться с питоном для установки. Исходный код идет в арихве с екзешником и лежит на гитхабе.

IDEU
26.03.2021 16:26
#22851820
Предлагаю расширить функционал вашего ассистента модулями Wikipedia и Pyjokes.
```
joke = pyjokes.get_joke()
info = wikipedia.summary("Google", 1)
```
1. sdrom Автор
  26.03.2021 16:29
  #22851842
  Большое спасибо за отзыв, википедию обязательно привяжу, также думаю сделать возможность через vk api отправлять и читать вслух сообщения пользователя.
  1. hack3r
    26.03.2021 16:33
    #22851866
    когда получишь токен, храни в отдельном файле и не пихай его в код
    
    sdrom Автор
    26.03.2021 16:40
    #22851906
    В принципе это логично, я собираюсь заставить бота парсить некую страницу на моем сайте, где будут коды токенов. Таким образом я смогу быстро менять токен не выпуская новую версию ассистента.

Gryphon88
26.03.2021 16:56
#22852002
Хорошая работа. Я бы посоветовал посмотреть в сторону Firefly и Flashlight для оффлайнового распознавания голоса — это очень, очень неразумная идея полагаться на доступность сети и стороннюю компанию, а также держать постоянную трансляцию для корпораций, славных торговлей рекламой. Вообще простенькую распознавалку можно написать самому: распознавание ограниченного набора слов на одном языке от одного спикера многократно более простая задача, чем распознавание любых слов от любого спикера на несколько языках, которую пытаются решить фейсбук с гуглом.
Для голосовых помощников я бы посоветовал посмотреть как сделано в TalonVoice (сайт, гитхаб), на мой взгляд, это самая удачная попытка голосового управления.
1. sdrom Автор
  26.03.2021 17:17
  #22852130
  Спасибо за отзыв, думаю, что пока не дорос для создания своей разпознавалки, но скорее всего вернусь к этой идее в будущем.

saintbyte
26.03.2021 17:02
#22852050
Да хоть кто нить додумался использовать wake words

JTG
27.03.2021 16:22
#22855074
Кроме того я еще раз подчеркну, что с наплывом отрицательных комментариев желание делать проект у меня не пропало, сравните этот пост и ту версию, которую я публиковал ранее
Хороший и правильный взгяд на вещи :)

— При написании кода придерживаться стандарта PEP8, дабы код оставался читаемым и понятным другим разработчикам, см. pep8.ru/doc/pep8. Для проверки соответствия PEP8 можно использовать pylint, см. www.pylint.org
Сейчас оценка 4/10 :)

> pylint vitaliyalfa4.py ************* Module vitaliyalfa4 vitaliyalfa4.py:6:0: C0301: Line too long (137/100) (line-too-long) ... vitaliyalfa4.py:24:12: C0303: Trailing whitespace (trailing-whitespace) ... vitaliyalfa4.py:136:0: W0311: Bad indentation. Found 5 spaces, expected 8 (bad-indentation) ... vitaliyalfa4.py:23:0: W0611: Unused sounddevice imported as sd (unused-import) vitaliyalfa4.py:24:0: W0611: Unused import pyowm (unused-import) vitaliyalfa4.py:25:0: W0611: Unused import requests (unused-import) vitaliyalfa4.py:17:0: C0411: standard import "import os" should be placed before "import pyttsx3" (wrong-import-order) vitaliyalfa4.py:18:0: C0411: standard import "import time" should be placed before "import pyttsx3" (wrong-import-order) vitaliyalfa4.py:19:0: C0411: standard import "from datetime import datetime" should be placed before "import pyttsx3" (wrong-import-order) vitaliyalfa4.py:21:0: C0411: standard import "import random" should be placed before "import pyttsx3" (wrong-import-order) vitaliyalfa4.py:22:0: C0411: standard import "import webbrowser" should be placed before "import pyttsx3" (wrong-import-order) ----------------------------------- Your code has been rated at 4.09/10
— Для установки сторонних модулей использовтаь pip, а рядом с проектом положить файл requirements.txt, где зависимости зафиксированы, см. pip.pypa.io/en/stable/user_guide/#requirements-files

Сам код конечно всё ещё далёк от идеала, но уже всяко лучше, чем было, и, главное, он работает и выполняет поставленную задачу.

P.S. Ещё под Windows разбираться со всем этим питонячим колхозом может быть неудобно и есть соблазн поставить какую-нибудь Anaconda, где всё делается нажатем пары кнопок, но IMHO, для начала всё же следует уделить внимание изучению базовых инструментов, а затем уже имея понимание как всё работает под капотом, можно пробовать упрощать себе работу.
1. sdrom Автор
  27.03.2021 18:06
  #22855314
  Спасибо за отзыв, вы совершенно правильно подчеркнули, что нужно сделать код более «красивым» и легко-читаемым. Постараюсь это учесть при создании следующей версии, а так проект пока еще находится в статусе alfa и еще не поздно поменять структуру кода. Вообще в ближайшем времени собираюсь менять структуру, а также поменять библиотеку разпознования речи на более качественую.

Голосовой ассистент Виталий (школьный проект) +10

Предостережение

Введение

Код

Распознавание речи

Синтез речи

Подбор фраз для красивого SMALLTALK

Открытие программ, сайтов и поиск в интернете

Остальное

Материалы

Что лучше?

Комментарии (13)

hack3r

sdrom Автор

hack3r

sdrom Автор

IDEU

sdrom Автор

hack3r

sdrom Автор

Gryphon88

sdrom Автор

saintbyte

JTG

sdrom Автор