Обычно Google translate используют для перевода речи транслируемой микрофоном.


Но в один момент, автору потребовалось перевести подкаст Медузы в текст.


Идея лежала на поверхности и наверняка программы для этого должны были присутствовать. Так -же как сделано в Gogle translate.


Но, гуглением, программы не нашлось, кроме двух сайтов. Которые использовали по уверениям их авторов всю мощь искусственного интеллекта Google.


Первый нашелся русскоязычный сайт https://speechpad.ru/blog/windows-integration/



Но, как бы не было обидно, магия не сработала...


Был найден англоязычный сайт: https://speechlogger.appspot.com/ru/

Результат — тот же. Но, было в отличие от предыдущего — объяснение.


Там было показано, как реализовать, казалось бы, простую идею: пустить в качестве сигнала микрофона — аудио файл.


Для этого необходим драйвер VB-CABLE Virtual Audio Device Он OpenSourse.


Искренняя благодарность "прогнившим западным" альтруистам!


Устанавливаем (проверено под Win 10) и настраиваем микрофонный вход в системе, на этот драйвер.


Открываем Gogle translate, нажимаем кнопочку с изображением микрофона и запускаем любой плейер с аудио — файлом.


И — Вааля! Магия работает, на ваших глазах появляются строки текста.



Точность распознавания, на глаз 85-97 %. Но, есть ограничение — 5 тыс. символов, что немало. Поэтому приходиться останавливать запись, копировать текст и продолжать далее.


Заодно происходит перевод на второй выбранный язык. О боже, сколько странных переводов появится!


Дополнение: есть способ без ограничений на количество символов. — это Google Docs, он так-же работает но, только без перевода на второй язык. Спасибо dioneo


Как мне кажется, Google блокирует постоянные подключения с одних IP. Поэтому ценность этого способа — в том, что все IP не заблокируешь и соответственно, этот способ более работоспособен. Тут уже слово разработчикам и большим "гуру", чем автор.


Всем добра и удобства.

Комментарии (28)


  1. dioneo
    20.05.2018 21:49

    В Google Docs нет такого ограничения. (Инструменты — Голосовой ввод)


    1. dioneo
      20.05.2018 21:59
      +1

      Там правда браузер должен быть всегда в фокусе, иначе голосовой ввод отключается.


      1. roverseti Автор
        20.05.2018 22:59

        Да! Спасибо это ценно .


  1. pi-null-mezon
    20.05.2018 22:54

    Ха! Уже давно есть web speech API от того же Googl-а. Попробуйте его: jsfiddle.net/pi_null_mezon/ko66g88x


    1. Stan_1
      21.05.2018 08:06
      +1

      Да не работает этот API нормально. В свое время прикрутил Web Speech API для распознавания записей Call-центра, чтобы можно было анализировать качество ответов операторов без прослушивания каждой записи. Думали, прочитаем расшифровку разговора, и поймем: есть ли косяки и нужно ли переслушивать уже детально. Но качество таково, что понять даже смысл разговора не получается. Выглядит расшифровка воn так (звездочками заменил все персданные, и это — прям реальный разговор вчерашнего дня). Текст сохранен именно в такой форме, как он возвращается из API. Разбивку на фразы — тоже делает Google, точнее — пытается.

      • Здравствуйте Вы позвонили в интернет магазин **** Меня зовут Юрий нас не могу вам помочь Я хотела спросить Просто я сделал заказ и Перенесли доставку Они снимают доставление можно как-то проверить на пункт самовывоза могу я заехать забрать или его ещё ко мне скажите пожалуйста как я поняла вы пункт самовывоза заказов потом позвонили сказали что у меня больше не фармации какой-нибудь полмесяца ночь не успевая и поехала к животному значит Скажи погоду на Лукина 1 с
      • слушать прямо на дракончика когда посмотри уродина ***** ****** до 1 1 ЛСР
      • Светлана 1 с
      • хорошо есть возможность заказа тошнить
      • Мутко
      • Скажи пожалуйста относительно вашего заказа Вам пришло сообщение о том что она Он поступил в комп самовывоза это название он ничего не пришло хорошо договоримся доставки На какой день было ** ** да да
      • прошу минуту пожалуйста оставайтесь на линии 2 связаться с руководителем уточнить формат исполком заказа
      • да да да да да ты поняла запрос сейчас позвонить в детскую службу узнаю по поводу наличие перезвоню когда вам хорошо спасибо пожалуйста


      Ну и что из этого можно понять? :) Список «плюс»-слов естественно сформирован и передается в Web Speech API, но совершенно не помагает.


      1. ainoneko
        21.05.2018 08:33

        Ну и что из этого можно понять?
        «что у меня больше не фармации» — «что у меня больше нет информации»
        «заказа тошнить» — «заказ уточнить»
        «комп самовывоза » — «пункт самовывоза»
        ?


        1. Stan_1
          21.05.2018 08:49

          Это частности. А вот суть разговора можете понять? О чем это? Попробуйте выдвинуть гипотезу, я потом расскажу правду. :)

          Ну и плюс — конечно, догадаться о каждой фразе можно. Вопрос только что быстрее: пытаться в голове декодировать этот текст, или потратить 3:23 на прослушивание записи? Ведь задача была быстрее, чем при прослушивании, понимать, насколько корректно оператор Call-центра отрабатывает скрипт.


        1. Wolframium13
          21.05.2018 09:12

          А про дракончика и уродину?


      1. plm
        21.05.2018 08:55

        Видать, в телефонном канале для экономии режутся звуковые частоты, на которые заточенный на компьютерный микрофон алгоритм во многом полагается. Наверно, можно поэкспериментировать, но практической пользы мало — не будешь же все аудио обрабатывать.


  1. roverseti Автор
    20.05.2018 22:56

    Тут речь идет о том как аудио файл с речью преобразовать в текст.


  1. Ca5per
    20.05.2018 23:54

    Со звуковыми картами Realtek устанавливать драйвер не нужно, достаточно включить «Стерео микшер» в приложении «Звук», в разделе «Запись».


  1. theWRM
    20.05.2018 23:58

    Здесь уже был вариант, но только для английской речи geektimes.com/company/audiomania/blog/297993. Ну и ето будет стоить денег ~7 центов за минуту.


  1. ThunderCat
    21.05.2018 02:01

    как вариант — залить в ютуб как видео и включить автоматические субтитры.
    UPD: теперь субтитры скопировать как текст нельзя(или сложнее чем раньше), раньше была возможность скопировать их как текст


    1. plm
      21.05.2018 08:58

      youtube-dl во встроенной справке заявляет, что может записывать файлы субтитров, в т.ч. автогенерированных.


      1. dkv
        21.05.2018 20:41

        Не только заявляет, но и эта фича реально работает. Сабы могут как встраиваться в файл, так и ложиться рядом. Например, команда --skip-download --sub-format vtt --write-sub скачает только субтитры в формате vtt


  1. Tagat
    21.05.2018 13:45

    Очень интересно, как можно переводить звуковую речь в текст.

    Я переводчик и мне нужно переводить субтитры для видео на YouTube. Так как владелец оригинального видео не даёт мне субтитры автоматом (по разным причинам), пока у меня порядок работы такой:
    1. Скачать видео.
    2. Залить на свой аккаунт как Unlisted.
    3. Подождать пока YouTube сгенерирует автоматические субтитры на выбранном языке.
    4. Перевести файл субтитров.
    5. Отдать владельцу оригинального видео переведенный файл.

    Когда-то искал программку для распознавания речи в скачанном файле видео на моём компе, но так и не нашёл.

    Спасибо за информацию про речевой ввод в GoogleDocs. Пригодится в других аспектах моей работы.


    1. roverseti Автор
      21.05.2018 18:14

      Всегда пожалуйста. :)


    1. roverseti Автор
      21.05.2018 18:16

      Да! Без разницы откуда брать аудио сигнал с речью. Главное, чтобы он был по возможности чистым, без побочных звуков и широкополосным. ( Не сжатым)


    1. dkv
      21.05.2018 20:42

      Можете просто скачать субтитры с оригинального видео с помощью youtube-dl, пример командной строки приведён выше.


  1. Evengard
    21.05.2018 14:33

    Вы пишете что VB-Cable OpenSource — но я честно говоря нигде не нашёл упоминаний об этом. Где же исходники?


    1. roverseti Автор
      21.05.2018 19:59

      Главное, что он бесплатен.
      "Установите драйвер VB-CABLE (Donationware)
      Virtual Audio MME, DX, KS, драйвер устройства WDM (от XP до WIN10 32/64 бит)
      VBCABLE_Driver_Pack43.zip (1.09 MB — OCT 2015) Нажмите здесь, чтобы загрузить с альтернативного веб-сайта. УСТАНОВКА: Извлеките все файлы из ZIP и запустите программу установки в режиме администратора (перезагрузитесь после установки или деинсталляции). Если вы нашли VB-CABLE полезным, вы можете пожертвовать и получить два других виртуальных аудиоустройств: VB-CABLE A + B. "


      1. Evengard
        22.05.2018 00:58

        Для кого-то важно и именно чтобы было OpenSource.

        Из опыта — данный конкретный вариант виртуального кабеля действительно один из лучших, но иногда странно багует.


  1. RinonNinqueon
    21.05.2018 18:06

    Давно уже использую гугл переводчик, как распознаватель речи. Часто требуется в переводах, если не могу разобрать, что говорят.


  1. ExConfessor
    21.05.2018 18:06

    Результат — тот же. Но, было в отличие от предыдущего — объяснение.

    На speechpad'e в меню сайта есть пункт «Видео-уроки», в котором, в том числе, и про виртуальный кабель рассказано.


    1. roverseti Автор
      21.05.2018 18:07

      Интересно только одно, почему драйвер платный? Тут описан способ как это делать бесплатно. lifehack. Кстати speechpad'e я попробовал воспользоваться в демо версии но, ничего не вышло. Подскажите почему? Может не заплатил ?


      1. ExConfessor
        21.05.2018 19:14

        Интересно только одно, почему драйвер платный?
        Не понимаю вопроса. И у вас в статье, и в видео-уроке на speechpad'e есть ссылка на бесплатный драйвер.
        Кстати speechpad'e я попробовал воспользоваться в демо версии но, ничего не вышло.
        Может галки какие-то не поставили, или язык не тот выбран; у меня работает более чем нормально. Попробуйте разработчику написать, он вроде откликается — по крайней мере, по поводу мобильного приложения мы с ним переписывались немного. Я сам лишь месяц-два назад на этот сайт наткнулся.


        1. roverseti Автор
          21.05.2018 20:00

          Спасибо. Уже не надо. ;)


  1. DVF
    22.05.2018 11:52

    Я просто включаю Гугл Докс и кладу диктофон на микрофон.