Бесплатное распознавание речи для всех желающих
После относительно недавнего релиза мы сделали наше распознавание речи бесплатным для всех индивидуальных пользователей на страничке по адресу — https://audio-v-text.silero.ai/.
Да, вы не ослышались. Это не шутка, не очередная кампания по продаже "шпионских" гаджетов, не альтруизм и не обман:
- Да, сервис сделан для простых людей, и там есть разумные ограничения на объем, перепродавать не получится (а если у кого-то получится, то нам придется или закрутить все сильнее, или закрыть сервис).
- Да, мы предприняли разумные меры, чтобы сделать все безопасным как для нас, так и для пользователей.
- Да, этот сервис будет бесплатным.
- Да, мы полностью независимы и никак не аффилированы с теми самыми компаниями (если вы понимаете, о чем я).
Как Пользоваться
Инструкция простая до банальности:
- зайти на страничку,
- опционально попробовать демку с микрофоном,
- залить свой файл в формочку,
- получить распозанный файл на email.
По идее должно работать во всех основных браузерах. Рекомендуется заходить с ноутбука или десктопа, но и со смартфона в принципе тоже должно работать.
Не лишним будет упомянуть: правильно указывая, из какого домена (какого типа) ваше аудио, вы поможете повысить качество распознавания вашего аудио.
Идея Сервиса
Если сейчас обычному физическому лицу нужно что-то транскрибировать, то на рынке есть опции:
- Есть решения, требующие регистрации, оплаты, создания личного кабинета.
- Есть ограниченное количество корпоративных решений, которые, по очевидным причинам, тоже не закрывают этот случай.
- Есть большое количество ML репозиториев, устаревших решений или поделок народных "умельцев". Но "обычный" пользователь вряд ли может ими воспользоваться.
Резюмируя: нет качественных решений для "маленьких"/одноразовых случаев использования (без геморроя и высокого порога входа). Мы решили это исправить. Будем признательны за вашу конструктивную обратную связь.
Текущие Ограничения
У сервиса в текущем виде есть ряд ограничений, часть которых решается технологически, а часть только процессуально:
- Хотя мы можем разделять заранее известное количество говорящих, это не вошло в MVP сервиса.
- Многоканальное аудио в MVP не разделяется и обрабатывается после усреднения каналов.
- Наличие большого количества жаргона, англицизмов или очень редкой уникальной лексики негативно влияет на распознавание. Конечно это решается, но скорее уже в рамках отдельного проекта или с помощью ручной пост-обработки.
- Чем лучше качество исходного аудио, тем лучше качество транскрибации.
- На данный момент пунктуация и заглавные буквы автоматически в сервисе не проставляются, хотя мы в это умеем.
- Для некоторых случаев, даже при хорошем качестве аудио и с учетом автоматической простановки знаков препинания, нужна пост-обработка людьми. Мы пока не предлагаем такой сервис.
Безопасность и Использование Данных
Мы используем лучшие из доступных нам инструментов. Мы шифруем трафик и данные. Мы блокируем ботов и пресекаем нецелевое использование.
Для любителей разоблачений и теорий заговора: основной целью сервиса является улучшение качества распознавания в конкретных доменах с использованием данных пользователей. По этой причине просим всех пользователей прочитать оферту и убедиться, что все посылаемые данные не содержат чувствительной или запрещенной информации. Мы не будем публиковать или делиться этими данными с третьими сторонами, но, естественно, подходите к своим и чужим данным ответственно и используйте сервис на свой страх и риск.
Комментарии (23)
snakers4
05.11.2021 17:00+4Тут я бы хотел добавить буквально пару вещей.
Будущее этого сервиса целиком и полностью зависит от публики. Если сервис будет полезен, люди будут пользоваться, делиться своим опытом и помогать с какими-то ошибками и краевыми случаями — мы будем поддерживать бесплатный сервис и развивать его. Например на уровне исследований функции простановки знаков препинания, диаризации и определения числа спикеров уже решены.
Ну и да, все стремительно развивается, ссылка в начале статьи немного устарела, вот актуальная.
putnik
05.11.2021 17:35+6Вы правда большие молодцы. Только вот если нужна приватность, то никакие заверения о неиспользовании данных не помогут, и тут вы мало отличаетесь от более крупных коллег. Но для чего-нибудь вроде расшифровки лекций студентами вполне может подойти.
snakers4
05.11.2021 17:41+4По этой причине мы пишем прямым текстом:
Для любителей разоблачений и теорий заговора: основной целью сервиса является улучшение качества распознавания в конкретных доменах с использованием данных пользователей. По этой причине просим всех пользователей прочитать оферту и убедиться, что все посылаемые данные не содержат чувствительной или запрещенной информации.
Если вы хотите приватность — всегда можно купить коммерческое on-premise решение.
prefrontalCortex
05.11.2021 17:39+2В ответ за загрузку файла вида REC018.MP3 веб-страничка сообщает, что
file must be one of wav, opus, ogg, mp3, m4a, aac, aiff, x-aiff, flac!
Mingun
05.11.2021 19:09+3А почему такое странное решение — отправлять расшифровку на почту? Почему не показывать сразу на странице/формировать ссылку на скачивание файла с расшифровкой?
snakers4
05.11.2021 19:22+9Естественно мы когда думали как сделать проще, сделали максимально просто без ущерба своим интересам. В текущих реалиях оно показалось нам единственно возможным.
Использование почты тут вынужденная техническая и организационная мера:
-
Поскольку сервис бесплатный, он не должен в случае наплыва юзеров положить наши сервера. Мы не Сбербанк и не дети олигархов. Если много юзеров пошлет файлы, они просто будут обрабатываться в N очередей, где мы сами управляем этим N. Сейчас N = 1, например;
-
Технически, наш продукт достаточно быстрый, чтобы обрабатывать длинные файлы (часовой длины) почти синхронно для юзера (за десятки секунд), но правило 7 секунд гласит, что нам тогда придется инвестировать какие-то космические деньги в кластера серверов, которые будут 99% простаивать. И что произойдет, если придет 10 юзеров одновременно? Опять мы приходим к тому, что мы не Сбербанк;
-
Нужен какой-то контакт для связи и отправки "коллбека" пользователю. Регистрация и оплата нам не нужны, телефон + СМС наверное слишком сложно и жирно, во всякие SberID или ID госуслуг для такой задачи — людей скорее отпугнет. Вот скажите, какой асинхронный канал связи, которая есть абсолютно у всех пользователей интернета, вообще подходит кроме почты?;
-
Использовать телегу мы думали, но там уже хайп подсобран немного, да и там в последнее время какая-то волна порно-спам ботов. Вероятно телега не справляется с модерацией регистрации пользователей при росте в 10 раз. А веб + "медленная" почта дают нам инструменты для предотвращения ддоса. Вообще судьба этого инструмента целиком и полностью в руках пользователей — если их будет много и он будет полезен, там есть прямые контакты, мы можем со временем прикрутить другие фронтенды;
-
johnfound
05.11.2021 21:13А вообще, в виде библиотеки нельзя скачать? Чтобы офлайн побаловаться, так сказать?
AigizK
06.11.2021 03:44+3О, прикольно. А я как раз на базе вашего stt для английского для себя распознавалку пытаюсь делать. У меня проблема с распознаванием речи, идея была запустить на браузере, и там чтоб распознавание происходило в реальном времени, пусть даже с ошибками, а я буду подглядывать туда, когда сам не распознал. Сперва думал что для английского будет много решений и буду выбирать из них, а по факту из оффлайн вариантов есть ваше и от vosk. По качеству ваш не уступает особо Гуглу, по скорости естественно превышает.
Из минусов:
VAD не особо помогает. В моем случае браузер раз в секунду буфер на сервер отправляет. И желательно быстрее показывать распознанные слова. Сперва думал, что через vad буду получать законченный кусочек и его буду распознавать. Но на деле куски получились очень длинными, а разбивать по словам не получилось.
Беру куски аудио с 1 по 5 секунды, получаю текст, далее беру куски 2-6 получаю новый текст. Несмотря на то, что есть общие куски, часто распознанные слова не совпадают. Прямо не хватает выдачи инфы типа, такое то слово звучало с такой то по такой секунде. Чтоб мержить эти два предложения правильно.
Расстановка знаков препинаний хорошо, но для начала надо найти начало и конец предложения. Без них решение все таки как будто не законченное.
Если в общем рассматривать, то диаризация нужна. Конкретно в моем случае, я пока обхожусь без этого.
Salavat
06.11.2021 13:46Вырезать речь из песни с помощью www.lalal.ai (крутой сервис). Отправить голосовой файл вам и на выходе текст песни)
UPD. Беру слова обратно - ужасно вышел текст по чистому вокалу без музыки.Mingun
06.11.2021 15:55То есть, с музыкой вышел лучше?
snakers4
06.11.2021 16:11+1Тут вы сразу два edge кейса сковырнули:
- Собственно речь в рэпе и музыке (в рэпе мы что-то даже тренировали, но там все плохо, естественно);
- Поведение двух ничего не знающих друг о друга алгоритмах;
Сочетание этих вещей может давать непредсказуемый результат.
iShrimp
06.11.2021 18:06+2Нужна возможность ввести свой (правильный) ответ.
У пользователей появится возможность помочь проекту, т.к. собираемые данные могут использоваться для дообучения сети (пусть даже они будут не на 100% валидными, а хотя бы наполовину).
snakers4
06.11.2021 18:53+1Это безусловно хорошая идея, но люди не парятся даже указывать тип аудио. Странно будет ожидать, что они бесплатно бросятся размечать, это внезапно кропотливая работа.
AigizK
07.11.2021 12:09+1если вы будете доучивать, чтоб речь этого пользователя система понимала лучше, то почему бы и нет?
mmaks17
будет ли доступно по апи ? для wh или tg бота очень бы пригодилось
snakers4
Этот сервис построен на АПИ нашего коммерческого сервиса для распознавания аудио. Нам стоило определенных нецелевых усилий (у нас нет команды фронтенд разработки) сделать распознавание доступным для публики, но при этом безопасным для нас образом (например как минимум чтобы нагрузка распределялась и не создавала для нас проблем).
По очевидным причинам, бесплатно раздавать безлимитные АПИ ключи мы не можем — у нас просто нет столько ресурсов.
putnik
Я не знаю, что по коммерческим ценам у Silero, но у Яндекса и VK ценник на API вполне приемлемый. За 15-секундные отрывки они берут 0,12-0,15 рублей, за часовые 30-36 рублей. Так что если вы не планируете бесплатный сервис для всех вокруг, то платное API вполне доступный вариант.
snakers4
Это весьма относительный и отчасти философский вопрос. Если нужно 100 запросов в месяц — то действительно (более того, что ради 100 запросов тот же Google дает пробный лимит).
Все почему-то редко упоминают, что тот же яндекс округляет до 15с вверх.
И если просчитать какой-то проект по автоматизации, на ценах яндекса или гугла зачастую выгоднее просто нанять операторов. На масштабах цены и риски уже являются запретительными.
Ну и отдельный вопрос — обычно коммерческие компании, уважающие своих пользователей, не хотят сливать свой трафик и данные в экосистемы, потому что это приводит долгосрочно к понятно каким последствиям.
По ряду причин мы не поддерживаем розничное АПИ — нам кажется тут не особо есть прямо рынок. Но получается, что обычные люди должны пользоваться услугами перекупов (есть много "удобных" сервисов перепродающих АПИ с накруткой в 10 раз).
За меня этот вопрос, к сожалению, уже решили в 1991 году, не спросив моего мнения.
funnybanana
Я для tg бота использовал wit.ai, ещё на том этапе когда они тренили свой движок распознавания речи. Но даже тогда русский очень неплохо распознавался. Из плюсов - цена (бесплатно), из минусов - не поддерживаются длинные фразы. У меня был бот который в телеге аудиосообщения в текст переводил, ну и дома я управляю некоторыми девайсами с помощью этого сервиса (собственно для этого он и задумывался)
snakers4
C wit.ai мы игрались тоже на заре погружения в речевые технологии.
Плюсы
Минусы
Ну то есть реально для проектов, где на кону деловая репутация или бизнес использовать нельзя.