В этой статье мы, команда Amvera Speech, расскажем, как сделали первое действительно бесплатное облачное распознавание речи и как им воспользоваться.

Разработчики систем распознавания речи, как правило, используют поминутную тарификацию распознавания. В одной из прошлых статей я уточнял, почему считаю это далеко не всегда правильным (если кратко, то при такой тарификации вендоры округляют длительность в большую сторону, а значит, за распознавание коротких записей вы заметно переплачиваете, а при большом трафике это просто очень дорого).  

Давайте теперь разберемся, действительно ли для вендоров экономически оправданно брать деньги с хобби-проектов и небольших компаний, которым нужно распознавать не миллионы, а всего лишь десятки или сотни минут в день.

По грубым оценкам нашей компании (Amvera Speech – разработчик собственной системы распознавания) в России за год появляется около 200-300 хобби-проектов и стартапов, которым нужно распознавать от 10 до 300 минут речи в день. При этом среднее значение составляет буквально 50 минут. Часть этих проектов используют open-source сервисы. Но ASR open-source решения для русской спонтанной речи, особенно зашумленной, часто дают крайне низкое качество. 

Весь рынок облачного распознавания для хобби-проектов и стартапов составляет чуть более 5 млн. минут речи или, по расценкам облачного распознавания Яндекса, – чуть более 3 млн. руб. Иными словами, этого рынка просто нет. Однако такие компании, как Яндекс, ЦРТ, Тинькофф (есть, правда, и пара компаний-исключений, например, VK, с совсем небольшими бесплатными лимитами и возможность использовать небольшие стартовые кредиты) просят платить "с первой минуты" распознавания. Серверные мощности на таких объемах почти ничего не стоят, однако крупные вендоры все равно берут деньги с микро-бизнеса и хобби-проектов. 

Мы решили исправить ситуацию и сделать распознавание речи Amvera Speech для хобби-проектов и стартапов бесплатным! 

Так как наша цель - сделать распознавание бесплатным именно для хобби-проектов, а не для банков и операторов связи, то есть и несколько ограничений.

  1. Сейчас доступно 10 потоков (vCPU) на всех. Это примерно 500 000 бесплатных минут в месяц. При высокой загрузке будет действовать лимит, где бесплатно можно распознавать до 300 минут в день и до 5000 минут в месяц на пользователя.

  1. На инициативу мы выделили не самый мощный сервер. Поэтому, возможно, придется подождать, пока очередь дойдет до ваших файлов, если много пользователей одновременно грузят аудиодорожки. 

Теперь, если вам нужно распознавать речь, вы можете воспользоваться облаком Amvera Speech бесплатно следующим образом.

  1. Воспользоваться доступом и документацией и API по ссылке.  

  2. Отправить аудиозаписи и дождаться ответа по WebHook c распознанным текстом.

  3. Чуть позже мы сделаем функционал получения персональных токенов через нашего телеграм-бота.

  4. Если совсем не приходит ответ, что-то сломалось или есть вопросы, пишите мне на почту kkosolapov@amvera.ru (Кирилл Косолапов). 

А быстро протестировать качество распознавания речи Amvera Speech можно, отправив голосовое сообщение или короткий аудиофайл (до пары минут) нашему телеграм-боту@AmVeraSpeechBot.

Комментарии (5)


  1. alexsibtone
    00.00.0000 00:00
    +2

    Эпичненько (amvera.ru).

    image


    1. Amvera_Speech Автор
      00.00.0000 00:00
      +1

      Распознавание речи это другой проект, там все работает.

      О чем вы пишете, это другой наш проект - контейнерное облако. С ним и правда технические проблемы - пришло много пользователей (больше чем мы ожидали) во время бесплатного бета-теста и инфраструктура оказалась неготова - сейчас переделываем/переписываем. Мы стараемся с пользователями открыто и честно работать. И если в облаке техническая проблема, проще закрыть регистрацию на бета-тест для новых пользователей пока все не починим. Плюс мы когда откроем регистрацию - биллинг будет отключен на время всего бета-теста.


  1. puncher
    00.00.0000 00:00
    +2

    А в реальном времени может?


    1. Amvera_Speech Автор
      00.00.0000 00:00

      Может, но не в бесплатной версии. Для этого нам нужно с другими параметрами сервер поднять, чтобы потоком принимало на вход. В бесплатной не стали делать, так как количество vCPU(потоков) ограничено, и если кто-то начнет потоками подавать, остальные не смогут ничего загрузить, и нужно ждать когда процессор освободится. Да и разграничить доступ к результатам по webhook проще, когда один сервер на много пользователей.


      1. puncher
        00.00.0000 00:00

        есть потенциальны заказчик - среднего размера - но нужны тесты в реальном врремени. Первая задача - в реальном времени по сигналлу определять есть ли голос живого человека в сигнале или нет. Задержка в принятии решения желательно - 2-3-5 сек (телефония). В конечном итоге это должен быть "плугин" для Инфинити и/или Генезиса, причем конечно лучше встроеного из "коробки" детектора голоса. Сейчас в условиях помех и шумов много неправильных срабатывани. Возможно предоставление базы ообучающиих сигналов с ручной разметкой правильности.