Наконец-то пришло время обновить наше исследование качества систем распознавания русского языка. Лучше поздно, чем никогда! С момента прошлого исследования утекло много воды … и мы думали, что мы не добежим до обновления, но таки добежали.

По сравнению с предыдущим исследованием изменилось следующее:

  • Мы не стали опрашивать Google;

  • На рынок с распознаванием речи вышли VK и якобы МТС, но нам не удалось продраться через тернии в случае первых и получить ключ с объемами достаточными для исследования, а в случае со вторыми кажется там просто была форма для лидов, на которую и нам просто не ответили;

  • Опять же добавилось много валидационных сетов из разных реальных доменов;

  • Опросы сервисов проводились с октября 2022 года (Яндекс и Тинькофф) по январь 2023 года (Сбер), ниже опишу почему;

  • Пропускную способность сервисов в этот раз не тестировали;

Изменения Методологии

Методология с прошлого раза практически не изменилась. Единственный важный момент - в этот раз мы долго возились с сервисом Сбера (кажется теперь он "под Салютом", там провели какую-то реорганизацию), потому что мы думали, что нам хватит синхронного АПИ, но пришлось откатиться на потоковое из-за отсутствия достаточного числа флагов в первом.

В общем случае мы постарались дать максимально благоприятные условия для всех сервисов. И в первую очередь в случае Сбера подкручивали параметры запросов, пока точно не убедились, что всё распознается максимально качественно и нет технических ошибок именно в вызове распознавания. В частности проблемы были с "подтеканием" английского языка в русский (туда где точно нет английских слов). Также в отличие от других сервисов пришлось слать аудио с частотой дискретизации 8 и 16 kHz в разные модели.

Сухие метрики

Поскольку методологию описывать заново не будем, постараюсь учесть прошлые ошибки и представить результат максимально сжато и наглядно. Основная метрика - WER (word error rate), выраженный в виде процентов для наглядности:

Краткий анализ

Во-первых, все сервисы подросли по своим метрикам с прошлого раза. Сразу в глаза бросается большое отличие метрик Сбер и Яндекса на датасетах "умной колонки". В принципе логично и предсказуемо.

В остальном наблюдается некоторая конвергенция результатов. Местами можно разглядеть некоторые "точки роста" и на каких данных учились модели, но самый большой основной вывод - Сбер сделал свои модели более-менее всеядными. В прошлый раз там был сильно больше разброс по показателям. Но тут можно резонно поиронизировать на тему того, что мы не знаем какие огромные расходы, модели и суперкомпьютеры стоят за этим АПИ.

В глаза также бросается то, что в отличие от всех остальных в этот раз Tinkoff не показал существенного роста метрик.

Комментарии (8)


  1. entze
    20.01.2023 12:06
    +1

    Что скажете про Whisper от OpenAI?


    1. snakers4 Автор
      20.01.2023 13:11
      +1

      Даже статью накатал - https://habr.com/ru/post/689572/


      1. AigizK
        20.01.2023 13:40

        Если скрипты еще остались из этой статьи, сравни еще раз WER для русского, только уже с этими модельками: https://huggingface.co/spaces/autoevaluate/leaderboards?dataset=mozilla-foundation%2Fcommon_voice_11_0&only_verified=0&task=automatic-speech-recognition&config=ru&split=test&metric=wer

        люди на твоем же датасете https://github.com/snakers4/open_stt дообучили.


      1. entze
        21.01.2023 09:46

        Спасибо.

        Насчет GPU там уже не так актуально, реализация WhisperCPP позволяет запускать почти а чем угодно. Ну да, вам видимо как коммерческому продукту нужно тратить ресурсы на «а зачем платить тут бесплатно».


        1. snakers4 Автор
          21.01.2023 12:07

          Советую вам прочитать мою статью и саму статью про Whisper повнимательнее.


  1. safari2012
    20.01.2023 15:09
    +1

    А можно ссылку на умную колонку tinkoff? А то гугл выдает статью на их сайте с обзором колонок каких угодно, но не tinkoff...


    1. snakers4 Автор
      20.01.2023 18:08

      Мне кажется, что у них нет колонки … они же банк


      1. safari2012
        21.01.2023 20:54

        тогда сравнение некорректное, и рейтинг сомнительный...

        сбер - тоже банк