Главная
Мы опубликовали современные STT модели сравнимые по качеству с Google

Мы опубликовали современные STT модели сравнимые по качеству с Google +36

17.09.2020 16:48

snakers4 23 3600 Источник

Мы наконец опубликовали наш набор высококачественных пре-тренированных моделей для распознавания речи (т.е. сравнимых по качеству с премиум-моделями Google) для следующих языков:

Английский;
Немецкий;
Испанский;

Вы можете найти наши модели в нашем репозитории вместе с примерами и метриками качества и скорости. Мы также постарались сделать начало работы с нашими моделями как можно более простым — выложили примеры на Collab и чекпойнты для PyTorch, ONNX и TensorFlow. Модели также можно загружать через TorchHub.

	PyTorch	ONNX	TensorFlow	Качество
Английский (en_v1)	?	?	?	ссылка
Немецкий (de_v1)	?	?	?	ссылка
Испанский (es_v1)	?	?	?	ссылка

Почему это Важно

Распознавание речи традиционно имело высокие барьеры на вход по ряду причин:

Данные сложно собирать;
Разметка на сравнимую единицу данных стоит сильно дороже чем в компьютерном зрении;
Высокие требования по вычислительной мощности и устаревшие технологии;

Вот перечень типовых проблем, с которыми сталкивались существующие решения для распознавания речи до нашего релиза:

Исследования в этой сфере обычно делаются на огромных вычислительных мощностях;
Пре-тренированные модели и готовые рецепты обычно имеют сильные проблемы с генерализацией, их тяжело использовать "как есть", много зависимостей от устаревших технологий;
До недавнего времени сообщество не имело доступа к простым в использовании, но качественным пре-тренированным моделям для распознавания речи;

Для начала мы попробовали решить какие-то из этих проблем, опубликовав самый большой в мире речевой корпус для русского языка (смотрите наш пост на Хабре тут). В этот раз мы делаем свой вклад в решение этих проблем следующим образом:

Мы публикуем набор высококачественных пре-тренированных моделей для популярных языков;
Наши модели быстрые и могут работать на обычном железе;
Наши модели легко использовать;
Наши модели пре-тренированы на огромных и разнообразных речевых корпусах;
Мы строили наши модели так, чтобы они были устойчивы к разным доменам, насколько это возможно;

Сделать Просто — Сложно

Нам кажется, что современные технологии должны быть безумно простыми в использовании. В нашей работе мы следуем следующим принципам:

Скорость и компактность;
Генерализация между разными доменами. Должно существовать одно общее решение, которое незначительными усилиями настраивается на конкретные домены, а не наоборот;
Максимальная простота в использовании ("1 строка кода");

Дальнейшие Планы

Сейчас наименьший размер, до которого мы смогли ужать наши модели — в районе 50 мегабайт.
В среднесрочной перспективе — планка сжатия до 10-20 мегабайт без потери качества кажется нам выполнимой.
Также мы планируем добавлять другие популярные языки.

Ссылки

Комментарии (23)

vindy123
17.09.2020 20:15
#22081414
+2
Отличная Новость, Так Держать, Ребята!
1. aamonster
  17.09.2020 22:07
  #22081768
  Может, перевод? :-D
  ("английское" написание заголовков)

DrBulkin
17.09.2020 20:23
#22081452
+2
Ребятушки, сделайте на русском, а?
1. snakers4 Автор
  17.09.2020 20:43
  #22081510
  Так сделали же — https://www.silero.ai/tag/our-speech-to-text/
  1. interprise
    17.09.2020 21:21
    #22081636
    +1
    Я правильно понял, что именно ru модели закрыты?
    
    snakers4 Автор
    18.09.2020 06:37
    #22082516
    -1
    Да

Barnaby
18.09.2020 01:09
#22082238
https://www.silero.ai/russian-stt-benchmarks-update2/
Жаль нет сравнения с https://github.com/alphacep/vosk-api
1. snakers4 Автор
  18.09.2020 06:39
  #22082526
  Можете посмотреть прошлые сравнения. Если коротко — то мы сначала сравнивали все что можно, а потом оставили только системы которые хорошо работают из коробки на всем или генерализуются

TiesP
18.09.2020 08:49
#22082730
Отлично! А можно уточнить насчет метрики WER? Иногда применяется некая постобработка, например, распознанные слова меняются на другие с учетом их вероятностей и т.д. Эта метрика обычно применяется уже на финише, когда все последующие обработки применены? Или же проверяется «чистое» распознавание без обработок?… просто в статье о метриках указаны довольно большие проценты ошибок. Мне казалось, что уже достигнуты намного лучшие результаты)
1. snakers4 Автор
  18.09.2020 09:01
  #22082766
  Механизм расчета метрик тут аналогичен описанному в статье, которую вы нашли.
  
  Для английского мы ещё нормализовали частые вещи типа that is и that's и так далее, тк нет унификации ращметки. Для немецкого пробовали без числительных тк результаты гугла не очень оказались — но разница была маленькая.
  
  А насчёт лучших результатов — я довольно подробно расписывал в своих статьях на The Gradient все детали по этому поводу и какие там реально иетрики.
  
  По сути к сожалению результаты премиум модели Google говорят что вы скорее всего стали жертвой маркетинга евангелистов / корпораций / академиков которым надо оправдать освоение бюджета. Sad but true. Tldr — оверфит на один датасет и общая генерализуемая модель — это разные фрукты.
  1. TiesP
    18.09.2020 09:13
    #22082806
    Насчет лучших результатов понятно. А насчет постобработки? Вот давайте на примере. Есть правильный текст «мама мыла раму». Модель распознала по голосу «мама мыла рану» (вывод 1) При этом вероятность «рану»=0.30, а «раму»=0.29. Следующая модель (постобработка) учитывая контекст, заменяет посл. слово и выдает «мама мыла раму» (вывод 2). Метрика WER проверяется для «вывод 2» или «вывод 1»?
    
    snakers4 Автор
    18.09.2020 09:20
    #22082818
    Если вопрос о том поступаем ли мы также как раньше было модно репортить результаты на Imagenet (по 5 кропам) — то нет — всегда берется верхняя гипотеза, а не топ-N.
    
    В остальном — wiki в репозитории и статья выше по идее содержат всю информацию.

averkij
18.09.2020 08:59
#22082760
До 50Mb сжимали квантизацией и прунингом? И как дальше планируете ужать до 20? За модели спасибо!
1. snakers4 Автор
  18.09.2020 09:08
  #22082792
  Прунинг не делали ещё. Дальше планируем прунингом как раз и улучшением архитектуры.
  1. tzlom
    18.09.2020 09:26
    #22082850
    А в чем вообще смысл такого сжатия?
    
    snakers4 Автор
    18.09.2020 09:49
    #22082932
    Меньше места, быстрее, есть меньше compute?
    Я до конца не разобрался — в современных реалиях хоть как-то коррелирует ли прунинг с продом
    
    А квантизация — это продовая тема
    
    tzlom
    18.09.2020 13:54
    #22084260
    и на сколько 50 мегабайтная медленнее 20 мегабайтной? и какая абсолютная производительность (до порядка)?
    
    snakers4 Автор
    18.09.2020 14:05
    #22084298
    50 в 2 раза быстрее чем 200
    20 не сделали ещё
    подробнее тут https://www.silero.ai/stt-system-speed-quantize-final/

TiesP
18.09.2020 09:06
#22082784
И ещё вопросик. На youtube Гугл иногда включает возможность создания субтитров, распознавая «на лету». Иногда они распознают и песни на русском, но качество там не очень. А ваша модель может распознавать слова песен? Например, какой процент ошибок будет на этой песне? (текст там есть в комментариях)
1. snakers4 Автор
  18.09.2020 09:12
  #22082800
  Чтобы сделать такое надо решить 4 задачи
  
  Детекция голоса (VAD) уже решена
  Выделение голоса
  Подавление шума
  Распознавание
  
  Все они решаются если сам спич пока нигде — то производные от него задачи ещё дальше
  
  Но денойз не так сложно сделать, в скорых планах есть

jedecuz
18.09.2020 11:50
#22083522
Господа, а для распознавания японского кто что может посоветовать, желательно не облачного?
1. snakers4 Автор
  19.09.2020 06:43
  #22086772
  Собирайте нетривиальный датасет (не просто common voice). Отдельно собирайте вал сеты
  Можно будет добавить в список моделей но наверное без ЕЕ версии

tumikosha
18.09.2020 22:58
#22086278
Мы — это кто?

Мы опубликовали современные STT модели сравнимые по качеству с Google +36

Почему это Важно

Сделать Просто — Сложно

Дальнейшие Планы

Ссылки

Комментарии (23)

snakers4 Автор

snakers4 Автор

snakers4 Автор

snakers4 Автор

snakers4 Автор

snakers4 Автор

snakers4 Автор

snakers4 Автор

snakers4 Автор

snakers4 Автор