Главная
Последние обновления моделей распознавания речи из Silero Models

Последние обновления моделей распознавания речи из Silero Models +11

13.09.2021 14:37

snakers4 0 1500 Источник

quality_growth

Мы опубликовали уже пятую версию наших моделей для распознавания английского языка и четвертую — для немецкого. На картинке выше — прогресс роста качества для английского языка.

В этот раз мы можем порадовать вас:

Как большими, так и маленькими моделями;
Постоянным ростом качества на всех доменах аудио, снижением размера и ускорением моделей;
Как обычно — качество на уровне премиум моделей Google (причем в этот раз к премиум моделями 2020 года подобрались уже даже маленькие Community Edition модели);
Супер компактными моделями (small и скоро ожидается xsmall) и их квантизованными версиями;

Модель	PyTorch	ONNX	Качество	Colab
Английский (`en_v5`)	✅	✅	link
Немецкий (`de_v4`)	✅	✅	link

	jit	jit	jit	jit	jit_q	jit_q	onnx	onnx	onnx
	xsmall	small	large	xlarge	xsmall	small	small	large	xlarge
Английский `en_v5`	⌛	✅		✅	⌛	✅	✅		✅
Немецкий `de_v4`			✅					✅

Вы можете найти наши модели в нашем репозитории вместе с примерами и метриками качества и скорости. Мы также постарались сделать начало работы с нашими моделями как можно более простым — мы выложили примеры на Colab и чекпойнты для PyTorch, ONNX (TensorFlow мы перестали поддерживать).

Проект silero-models почти набрал на Github тысячу звездочек, помогите нам преодолеть эту психологическую планку!

Достигнутые вершины, дальнейшие планы и чего мы не сделали

Для начала распишу, чего сделать не получилось:

Сделать модели такого же качества для ряда других планируемых языков (ряд славянских языков, французский язык). На самом деле французский и обновления для испанского были более менее готовы, но нам не хватило фокуса их опубликовать и довести до конца. Плюс на эти языки мы не видели спроса заказчиков, в отличие от русского, английского и немецкого;
Сделать такую же широкую палитру моделей не только для английского языка;

А вот эти вещи получилось сделать:

Создать палитру моделей для английского языка разных размеров;
Постоянно улучшать качество и скорость моделей с каждым релизом на всех доменах;
Существенно ускорить модели и снизить их размер (за деталями — прошу в вики проекта или просто протестируйте модели сами);
Довести размер самой маленькой модели до 26 мегабайт и снизить количество параметров менее 20М;

В ближайших планах:

Продолжать работать над качеством;
Плановый статус апдейт по синтезу речи;
Опубликовать xsmall модель для английского языка;
Есть еще ряд идей, как сделать xsmall модель ее еще в 2-3 раза быстрее против прошлой (если считать на CPU) для английского языка без существенной потери качества. Она скорее всего будет примерно такого же размера;
Зарелизить модель для простановки знаков препинания и заглавных букв для четырех языков (русский, английский, немецкий, испанский);
Возможно еще получится снизить размер xsmall модели еще в 2 раза;

Почему это важно и почему сделать просто так сложно

Тут не хотел бы повторяться, я довольно подробно все расписал в первой статье на Хабре тут, с тех пор мало что поменялось.

Ссылки

Вы всегда можете поддержать наш проект, поставив звезду на Github или прямыми донатами:

Проект silero-models почти набрал на Github тысячу звездочек, помогите нам преодолеть эту психологическую планку!

Последние обновления моделей распознавания речи из Silero Models +11

Достигнутые вершины, дальнейшие планы и чего мы не сделали

Почему это важно и почему сделать просто так сложно

Ссылки

Комментарии (0)