Мы выложили в публичный доступ гигантский датасет для детекции речи (voice activity detection).
Датасет содержит порядка 150 тысяч часов аудио более чем на 6,000 языках. Количество уникальных ISO-кодов данного датасета не совпадает с фактическим количеством языков, так как близкие языки могут кодироваться одним и тем же кодом.
Данные были размечены для задачи детекции голоса при временной дискретизации примерно в 30 миллисекунд (или 512 семплов при частоте дискретизации 16 килогерц).
Данный датасет распространяется под лицензией CC BY-NC-SA 4.0.
Подробности
Датсет содержит следующие наборы данных на следущих языках:
Датасет представлен в виде .feather
файлов, содержащих размеченные открытые наборы аудиоданных, а также короткое описание каждого набора данных с примерами загрузки. .feather
файлы можно открыть с помощью библиотеки pandas
:
import pandas as pd
dataframe = pd.read_feather(PATH_TO_FEATHER_FILE)
Каждый .feather
файл с разметкой содержит следующие колонки:
speech_timings
- разметка данного аудио. Это список, содержащий словари вида{'start': START_SECOND, 'end': END_SECOND}
, гдеSTART_SECOND
иEND_SECOND
- время начала и конца речи в секундах. Количество данных словарей равно количеству речевых аудио отрывков, найденных в данном аудио;language
- ISO код языка данного аудио.
Все остальные детали и подробности вы можете узнать по ссылке.
Лицензия
Лицензия CC BY-NC-SA 4.0 была неизбежно выбрана, потому что один самых интересных наборов данных, globalrecordings.net, опубликован под этой "виральной" лицензией, которая обязывает пользователей использовать ее для производных работ.
Определенный вопрос есть с трактовкой лицензии Bible.is, но если нас попросят удалить эту часть датасета - это придется сделать.
Цитирование и аффилиации
Датасет создан при поддержке Фонда содействия инновациям в рамках федерального проекта «Искусственный интеллект» национальной программы «Цифровая экономика Российской Федерации».
Цитировать датасет можно следующим образом:
@misc{Silero VAD Dataset,
author = {Silero Team},
title = {Silero-VAD Dataset: a large public Internet-scale dataset for voice activity detection for 6000+ languages},
year = {2024},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {\url{https://github.com/snakers4/silero-vad/datasets/README.md}},
email = {hello@silero.ai}
}
Комментарии (13)
SuharkovMP
11.04.2024 03:41+3Супер, данные просто бесценны! А вы не хотите их заодно на https://academictorrents.com/ оформить? Подходящий ресурс для подобных коллекций.
snakers4 Автор
11.04.2024 03:41В данном случае данные оформлены в виде ссылок на публичные датасеты и данные, поэтому перевыкладывать их имеет мало смысла, тем более что некоторые лицензии это прямо запрещают.
SuharkovMP
11.04.2024 03:41+1Данные перекладывать не надо, все ж на месте останется. Обмениваться легче будет, по мере роста количества скачавших себе копию. Конечно же, будет расти и риск того, что кто-то из скачавших нарушит CC BY-NC-SA 4.0 - но то же самое может случиться и без торрентов.
vagon333
11.04.2024 03:41Если я правильно понял, ваши датасеты только для детекции языка.
После определения языка следующий этап - распознаваниe речи в текст.
Есть ли у вас планы по созданию моделей для распознавания речи в текст?
Или вы сфокусировались исключительно на определении языка?
Так же, какова ценность вашего детектора, если уже имеющиеся модели в состоянии автоматически определить язык и распознать речь в текст?
На базе одной из таких моделей я как раз наговариваю сейчас этот текст, который автоматически переключается между английским и русским.snakers4 Автор
11.04.2024 03:41+2Есть ли у вас планы по созданию моделей для распознавания речи в текст? Или вы сфокусировались исключительно на определении языка?
В данной статье идёт речь про датасет для детекции языка.
Так же, какова ценность вашего детектора, если уже имеющиеся модели в состоянии автоматически определить язык и распознать речь в текст?
На базе одной из таких моделей я как раз наговариваю сейчас этот текст, который автоматически переключается между английским и русским.
Тяжело, конечно, сравнивать без конкретного указания какие именно "модели" имеются в виду, но наш детектор языка потребляет примерно на 2-3 порядка меньше ресурсов, чем "обычные" модели распознавания и на 5-6 порядков меньше, чем "большие".
Также как правило чем больше и универсальнее модели, тем они менее контролируемы и тем больше галлюцинаций они выдают на таких простых задачах, как детекция речи. В гугле легко ищутся самые популярные галлюцинации на эту тему.
У конкретного инструмента, вроде детектора речи, можно добиться высокого качества решения конкретной задачи без галлюцинаций на на порядки меньшем вычислительном бюджете.
alexmuk
извиняюсь за свою дремучесть. но 6000+ языков. что это за языки?
snakers4 Автор
Примерно вот такие
yappari
Это именно языков столько? Складывается ощущение, что процентов 70-80 это диалекты. Неужели в каких-то регионах есть по языку на квадратный километр?
snakers4 Автор
Одно время в одной только Индии было более 1000 языков.