Мы выложили в публичный доступ гигантский датасет для детекции речи (voice activity detection).

Датасет содержит порядка 150 тысяч часов аудио более чем на 6,000 языках. Количество уникальных ISO-кодов данного датасета не совпадает с фактическим количеством языков, так как близкие языки могут кодироваться одним и тем же кодом.

Данные были размечены для задачи детекции голоса при временной дискретизации примерно в 30 миллисекунд (или 512 семплов при частоте дискретизации 16 килогерц).

Данный датасет распространяется под лицензией CC BY-NC-SA 4.0.

Подробности

Датсет содержит следующие наборы данных на следущих языках:

Название

Число часов

Число языков

Ссылка

Лицензия

Bible.is

53,138

1,596

URL

Уникальная

globalrecordings.net

9,743

6,171

URL

CC BY-NC-SA

VoxLingua107

6,628

107

URL

CC BY

Common Voice

30,329

120

URL

CC0

MLS

50,709

8

URL

CC BY

Итого

150,547

6,171+

Датасет представлен в виде .feather файлов, содержащих размеченные открытые наборы аудиоданных, а также короткое описание каждого набора данных с примерами загрузки. .feather файлы можно открыть с помощью библиотеки pandas:

import pandas as pd
dataframe = pd.read_feather(PATH_TO_FEATHER_FILE)

Каждый .feather файл с разметкой содержит следующие колонки:

  • speech_timings - разметка данного аудио. Это список, содержащий словари вида {'start': START_SECOND, 'end': END_SECOND}, где START_SECOND и END_SECOND - время начала и конца речи в секундах. Количество данных словарей равно количеству речевых аудио отрывков, найденных в данном аудио;

  • language - ISO код языка данного аудио.

Все остальные детали и подробности вы можете узнать по ссылке.

Лицензия

Лицензия CC BY-NC-SA 4.0 была неизбежно выбрана, потому что один самых интересных наборов данных, globalrecordings.net, опубликован под этой "виральной" лицензией, которая обязывает пользователей использовать ее для производных работ.

Определенный вопрос есть с трактовкой лицензии Bible.is, но если нас попросят удалить эту часть датасета - это придется сделать.

Цитирование и аффилиации

Датасет создан при поддержке Фонда содействия инновациям в рамках федерального проекта «Искусственный интеллект» национальной программы «Цифровая экономика Российской Федерации».

Цитировать датасет можно следующим образом:

@misc{Silero VAD Dataset,
  author = {Silero Team},
  title = {Silero-VAD Dataset: a large public Internet-scale dataset for voice activity detection for 6000+ languages},
  year = {2024},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {\url{https://github.com/snakers4/silero-vad/datasets/README.md}},
  email = {hello@silero.ai}
}

Комментарии (13)


  1. alexmuk
    11.04.2024 03:41
    +3

    извиняюсь за свою дремучесть. но 6000+ языков. что это за языки?


    1. snakers4 Автор
      11.04.2024 03:41
      +2

      Примерно вот такие


      1. yappari
        11.04.2024 03:41
        +1

        Это именно языков столько? Складывается ощущение, что процентов 70-80 это диалекты. Неужели в каких-то регионах есть по языку на квадратный километр?


        1. snakers4 Автор
          11.04.2024 03:41

          Одно время в одной только Индии было более 1000 языков.


  1. Ds02006
    11.04.2024 03:41
    +1

    Эти сеты могут быть использованы для распознавания содержимого речи? Даже устный язык индейцев навахо ("говорящих с ветром") можно будет понять?


    1. snakers4 Автор
      11.04.2024 03:41
      +1

      Они могут быть использованы в первую очередь для детекции речи.


  1. SuharkovMP
    11.04.2024 03:41
    +3

    Супер, данные просто бесценны! А вы не хотите их заодно на https://academictorrents.com/ оформить? Подходящий ресурс для подобных коллекций.


    1. snakers4 Автор
      11.04.2024 03:41

      В данном случае данные оформлены в виде ссылок на публичные датасеты и данные, поэтому перевыкладывать их имеет мало смысла, тем более что некоторые лицензии это прямо запрещают.


      1. SuharkovMP
        11.04.2024 03:41
        +1

        Данные перекладывать не надо, все ж на месте останется. Обмениваться легче будет, по мере роста количества скачавших себе копию. Конечно же, будет расти и риск того, что кто-то из скачавших нарушит CC BY-NC-SA 4.0 - но то же самое может случиться и без торрентов.


  1. TsarS
    11.04.2024 03:41

    Всё, удалили? На github 404


    1. snakers4 Автор
      11.04.2024 03:41

      Поправил ссылку


  1. vagon333
    11.04.2024 03:41

    Если я правильно понял, ваши датасеты только для детекции языка.
    После определения языка следующий этап - распознаваниe речи в текст.

    Есть ли у вас планы по созданию моделей для распознавания речи в текст?
    Или вы сфокусировались исключительно на определении языка?

    Так же, какова ценность вашего детектора, если уже имеющиеся модели в состоянии автоматически определить язык и распознать речь в текст?

    На базе одной из таких моделей я как раз наговариваю сейчас этот текст, который автоматически переключается между английским и русским.


    1. snakers4 Автор
      11.04.2024 03:41
      +2

      Есть ли у вас планы по созданию моделей для распознавания речи в текст? Или вы сфокусировались исключительно на определении языка?

      В данной статье идёт речь про датасет для детекции языка.

      Так же, какова ценность вашего детектора, если уже имеющиеся модели в состоянии автоматически определить язык и распознать речь в текст?

      На базе одной из таких моделей я как раз наговариваю сейчас этот текст, который автоматически переключается между английским и русским.

      Тяжело, конечно, сравнивать без конкретного указания какие именно "модели" имеются в виду, но наш детектор языка потребляет примерно на 2-3 порядка меньше ресурсов, чем "обычные" модели распознавания и на 5-6 порядков меньше, чем "большие".

      Также как правило чем больше и универсальнее модели, тем они менее контролируемы и тем больше галлюцинаций они выдают на таких простых задачах, как детекция речи. В гугле легко ищутся самые популярные галлюцинации на эту тему.

      У конкретного инструмента, вроде детектора речи, можно добиться высокого качества решения конкретной задачи без галлюцинаций на на порядки меньшем вычислительном бюджете.