Мы очень подробно рассказывали про наш детектор голоса на Хабре тут и тут. Не вижу смысла повторяться, просто очень кратко опишу, что стало лучше:

  • В некоторых сценариях он стал до 2-3 раз быстрее. ONNX вообще отрабатывает за ~200ns на 1 чанк. Скорость теперь измеряется уже наносекундах =);

  • Сильно выросло качество (в этот раз мы проилюстрировали это на публичных датасетах) и насколько мы знаем среди сопоставимых публичных решений (отсутствие какой-либо формы DRM, стриминг, скорость, очень малый чанк 30ms) аналогов нет;

  • Теперь ONNX модель также поддерживает аудио и в 8 kHz;

Вот как-то так, изменения огромные, но сказать больше особо и нечего.

Комментарии (8)


  1. vassabi
    27.10.2022 11:58
    +1

    отсутствие какой-либо формы DRM, стриминг, скорость, очень малый чанк 30ms
    ONNX вообще отрабатывает за ~200ns на 1 чанк. Скорость теперь измеряется уже наносекундах =);
    ONNX модель также поддерживает аудио и в 8 kHz

    во! вот это "аналогов нет" - здорового человека!

    PS: запускаем с дочкой ваш TTS движок - для озвучки диалогов (чем только школьники на каникулах не занимаются :))) )


  1. pi-null-mezon
    27.10.2022 12:49
    +1

    Хорошая новость! Спасибо, что поделились)


  1. pulsework
    27.10.2022 13:09
    +3

    Есть ли у вас готовое решение для интеграции с софтовыми кол-центрами американским Genesys и отечественным Инфинити? Если нет то почему и ведутся ли разработки по такой интеграции? По моим сведениям Инфинити идеально подходит для внедрения вашей системы так как там текущая их собственная версия VAD начального уровня работает на отдельном сервере по сети (tcp/ip) с основным сервером и представляет собой полностью изолированный самостоятельный модуль и разработчики даже агитируют за сторонние улучшенные решения в виде отдельного модуля VAD. По Генезису меньше данных, но судя по всему, глядя на структуру системы где все сделано на отдельных серверах тоже должно быть возможно.? Я бы мог прислать вам потенциальных заказчиков!


    1. snakers4 Автор
      27.10.2022 13:19

      Если они готовы обратиться за лицензией и тем самым поддержать нас - мы только за.


      1. pulsework
        27.10.2022 18:04

        это понятно... но что можете предложить мне в замен за привод к вам заказчика? мне же придется вас рекламировать и что за бесплатно? и потом по обсуждению в другой ветке понятно что вы не в курсе главных требований для софта под большой кол-центр, вам нужен консультант который сможет сделать и согласовать ТЗ, в том виде как сейчас ваш продукт кол центрам не интересен, так как не решает главной проблемы для решения которой и мог бы приобретаться данный софт. В частности у вас нет большого объема обучающих последовательностей и вы их не получите ни у кого так разглашений приватных разговоров запрещено законом. А без них вы не сможете конкурентно способно настроить свою систему.


  1. Fil
    27.10.2022 18:47
    +1

    Использую ваш детектор с своем плеере для ускорения, пропуска или приглушения неголосовых фрагментов видео. Спасибо!


    Как-то так

    image
    image
    image


    1. snakers4 Автор
      27.10.2022 18:58

      А вы его через ONNX запускаете?


      1. Fil
        27.10.2022 19:07
        +1

        Через onnxruntime на Питоне. Планирую попробовать эту либу на C++