Наш публичный детектор голоса стал лучше / forpes.ru

Главная
Наш публичный детектор голоса стал лучше

Наш публичный детектор голоса стал лучше +14

27.10.2022 05:50

snakers4 8 1600 Источник

Мы очень подробно рассказывали про наш детектор голоса на Хабре тут и тут. Не вижу смысла повторяться, просто очень кратко опишу, что стало лучше:

В некоторых сценариях он стал до 2-3 раз быстрее. ONNX вообще отрабатывает за ~200ns на 1 чанк. Скорость теперь измеряется уже наносекундах =);
Сильно выросло качество (в этот раз мы проилюстрировали это на публичных датасетах) и насколько мы знаем среди сопоставимых публичных решений (отсутствие какой-либо формы DRM, стриминг, скорость, очень малый чанк 30ms) аналогов нет;
Теперь ONNX модель также поддерживает аудио и в 8 kHz;

Вот как-то так, изменения огромные, но сказать больше особо и нечего.

Комментарии (8)

vassabi
27.10.2022 11:58
#24855906
+1
отсутствие какой-либо формы DRM, стриминг, скорость, очень малый чанк 30ms
ONNX вообще отрабатывает за ~200ns на 1 чанк. Скорость теперь измеряется уже наносекундах =);
ONNX модель также поддерживает аудио и в 8 kHz

во! вот это "аналогов нет" - здорового человека!

PS: запускаем с дочкой ваш TTS движок - для озвучки диалогов (чем только школьники на каникулах не занимаются :))) )

pi-null-mezon
27.10.2022 12:49
#24856110
+1
Хорошая новость! Спасибо, что поделились)

pulsework
27.10.2022 13:09
#24856200
+3
Есть ли у вас готовое решение для интеграции с софтовыми кол-центрами американским Genesys и отечественным Инфинити? Если нет то почему и ведутся ли разработки по такой интеграции? По моим сведениям Инфинити идеально подходит для внедрения вашей системы так как там текущая их собственная версия VAD начального уровня работает на отдельном сервере по сети (tcp/ip) с основным сервером и представляет собой полностью изолированный самостоятельный модуль и разработчики даже агитируют за сторонние улучшенные решения в виде отдельного модуля VAD. По Генезису меньше данных, но судя по всему, глядя на структуру системы где все сделано на отдельных серверах тоже должно быть возможно.? Я бы мог прислать вам потенциальных заказчиков!
1. snakers4 Автор
  27.10.2022 13:19
  #24856226
  Если они готовы обратиться за лицензией и тем самым поддержать нас - мы только за.
  1. pulsework
    27.10.2022 18:04
    #24857386
    это понятно... но что можете предложить мне в замен за привод к вам заказчика? мне же придется вас рекламировать и что за бесплатно? и потом по обсуждению в другой ветке понятно что вы не в курсе главных требований для софта под большой кол-центр, вам нужен консультант который сможет сделать и согласовать ТЗ, в том виде как сейчас ваш продукт кол центрам не интересен, так как не решает главной проблемы для решения которой и мог бы приобретаться данный софт. В частности у вас нет большого объема обучающих последовательностей и вы их не получите ни у кого так разглашений приватных разговоров запрещено законом. А без них вы не сможете конкурентно способно настроить свою систему.

Fil
27.10.2022 18:47
#24857546
+1
Использую ваш детектор с своем плеере для ускорения, пропуска или приглушения неголосовых фрагментов видео. Спасибо!

Как-то так
1. snakers4 Автор
  27.10.2022 18:58
  #24857588
  А вы его через ONNX запускаете?
  1. Fil
    27.10.2022 19:07
    #24857614
    +1
    Через onnxruntime на Питоне. Планирую попробовать эту либу на C++

Наш публичный детектор голоса стал лучше +14

Комментарии (8)

vassabi

pi-null-mezon

pulsework

snakers4 Автор

pulsework

Fil

snakers4 Автор

Fil