Мы очень подробно рассказывали про наш детектор голоса на Хабре тут и тут. Не вижу смысла повторяться, просто очень кратко опишу, что стало лучше:
В некоторых сценариях он стал до 2-3 раз быстрее. ONNX вообще отрабатывает за ~200ns на 1 чанк. Скорость теперь измеряется уже наносекундах =);
Сильно выросло качество (в этот раз мы проилюстрировали это на публичных датасетах) и насколько мы знаем среди сопоставимых публичных решений (отсутствие какой-либо формы DRM, стриминг, скорость, очень малый чанк 30ms) аналогов нет;
Теперь ONNX модель также поддерживает аудио и в 8 kHz;
Вот как-то так, изменения огромные, но сказать больше особо и нечего.
Комментарии (8)
pulsework
27.10.2022 13:09+3Есть ли у вас готовое решение для интеграции с софтовыми кол-центрами американским Genesys и отечественным Инфинити? Если нет то почему и ведутся ли разработки по такой интеграции? По моим сведениям Инфинити идеально подходит для внедрения вашей системы так как там текущая их собственная версия VAD начального уровня работает на отдельном сервере по сети (tcp/ip) с основным сервером и представляет собой полностью изолированный самостоятельный модуль и разработчики даже агитируют за сторонние улучшенные решения в виде отдельного модуля VAD. По Генезису меньше данных, но судя по всему, глядя на структуру системы где все сделано на отдельных серверах тоже должно быть возможно.? Я бы мог прислать вам потенциальных заказчиков!
snakers4 Автор
27.10.2022 13:19Если они готовы обратиться за лицензией и тем самым поддержать нас - мы только за.
pulsework
27.10.2022 18:04это понятно... но что можете предложить мне в замен за привод к вам заказчика? мне же придется вас рекламировать и что за бесплатно? и потом по обсуждению в другой ветке понятно что вы не в курсе главных требований для софта под большой кол-центр, вам нужен консультант который сможет сделать и согласовать ТЗ, в том виде как сейчас ваш продукт кол центрам не интересен, так как не решает главной проблемы для решения которой и мог бы приобретаться данный софт. В частности у вас нет большого объема обучающих последовательностей и вы их не получите ни у кого так разглашений приватных разговоров запрещено законом. А без них вы не сможете конкурентно способно настроить свою систему.
vassabi
во! вот это "аналогов нет" - здорового человека!
PS: запускаем с дочкой ваш TTS движок - для озвучки диалогов (чем только школьники на каникулах не занимаются :))) )