Привет, Хабр!
Меня зовут Алексей Рудак, я основатель компании Lingvanex. Более 8 лет мы делаем перевод и распознавание речи удобными, быстрыми и безопасными.
Сегодня расскажу, как мы прокачали наше распознавание речи и почему это может пригодиться вам. Наш продукт Lingvanex Speech Recognition уже сейчас даёт результат уровня Whisper Large v3, а по ряду задач — даже превосходит его:
- точнее на ряде языков, 
- быстрее в работе, 
- дешевле в использовании, 
- Может делать субтитры с временными метками 
Это не просто «ещё одна реализация Whisper». Мы вложили годы в адаптацию под реальные задачи бизнеса: шумные звонки, медицинские расшифровки, мультиязычные интервью, звонки с акцентами, перекрестные диалоги. Эта статья является опытом наших пользователей и реальных результатов тестов. Надеюсь, она будет полезна тем, кто работает с голосовыми интерфейсами, ИИ-продуктами, голосовыми ботами или просто хочет собрать свою систему транскрипции.
Почему мы вообще взялись за речь?
Потому что мир меняется. Люди говорят голосом всё больше: в мессенджерах, на звонках, в видео, в подкастах, даже в банках и госструктурах. А бизнесу надо понимать, анализировать и превращать устную речь в текст — точно и быстро. Мы подумали: а почему бы не сделать решение, которое будет не хуже популярных сервисов, но быстрее, дешевле и гибче?
Мы начали с простой идеи: взять лучшее от Whisper (модель OpenAI), добавить свои улучшения, и сделать speech-to-text, который можно применять для бизнеса
И у нас получилось. На картинке пример UI, которое работает через браузер. Также можно работать через REST API.

Что мы сделали
Да, мы использовали Whisper. Но вместо слепого копирования — провели тонкую настройку.
Мы обучили свои версии моделей на специализированных датасетах, включая аудио с шумом, разными акцентами и низким качеством записи. В результате — наша система справляется с реальной речью, а не только с идеально записанным дикторским текстом. Кроме того, наша система точно обрабатывает длинные аудиофайлы (более 2 часов), в отличие от многих решений на рынке.
Частые ошибки и как мы их решаем
Любая STT-модель сталкивается с рядом типичных проблем:
- Фоновый шум — мы используем встроенное шумоподавление + обучались на шумных аудио. 
- Несколько голосов одновременно — поддерживаем diarization, на входе определяем и сегментируем одновременно нескольких спикеров. 
- Акценты/диалекты — тренируем модели на корпусах с различными акцентами. 
Кроме того, мы тестируем модель на реальных аудио звонках и подкастах, а не только на вычищенных датасетах. Это даёт гораздо более реалистичную картину ошибок и улучшений.
Результаты тестов
При оценке систем распознавания речи важны объективные метрики. Мы провели сравнительный тест Lingvanex и Whisper на стандартных и реальных данных по следующим показателям:
- Word Error Rate (WER) — процент ошибок на уровне слов. Чем ниже, тем точнее распознавание. 
- Character Error Rate (CER) — процент ошибок на уровне символов. Важно для сложных терминов и имён. 
- Время обработки аудио — сколько секунд требуется системе для обработки одной минуты аудио. Критично для больших объёмов данных. 
Эти метрики позволяют оценить не только точность, но и скорость, а также адаптивность системы к реальным условиям.



По всем трём показателям — WER, CER и времени обработки — Lingvanex превосходит Whisper. Он точнее распознает речь на уровне слов и символов, а также значительно быстрее обрабатывает аудиофайлы. Особенно на:
- телефонных звонках; 
- подкастах с несколькими спикерами; 
- аудио с акцентами. 
Подробнее о методологии и результатах тестирования можно почитать здесь.
Разумеется, мы провели сравнение и с другими системами распознавания речи по основным метрикам. Что важно: мы тестируем не только на английском, но и на других популярных языках — испанском, французском, немецком, арабском. Вкратце: Lingvanex допускает меньше ошибок, особенно при неидеальном качестве звука.
Где используется наше решение распознавания речи?
Решение уже работает в десятках компаний — от техподдержки до медицины — и помогает быстрее, точнее и безопаснее обрабатывать голосовые данные. Вот реальные кейсы клиентов:
- Call-центры и банки — автоматическая расшифровка звонков с точными таймингами и разделением по спикерам. Обработка возможна как в реальном времени, так и пакетно. Все данные остаются внутри компании, без передачи в облако. 
- Платформы с видео-контентом — создание автосубтитров, перевод и анализ тем. Речь разбивается на фразы, добавляются таймкоды, поддерживаются форматы субтитров: SRT, VTT, ASS, SSA и SUB.. 
- Медицина и юриспруденция — преобразование аудиозаписей медицинских заключений и судебных заседаний в текст. Используется офлайн-решение, что особенно важно для соблюдения конфиденциальности. 
- Финансовый сектор — распознавание голосовых заявок, команд и комментариев клиентов для ускорения обработки информации и повышения точности. 
- Чат-боты и голосовые ассистенты — преобразование речи в текст для последующего анализа и генерации ответов. Такая связка позволяет строить сложные голосовые интерфейсы и улучшать пользовательский опыт. 
Почему выбирают нас?
- Точность — качество сравнимо или выше, чем у лидеров рынка. 
- Цена — Дешевле, чем у конкурентов. Скидки для стартапов. Пишите, по цене сделаем, чтобы вы были довольны :) 
- Скорость — распознавание 1 часа аудио занимает от 1 до 5 минут. 
- Безопасность — работает у вас на сервере, все данные остаются у вас. 
- Гибкость — после разворачивания можно использовать, как REST API или пользоваться UI через браузер. 
- Поддержка — по любым вопросам, в любое время. 
Мы сделали решение, которое можно просто развернуть и легко встроить в ваш бизнес. Если вам нужен точный, быстрый Speech-to-Text для больших объемов аудио — попробуйте Lingvanex.
Если хотите протестировать — пишите на мой личный ящик alexeir@lingvanex.com. Дам до 2 месяцев демо бесплатно. Развернете у себя на сервере и попробуете. Со своей стороны гарантирую качественный сервис и поддержку!
 
           
 
Mr-Iron_Brain
От 1 до 5 минут на каком железе?
Aliaksei_Rudak Автор
RTX 3090