Привет, Хабр!
Меня зовут Алексей Рудак, я основатель компании Lingvanex. Более 8 лет мы делаем перевод и распознавание речи удобными, быстрыми и безопасными.
Сегодня расскажу, как мы прокачали наше распознавание речи и почему это может пригодиться вам. Наш продукт Lingvanex Speech Recognition уже сейчас даёт результат уровня Whisper Large v3, а по ряду задач — даже превосходит его:
точнее на ряде языков,
быстрее в работе,
дешевле в использовании,
Может делать субтитры с временными метками
Это не просто «ещё одна реализация Whisper». Мы вложили годы в адаптацию под реальные задачи бизнеса: шумные звонки, медицинские расшифровки, мультиязычные интервью, звонки с акцентами, перекрестные диалоги. Эта статья является опытом наших пользователей и реальных результатов тестов. Надеюсь, она будет полезна тем, кто работает с голосовыми интерфейсами, ИИ-продуктами, голосовыми ботами или просто хочет собрать свою систему транскрипции.
Почему мы вообще взялись за речь?
Потому что мир меняется. Люди говорят голосом всё больше: в мессенджерах, на звонках, в видео, в подкастах, даже в банках и госструктурах. А бизнесу надо понимать, анализировать и превращать устную речь в текст — точно и быстро. Мы подумали: а почему бы не сделать решение, которое будет не хуже популярных сервисов, но быстрее, дешевле и гибче?
Мы начали с простой идеи: взять лучшее от Whisper (модель OpenAI), добавить свои улучшения, и сделать speech-to-text, который можно применять для бизнеса
И у нас получилось. На картинке пример UI, которое работает через браузер. Также можно работать через REST API.

Что мы сделали
Да, мы использовали Whisper. Но вместо слепого копирования — провели тонкую настройку.
Мы обучили свои версии моделей на специализированных датасетах, включая аудио с шумом, разными акцентами и низким качеством записи. В результате — наша система справляется с реальной речью, а не только с идеально записанным дикторским текстом. Кроме того, наша система точно обрабатывает длинные аудиофайлы (более 2 часов), в отличие от многих решений на рынке.
Частые ошибки и как мы их решаем
Любая STT-модель сталкивается с рядом типичных проблем:
Фоновый шум — мы используем встроенное шумоподавление + обучались на шумных аудио.
Несколько голосов одновременно — поддерживаем diarization, на входе определяем и сегментируем одновременно нескольких спикеров.
Акценты/диалекты — тренируем модели на корпусах с различными акцентами.
Кроме того, мы тестируем модель на реальных аудио звонках и подкастах, а не только на вычищенных датасетах. Это даёт гораздо более реалистичную картину ошибок и улучшений.
Результаты тестов
При оценке систем распознавания речи важны объективные метрики. Мы провели сравнительный тест Lingvanex и Whisper на стандартных и реальных данных по следующим показателям:
Word Error Rate (WER) — процент ошибок на уровне слов. Чем ниже, тем точнее распознавание.
Character Error Rate (CER) — процент ошибок на уровне символов. Важно для сложных терминов и имён.
Время обработки аудио — сколько секунд требуется системе для обработки одной минуты аудио. Критично для больших объёмов данных.
Эти метрики позволяют оценить не только точность, но и скорость, а также адаптивность системы к реальным условиям.



По всем трём показателям — WER, CER и времени обработки — Lingvanex превосходит Whisper. Он точнее распознает речь на уровне слов и символов, а также значительно быстрее обрабатывает аудиофайлы. Особенно на:
телефонных звонках;
подкастах с несколькими спикерами;
аудио с акцентами.
Подробнее о методологии и результатах тестирования можно почитать здесь.
Разумеется, мы провели сравнение и с другими системами распознавания речи по основным метрикам. Что важно: мы тестируем не только на английском, но и на других популярных языках — испанском, французском, немецком, арабском. Вкратце: Lingvanex допускает меньше ошибок, особенно при неидеальном качестве звука.
Где используется наше решение распознавания речи?
Решение уже работает в десятках компаний — от техподдержки до медицины — и помогает быстрее, точнее и безопаснее обрабатывать голосовые данные. Вот реальные кейсы клиентов:
Call-центры и банки — автоматическая расшифровка звонков с точными таймингами и разделением по спикерам. Обработка возможна как в реальном времени, так и пакетно. Все данные остаются внутри компании, без передачи в облако.
Платформы с видео-контентом — создание автосубтитров, перевод и анализ тем. Речь разбивается на фразы, добавляются таймкоды, поддерживаются форматы субтитров: SRT, VTT, ASS, SSA и SUB..
Медицина и юриспруденция — преобразование аудиозаписей медицинских заключений и судебных заседаний в текст. Используется офлайн-решение, что особенно важно для соблюдения конфиденциальности.
Финансовый сектор — распознавание голосовых заявок, команд и комментариев клиентов для ускорения обработки информации и повышения точности.
Чат-боты и голосовые ассистенты — преобразование речи в текст для последующего анализа и генерации ответов. Такая связка позволяет строить сложные голосовые интерфейсы и улучшать пользовательский опыт.
Почему выбирают нас?
Точность — качество сравнимо или выше, чем у лидеров рынка.
Цена — Дешевле, чем у конкурентов. Скидки для стартапов. Пишите, по цене сделаем, чтобы вы были довольны :)
Скорость — распознавание 1 часа аудио занимает от 1 до 5 минут.
Безопасность — работает у вас на сервере, все данные остаются у вас.
Гибкость — после разворачивания можно использовать, как REST API или пользоваться UI через браузер.
Поддержка — по любым вопросам, в любое время.
Мы сделали решение, которое можно просто развернуть и легко встроить в ваш бизнес. Если вам нужен точный, быстрый Speech-to-Text для больших объемов аудио — попробуйте Lingvanex.
Если хотите протестировать — пишите на мой личный ящик alexeir@lingvanex.com. Дам до 2 месяцев демо бесплатно. Развернете у себя на сервере и попробуете. Со своей стороны гарантирую качественный сервис и поддержку!
Mr-Iron_Brain
От 1 до 5 минут на каком железе?
Aliaksei_Rudak Автор
RTX 3090