Привет, Хабр!

Меня зовут Алексей Рудак, я основатель компании Lingvanex. Более 8 лет мы делаем перевод и распознавание речи удобными, быстрыми и безопасными.

Сегодня расскажу, как мы прокачали наше распознавание речи и почему это может пригодиться вам. Наш продукт Lingvanex Speech Recognition уже сейчас даёт результат уровня Whisper Large v3, а по ряду задач — даже превосходит его:

  • точнее на ряде языков,

  • быстрее в работе,

  • дешевле в использовании,

  • Может делать субтитры с временными метками

Это не просто «ещё одна реализация Whisper». Мы вложили годы в адаптацию под реальные задачи бизнеса: шумные звонки, медицинские расшифровки, мультиязычные интервью, звонки с акцентами, перекрестные диалоги. Эта статья является опытом наших пользователей и реальных результатов тестов. Надеюсь, она будет полезна тем, кто работает с голосовыми интерфейсами, ИИ-продуктами, голосовыми ботами или просто хочет собрать свою систему транскрипции.

Почему мы вообще взялись за речь?

Потому что мир меняется. Люди говорят голосом всё больше: в мессенджерах, на звонках, в видео, в подкастах, даже в банках и госструктурах. А бизнесу надо понимать, анализировать и превращать устную речь в текст — точно и быстро. Мы подумали: а почему бы не сделать решение, которое будет не хуже популярных сервисов, но быстрее, дешевле и гибче?

Мы начали с простой идеи: взять лучшее от Whisper (модель OpenAI), добавить свои улучшения, и сделать speech-to-text, который можно применять для бизнеса 

И у нас получилось. На картинке пример UI, которое работает через браузер. Также можно работать через REST API.

Что мы сделали

Да, мы использовали Whisper. Но вместо слепого копирования — провели тонкую настройку. 

Мы обучили свои версии моделей на специализированных датасетах, включая аудио с шумом, разными акцентами и низким качеством записи. В результате — наша система справляется с реальной речью, а не только с идеально записанным дикторским текстом. Кроме того, наша система точно обрабатывает длинные аудиофайлы (более 2 часов), в отличие от многих решений на рынке.

Частые ошибки и как мы их решаем

Любая STT-модель сталкивается с рядом типичных проблем:

  • Фоновый шум — мы используем встроенное шумоподавление + обучались на шумных аудио.

  • Несколько голосов одновременно   — поддерживаем diarization, на входе определяем и сегментируем одновременно нескольких спикеров.

  • Акценты/диалекты — тренируем модели на корпусах с различными акцентами.

Кроме того, мы тестируем модель на реальных аудио звонках и подкастах, а не только на вычищенных датасетах. Это даёт гораздо более реалистичную картину ошибок и улучшений.

Результаты тестов

При оценке систем распознавания речи важны объективные метрики. Мы провели сравнительный тест Lingvanex и Whisper на стандартных и реальных данных по следующим показателям:

  • Word Error Rate (WER) — процент ошибок на уровне слов. Чем ниже, тем точнее распознавание.

  • Character Error Rate (CER) — процент ошибок на уровне символов. Важно для сложных терминов и имён.

  • Время обработки аудио — сколько секунд требуется системе для обработки одной минуты аудио. Критично для больших объёмов данных.

Эти метрики позволяют оценить не только точность, но и скорость, а также адаптивность системы к реальным условиям.

По всем трём показателям — WER, CER и времени обработки — Lingvanex превосходит Whisper. Он точнее распознает речь на уровне слов и символов, а также значительно быстрее обрабатывает аудиофайлы. Особенно на:

  • телефонных звонках;

  • подкастах с несколькими спикерами;

  • аудио с акцентами.

Подробнее о методологии и результатах тестирования можно почитать здесь.

Разумеется, мы провели сравнение и с другими системами распознавания речи по основным метрикам. Что важно: мы тестируем не только на английском, но и на других популярных языках — испанском, французском, немецком, арабском. Вкратце: Lingvanex допускает меньше ошибок, особенно при неидеальном качестве звука.

Где используется наше решение распознавания речи?

Решение уже работает в десятках компаний — от техподдержки до медицины — и помогает быстрее, точнее и безопаснее обрабатывать голосовые данные. Вот реальные кейсы клиентов:

  • Call-центры и банки — автоматическая расшифровка звонков с точными таймингами и разделением по спикерам. Обработка возможна как в реальном времени, так и пакетно. Все данные остаются внутри компании, без передачи в облако.

  • Платформы с видео-контентом — создание автосубтитров, перевод и анализ тем. Речь разбивается на фразы, добавляются таймкоды, поддерживаются форматы субтитров: SRT, VTT, ASS, SSA и SUB..

  • Медицина и юриспруденция — преобразование аудиозаписей медицинских заключений и судебных заседаний в текст. Используется офлайн-решение, что особенно важно для соблюдения конфиденциальности.

  • Финансовый сектор — распознавание голосовых заявок, команд и комментариев клиентов для ускорения обработки информации и повышения точности.

  • Чат-боты и голосовые ассистенты — преобразование речи в текст для последующего анализа и генерации ответов. Такая связка позволяет строить сложные голосовые интерфейсы и улучшать пользовательский опыт.

Почему выбирают нас?

  • Точность — качество сравнимо или выше, чем у лидеров рынка.

  • Цена — Дешевле, чем у конкурентов.  Скидки для стартапов. Пишите, по цене сделаем, чтобы вы были довольны :)

  • Скорость — распознавание 1 часа аудио занимает от 1 до 5 минут.

  • Безопасность — работает у вас на сервере, все данные остаются у вас.

  • Гибкость — после разворачивания можно использовать, как REST API или пользоваться UI через браузер.

  • Поддержка — по любым вопросам, в любое время.

Мы сделали решение, которое можно просто развернуть и легко встроить в ваш бизнес. Если вам нужен точный, быстрый Speech-to-Text для больших объемов аудио — попробуйте Lingvanex. 

Если хотите протестировать — пишите на мой личный ящик alexeir@lingvanex.com. Дам до 2 месяцев демо бесплатно. Развернете у себя на сервере и попробуете. Со своей стороны гарантирую качественный сервис и поддержку!

Комментарии (2)


  1. Mr-Iron_Brain
    10.06.2025 10:05

    От 1 до 5 минут на каком железе?


    1. Aliaksei_Rudak Автор
      10.06.2025 10:05

      RTX 3090