Транскрипция речи. Офлайн и без ограничений / forpes.ru

Главная
Транскрипция речи. Офлайн и без ограничений

Транскрипция речи. Офлайн и без ограничений

10.06.2025 09:44

Aliaksei_Rudak 2 1100 Источник

Привет, Хабр!

Меня зовут Алексей Рудак, я основатель компании Lingvanex. Более 8 лет мы делаем перевод и распознавание речи удобными, быстрыми и безопасными.

Сегодня расскажу, как мы прокачали наше распознавание речи и почему это может пригодиться вам. Наш продукт Lingvanex Speech Recognition уже сейчас даёт результат уровня Whisper Large v3, а по ряду задач — даже превосходит его:

точнее на ряде языков,
быстрее в работе,
дешевле в использовании,
Может делать субтитры с временными метками

Это не просто «ещё одна реализация Whisper». Мы вложили годы в адаптацию под реальные задачи бизнеса: шумные звонки, медицинские расшифровки, мультиязычные интервью, звонки с акцентами, перекрестные диалоги. Эта статья является опытом наших пользователей и реальных результатов тестов. Надеюсь, она будет полезна тем, кто работает с голосовыми интерфейсами, ИИ-продуктами, голосовыми ботами или просто хочет собрать свою систему транскрипции.

Почему мы вообще взялись за речь?

Потому что мир меняется. Люди говорят голосом всё больше: в мессенджерах, на звонках, в видео, в подкастах, даже в банках и госструктурах. А бизнесу надо понимать, анализировать и превращать устную речь в текст — точно и быстро. Мы подумали: а почему бы не сделать решение, которое будет не хуже популярных сервисов, но быстрее, дешевле и гибче?

Мы начали с простой идеи: взять лучшее от Whisper (модель OpenAI), добавить свои улучшения, и сделать speech-to-text, который можно применять для бизнеса

И у нас получилось. На картинке пример UI, которое работает через браузер. Также можно работать через REST API.

Что мы сделали

Да, мы использовали Whisper. Но вместо слепого копирования — провели тонкую настройку.

Мы обучили свои версии моделей на специализированных датасетах, включая аудио с шумом, разными акцентами и низким качеством записи. В результате — наша система справляется с реальной речью, а не только с идеально записанным дикторским текстом. Кроме того, наша система точно обрабатывает длинные аудиофайлы (более 2 часов), в отличие от многих решений на рынке.

Частые ошибки и как мы их решаем

Любая STT-модель сталкивается с рядом типичных проблем:

Фоновый шум — мы используем встроенное шумоподавление + обучались на шумных аудио.
Несколько голосов одновременно — поддерживаем diarization, на входе определяем и сегментируем одновременно нескольких спикеров.
Акценты/диалекты — тренируем модели на корпусах с различными акцентами.

Кроме того, мы тестируем модель на реальных аудио звонках и подкастах, а не только на вычищенных датасетах. Это даёт гораздо более реалистичную картину ошибок и улучшений.

Результаты тестов

При оценке систем распознавания речи важны объективные метрики. Мы провели сравнительный тест Lingvanex и Whisper на стандартных и реальных данных по следующим показателям:

Word Error Rate (WER) — процент ошибок на уровне слов. Чем ниже, тем точнее распознавание.
Character Error Rate (CER) — процент ошибок на уровне символов. Важно для сложных терминов и имён.
Время обработки аудио — сколько секунд требуется системе для обработки одной минуты аудио. Критично для больших объёмов данных.

Эти метрики позволяют оценить не только точность, но и скорость, а также адаптивность системы к реальным условиям.

По всем трём показателям — WER, CER и времени обработки — Lingvanex превосходит Whisper. Он точнее распознает речь на уровне слов и символов, а также значительно быстрее обрабатывает аудиофайлы. Особенно на:

телефонных звонках;
подкастах с несколькими спикерами;
аудио с акцентами.

Подробнее о методологии и результатах тестирования можно почитать здесь.

Разумеется, мы провели сравнение и с другими системами распознавания речи по основным метрикам. Что важно: мы тестируем не только на английском, но и на других популярных языках — испанском, французском, немецком, арабском. Вкратце: Lingvanex допускает меньше ошибок, особенно при неидеальном качестве звука.

Где используется наше решение распознавания речи?

Решение уже работает в десятках компаний — от техподдержки до медицины — и помогает быстрее, точнее и безопаснее обрабатывать голосовые данные. Вот реальные кейсы клиентов:

Call-центры и банки — автоматическая расшифровка звонков с точными таймингами и разделением по спикерам. Обработка возможна как в реальном времени, так и пакетно. Все данные остаются внутри компании, без передачи в облако.
Платформы с видео-контентом — создание автосубтитров, перевод и анализ тем. Речь разбивается на фразы, добавляются таймкоды, поддерживаются форматы субтитров: SRT, VTT, ASS, SSA и SUB..
Медицина и юриспруденция — преобразование аудиозаписей медицинских заключений и судебных заседаний в текст. Используется офлайн-решение, что особенно важно для соблюдения конфиденциальности.
Финансовый сектор — распознавание голосовых заявок, команд и комментариев клиентов для ускорения обработки информации и повышения точности.
Чат-боты и голосовые ассистенты — преобразование речи в текст для последующего анализа и генерации ответов. Такая связка позволяет строить сложные голосовые интерфейсы и улучшать пользовательский опыт.

Почему выбирают нас?

Точность — качество сравнимо или выше, чем у лидеров рынка.
Цена — Дешевле, чем у конкурентов. Скидки для стартапов. Пишите, по цене сделаем, чтобы вы были довольны :)
Скорость — распознавание 1 часа аудио занимает от 1 до 5 минут.
Безопасность — работает у вас на сервере, все данные остаются у вас.
Гибкость — после разворачивания можно использовать, как REST API или пользоваться UI через браузер.
Поддержка — по любым вопросам, в любое время.

Мы сделали решение, которое можно просто развернуть и легко встроить в ваш бизнес. Если вам нужен точный, быстрый Speech-to-Text для больших объемов аудио — попробуйте Lingvanex.

Если хотите протестировать — пишите на мой личный ящик alexeir@lingvanex.com. Дам до 2 месяцев демо бесплатно. Развернете у себя на сервере и попробуете. Со своей стороны гарантирую качественный сервис и поддержку!

Комментарии (2)

Mr-Iron_Brain
10.06.2025 10:05
#28419866
От 1 до 5 минут на каком железе?
1. Aliaksei_Rudak Автор
  10.06.2025 10:05
  #28419964
  RTX 3090