Хотите не забывать детали диалога или то, что вас просили купить в магазине? Конечно, можно по старинке открывать блокнот в телефоне или чат в избранном и записывать все руками, но в потоке задач это неудобно. Гораздо проще надиктовать мысли или записать разговор, а расшифровку доверить сервису. 

Сегодня ASR-системы нового поколения способны учитывать контекст беседы и выдавать осмысленный текст. Однако у любой медали есть обратная сторона — архитектурные ограничения. Чтобы понять, готовы ли эти модели к жизненным сценариям, мы устроили им бенчмарк на Hugging Face. Ниже — разбор того, ломается ли контекстное окно алгоритмов на длинных аудиозаписях и как фоновый шум влияет на итоговое качество транскрибации.

Первый испытуемый: Qwen-ASR DEMO

Начнем тестирование с модели Qwen3-ASR DEMO, представляющей собой веб-интерфейс для работы с моделью распознавания речи Qwen3-ASR-1.7B в сочетании с модулем Qwen3-ForcedAligner-0.6B, который сопоставляет распознанный текст с временными метками аудиозаписи.

Что умеет модель:

  • поддерживает 30 языков и автоматически определяет язык общения;

  • создает временные метки на уровне отдельных слов и даже символов;

  • генерирует расшифровку с привязкой к времени. 

Интерфейс состоит из области загрузки аудиофайлов, выбора языка распознавания, настройки временных меток, поля для отображения результата и окна с данными временных меток в формате JSON.

Что интересно, автоматическое определение языка и режима работы модели реализовано через специальные токены-системы — модель сама вставляет метку языка до транскрипта.

Первый тест

Первый аудио-файл, который был успешно транскрибирован, содержал в себе «Сказку о попе и работнике его Балде» («Сказку о царе Салтане» не осилили). Модель определила язык как русский, предоставила результат транскрипции и расставила точные временные метки. 

Результат генерации (сохранены ошибки модели)

Сказка о попе и о работнике его Балде. Жил-был поп, толоконный лоб. Пошел поп по базару посмотреть кое-какого товару. Навстречу ему Балда. Идет, сам не зная куда. Что, батька, так рано поднялся? Чего ты взыскался? Поп ему в ответ. Нужен мне работник, повар, конюх и плотник. А где найти мне такого служителя не слишком дорогого? Балда говорит, буду служить тебе славно, Усердно и очень исправно. В год за три щелка тебе полбу. Есть же мне давай вареную полбу. Призадумался поп, Стал себе почесывать лоб. Щелк щелкует рось. Призадумался поп, стал себе почесывать лоб, щелк-щелкует рось, да понадеялся он на русский авось. Поп говорит балде, ладно, не будет нам обоим накладно, поживи-ка на моем подворье, окажи свое усердие и проворье. Живет балда в поповом доме, Спит себе на соломе, Ест за четверых, Работает за семерых, До светла все у него пляшет, Лошадь запряжет, Полосу вспашет, Печь затопит, Все заготовит, закупит, яичко испечет, да сам и облупит. Попадья балдой не нахвалится, поповна о балде лишь и печалится. Попенок зовет его тятей, кашу заварит, нянчится с детятей. Только поп один балду Не любит. Никогда его не приголубит. О расплате думает Частенько. Время Идет, и срок уж близенько. Поп не ест, Не пьет, ночи не спит, Лоб у него заранее Трещит. Вот он по подье Признается. Так и так, Что делать остается? Ум у бабы. Ранее трещит. Вот он, Пападье, признается, Так и так, что делать остается. Ум у бабы догадлив, На всякие хитрости повадлив. Пападье говорит, знаю средства, Как удалить от нас такое бедство. Закажи балде службу, Чтоб стала ему не в мочь А требуй, чтоб он ее исполнил точь-в-точь Тем ты и лоб от расправы избавишь И балду-то без расплаты отправишь Стало на сердце попа веселее Начал он глядеть на балду посмелее Вот он кричит, поди-ка сюда Продолжение следует. Повеселее Начал он глядеть на балду Посмелее Вот он кричит Поди-ка сюда Верный мой работник Балда Слушай Платить обязались черти Мне оброк По самой моей смерти Лучшего б не надо б на дохода Да есть на них недоимки За три года Как наешься ты своей полбы Собери-ка с чертей Оброк мне полный Балда с попом понапрасну Не споря пошел Сел у берега моря Там он стал веревку крутить До конец ее в море Мочить Вот из моря вылез старый бес Зачем ты, балда, к нам залез? Да вот веревкой хочу море морщить Да вас, проклятое племя, корчить Беса старого взяла тут унылость Скажи, за что такая немилость? Как за что? Вы не платите оброка? Не помните положенного срока? Вот уже будет нам потеха, Вам, собакам, великая помеха. Балдушка, погоди ты морщить море, Оброк сполна ты получишь вскоре. Погоди, вышлю к тебе внука. Балда мыслит, этого провести не штука. Вынырнул подосланный бесенок. Замяукал он, как голодный котенок. Здравствуй, балда, мужичок. Какой тебе надобен оброк? Об оброке век мы не слыхали. Не было и — Здравствуй, балда, мужичок! Какой тебе надобен оброк? Об оброке век мы не слыхали, и не было чертям такой печали. Но так и быть, возьми да с уговору, с общего нашего приговору, чтоб впредь не было никому горя. Кто скорее из нас обежит около моря, тот и бери себе полный оброк. Между тем там приготовят мешок. Засмеялся балда лукаво. Что ты это выдумал, право? Где тебе тягаться со мною? Со мною, с самим балдою! Экого послали супостата Подожди-ка моего меньшого брата Пошел Балда в ближний лесок Поймал двух зайков да в мешок К морю опять он приходит У моря бесенка находит Держит Балда за уши одного зайку Попляшет-ка ты под нашу балалайку. Ты, бесёнок, ещё молоденек. Со мною тягаться слабенек. Это было б лишь время нитрата. Обгони-ка сперва моего брата. Раз, два, три! Догоняй-ка! Пустились Бесёнок и Зайка. Бесёнок по берегу морскому, а Зайка в лесок до дому. Вот море кругом обижавши, высунув язык, мордку поднявши, Прибежал бесёнок задыхаясь, Весь мокрёшенек лапкой утираясь, Мысля, дело с балдою сладит, Глядь, а балда братца гладит, Приговаривая, братец мой любимый, Устал, бедняжка, отдохни, родимый. Бесенок оторопел, хвостик поджал, совсем присмирял. На братца поглядывает боком. Погоди, говорит, схожу за оброком. Пошел к деду, говорит, беда,огнал меня меньшой балда Старый бес стал тут думать думу А балда наделал такого шуму Что все море смутилось И волнами так и расходилось Вылез бесёнок, полный мужичок, Вышлем тебе весь оброк. Только слушай, видишь ты палку эту, Выбери себе любимую мету. Кто далее палку бросит, Тот пускай и оброк уносит. Что ж, боишься вывихнуть ручки? Чего ты ждёшь? Да жду вон этой тучки Зашвырну туда твою палку Да и начну с вами, чертями, свалку Испугался бесенок, да к деду Рассказывать про Болдову победу А Болда над морем опять шумит Да чертям веревкой грозит Вылез опять бесенок Что ты хлопочешь? Будет тебе оброк, коли захочешь Нет, говорит Болда Теперь моя череда Условия сам назначу Задам тебе, вражонок, задачу. Посмотрим, какова у тебя сила. Видишь там сивая кобыла? Кобылу подымит-ка ты, донеси ее полверсты. Снесешь кобылу, а брокуш твой. Не снесешь кобылы, а он будет он мой. Бедненький бес под кобылу подлез, Понатужился, понапружился, Приподнял кобылу, два шага шагнул, На третьем упал, ножки протянул. Обалда емулупый ты бес Куда ж ты за нами Полез И руками-то снести не смог А я смотри Снесу промеж ног Сел балда На кобылку верхом До версту проскак Так что пыль столбом. Испугался бесенок и к деду Пошел рассказывать про такую победу. Делать нечего. Черти собрали оброк, Да на балду взвалили мешок. Идет балда, покрякивает, А поп, завидя балду, вскакивает, За попадью прячется, со страху корячится. Балда его тут отыскал, отдал оброк, Платы требовать стал. Бедный поп подставил лоб. С первого щелка прыгнул поп до потолка. Со второго щелка лишился поп языка, А с третьего щелка вышибла ум у старика. А балда приговаривал сукавизной, «Не гонялся бы ты, поп, за дешевизной».

Итог по первому тесту

Транскрипция получилась очень длинной, поэтому прилагаю фрагмент.

Полный фрагмент

[{"text":"Скаска","start_time":0.56,"end_time":1.44},{"text":"опять","start_time":1.44,"end_time":1.84},{"text":"я","start_time":1.92,"end_time":2.16},{"text":"работник","start_time":2.96,"end_time":3.68},{"text":"его","start_time":3.68,"end_time":4.48},{"text":"болде","start_time":4.56,"end_time":5.2},{"text":"Жил","start_time":8.08,"end_time":8.56},{"text":"был","start_time":8.56,"end_time":8.96},{"text":"поп","start_time":8.96,"end_time":9.68},{"text":"толконный","start_time":10.72,"end_time":11.76},{"text":"лоб","start_time":11.76,"end_time":12.16},{"text":"Пошел","start_time":14,"end_time":14.4},{"text":"поп","start_time":14.4,"end_time":14.88},{"text":"в","start_time":14.88,"end_time":14.88},{"text":"алару","start_time":14.96,"end_time":15.68},{"text":"посмотреть","start_time":16,"end_time":16.72},{"text":"кое","start_time":16.72,"end_time":17.04},{"text":"какого","start_time":17.04,"end_time":17.52},{"text":"товара","start_time":17.52,"end_time":18.24},{"text":"На","start_time":19.36,"end_time":19.52},{"text":"встрече","start_time":19.52,"end_time":20.08},{"text":"ему","start_time":20.08,"end_time":20.32},{"text":"болда","start_time":20.32,"end_time":20.96},{"text":"идет","start_time":21.52,"end_time":22.24},{"text":"сам","start_time":22.4,"end_time":22.8},{"text":"не","start_time":22.8,"end_time":22.88},{"text":"знает","start_time":22.88,"end_time":23.36},{"text":"куда","start_time":23.36,"end_time":23.84}]

Модель поняла практически весь сюжет произведения и правильно передала последовательность событий. Хотя в тексте присутствует большое количество ошибок в отдельных словах, особенно это заметно при разборе устаревшей лексики и сложных речевых оборотах — слова были заменены на созвучные варианты (например, «в алару» вместо «по базару»), что заметно снизило точность распознавания.

В результате, общий смысл сказки остается понятным, но качество транскрибации можно оценить как удовлетворительное.

Каталог готовых ИИ-моделей

Сервис для запуска и управления LLM в облаке Selectel. Выберите модель, конфигурацию и получите готовый эндпоинт для работы с ней.

Подробнее →

Второй тест

Следующий тест — распознавание речи с сильными шумовыми помехами. В качестве опытного образца было взято изложение «Воров сын» по рассказу Лескова «Под праздник обидели», которое читает Л. Н. Толстой (26 февраля 1908 г).

Ванка, товари, попался Вань, сброс там и купец, товари, совершил честь, ну что, я сказал, идите других пути.

Результат распознавания оказался неудовлетворительным. Модель смогла распознать очень малую часть слов. Даже современные системы пока испытывают трудности в распознавании записи с фонографа, который, кстати, Лев Николаевич получил в подарок от Томаса Эдисона. 

Фрагмент второго теста

[{"text":"Ванка","start_time":368.678,"end_time":369.318},{"text":"товари","start_time":369.318,"end_time":369.318},{"text":"попался","start_time":369.318,"end_time":374.038},{"text":"Вань","start_time":376.118,"end_time":376.118},{"text":"сброс","start_time":377.638,"end_time":377.638},{"text":"там","start_time":377.638,"end_time":377.638},{"text":"и","start_time":377.638,"end_time":377.638},{"text":"купец","start_time":377.638,"end_time":377.638},{"text":"товари","start_time":377.638,"end_time":377.638},{"text":"совершил","start_time":377.638,"end_time":378.438},{"text":"честь","start_time":378.438,"end_time":378.438},{"text":"ну","start_time":378.438,"end_time":378.438},{"text":"что","start_time":378.438,"end_time":378.438},{"text":"я","start_time":378.438,"end_time":378.998},{"text":"сказал","start_time":378.998,"end_time":379.478},{"text":"идите","start_time":379.478,"end_time":381.478},{"text":"других","start_time":381.478,"end_time":381.478},{"text":"пути","start_time":382.758,"end_time":382.758}]

Итог по второму тесту

По качеству распознавания Qwen3-ASR Demo выглядит как нормальное решение с хорошим запасом слов на русском языке. Отдельный плюс в том, что система рассчитана не только на чистую дикторскую речь, которую вполне легко распознать, но и на более сложные записи, что было продемонстрировано при первой генерации. 

В этом главное отличие Qwen от более старых транскрибаторов, которые в идеальных условиях работали исправно, но начинали заметно сдавать позиции на более старых записях. Qwen3-ASR производит впечатление инструмента, ориентированного скорее не на сферического коня в вакууме, а на решение прикладных задач, не углубляясь в фанатизм и расшифровки аудио, записанных на фонограф.

Второй испытуемый: Whisper‑large‑v3

Whisper‑large‑v3 — модель от OpenAI с некоторыми улучшениями по сравнению с v2. Построена как последовательная модель для автоматического распознавания и перевода. Whisper обучалась на очень больших объемах аудиоматериала — миллион часов слабо размеченного аудио и четыре миллиона часов псевдоразмеченного аудио, полученного с помощью предыдущей версии Whisper. Модель прошла через огромный спектр звучаний, акцентов и типов речи, но получила и некие особенности, о которых поговорим далее.

Что умеет модель:

  • поддерживает 99+ языков и автоматически определяет язык общения;

  • содержит 1,55 млрд параметров в архитектуре Large;

  • принимает файлы через загрузку медиа или потоком через микрофон;

  • распознает речь любой плотности, включая многоязычные и зашумленные аудиопотоки;

  • обрабатывает аудио методом нарезки на жесткие чанки по 30 секунд.

Аудиофайл был загружен тот же самый, что и в первом тестировании Qwen.

Результат генерации (сохранены ошибки модели)

Сказка о попе и о работнике его Балде. Жил-был поп, толоконный лоб. Пошел поп по базару посмотреть кое-какого товару. Навстречу ему Балда. Идет, сам не зная куда. Что, батька, так рано поднялся? Чего ты взыскался? Поп ему в ответ. Нужен мне работник, повар, конюх и плотник. А где найти мне такого служителя не слишком дорогого? Балда говорит, буду служить тебе славно, Усердно и очень исправно. В год за три щелка тебе полбу. Есть же мне давай вареную полбу. Призадумался поп, Стал себе почесывать лоб. Щелк щелкует рось. Призадумался поп, стал себе почесывать лоб, щелк-щелкует рось, да понадеялся он на русский авось. Поп говорит балде, ладно, не будет нам обоим накладно, поживи-ка на моем подворье, окажи свое усердие и проворье. Живет балда в поповом доме, Спит себе на соломе, Ест за четверых, Работает за семерых, До светла все у него пляшет, Лошадь запряжет, Полосу вспашет, Печь затопит, Все заготовит, закупит, яичко испечет, да сам и облупит. Попадья балдой не нахвалится, поповна о балде лишь и печалится. Попенок зовет его тятей, кашу заварит, нянчится с детятей. Только поп один балду Не любит. Никогда его не приголубит. О расплате думает Частенько. Время Идет, и срок уж близенько. Поп не ест, Не пьет, ночи не спит, Лоб у него заранее Трещит. Вот он по подье Признается. Так и так, Что делать остается? Ум у бабы. Ранее трещит. Вот он, Пападье, признается, Так и так, что делать остается. Ум у бабы догадлив, На всякие хитрости повадлив. Пападье говорит, знаю средства, Как удалить от нас такое бедство. Закажи балде службу, Чтоб стала ему не в мочь А требуй, чтоб он ее исполнил точь-в-точь Тем ты и лоб от расправы избавишь И балду-то без расплаты отправишь Стало на сердце попа веселее Начал он глядеть на балду посмелее Вот он кричит, поди-ка сюда Продолжение следует. Повеселее Начал он глядеть на балду Посмелее Вот он кричит Поди-ка сюда Верный мой работник Балда Слушай Платить обязались черти Мне оброк По самой моей смерти Лучшего б не надо б на дохода Да есть на них недоимки За три года Как наешься ты своей полбы Собери-ка с чертей Оброк мне полный Балда с попом понапрасну Не споря пошел Сел у берега моря Там он стал веревку крутить До конец ее в море Мочить Вот из моря вылез старый бес Зачем ты, балда, к нам залез? Да вот веревкой хочу море морщить Да вас, проклятое племя, корчить Беса старого взяла тут унылость Скажи, за что такая немилость? Как за что? Вы не платите оброка? Не помните положенного срока? Вот уже будет нам потеха, Вам, собакам, великая помеха. Балдушка, погоди ты морщить море, Оброк сполна ты получишь вскоре. Погоди, вышлю к тебе внука. Балда мыслит, этого провести не штука. Вынырнул подосланный бесенок. Замяукал он, как голодный котенок. Здравствуй, балда, мужичок. Какой тебе надобен оброк? Об оброке век мы не слыхали. Не было и — Здравствуй, балда, мужичок! Какой тебе надобен оброк? Об оброке век мы не слыхали, и не было чертям такой печали. Но так и быть, возьми да с уговору, с общего нашего приговору, чтоб впредь не было никому горя. Кто скорее из нас обежит около моря, тот и бери себе полный оброк. Между тем там приготовят мешок. Засмеялся балда лукаво. Что ты это выдумал, право? Где тебе тягаться со мною? Со мною, с самим балдою! Экого послали супостата Подожди-ка моего меньшого брата Пошел Балда в ближний лесок Поймал двух зайков да в мешок К морю опять он приходит У моря бесенка находит Держит Балда за уши одного зайку Попляшет-ка ты под нашу балалайку. Ты, бесёнок, ещё молоденек. Со мною тягаться слабенек. Это было б лишь время нитрата. Обгони-ка сперва моего брата. Раз, два, три! Догоняй-ка! Пустились Бесёнок и Зайка. Бесёнок по берегу морскому, а Зайка в лесок до дому. Вот море кругом обижавши, высунув язык, мордку поднявши, Прибежал бесёнок задыхаясь, Весь мокрёшенек лапкой утираясь, Мысля, дело с балдою сладит, Глядь, а балда братца гладит, Приговаривая, братец мой любимый, Устал, бедняжка, отдохни, родимый. Бесенок оторопел, хвостик поджал, совсем присмирял. На братца поглядывает боком. Погоди, говорит, схожу за оброком. Пошел к деду, говорит, беда,огнал меня меньшой балда Старый бес стал тут думать думу А балда наделал такого шуму Что все море смутилось И волнами так и расходилось Вылез бесёнок, полный мужичок, Вышлем тебе весь оброк. Только слушай, видишь ты палку эту, Выбери себе любимую мету. Кто далее палку бросит, Тот пускай и оброк уносит. Что ж, боишься вывихнуть ручки? Чего ты ждёшь? Да жду вон этой тучки Зашвырну туда твою палку Да и начну с вами, чертями, свалку Испугался бесенок, да к деду Рассказывать про Болдову победу А Болда над морем опять шумит Да чертям веревкой грозит Вылез опять бесенок Что ты хлопочешь? Будет тебе оброк, коли захочешь Нет, говорит Болда Теперь моя череда Условия сам назначу Задам тебе, вражонок, задачу. Посмотрим, какова у тебя сила. Видишь там сивая кобыла? Кобылу подымит-ка ты, донеси ее полверсты. Снесешь кобылу, а брокуш твой. Не снесешь кобылы, а он будет он мой. Бедненький бес под кобылу подлез, Понатужился, понапружился, Приподнял кобылу, два шага шагнул, На третьем упал, ножки протянул. Обалда емулупый ты бес Куда ж ты за нами Полез И руками-то снести не смог А я смотри Снесу промеж ног Сел балда На кобылку верхом До версту проскак Так что пыль столбом. Испугался бесенок и к деду Пошел рассказывать про такую победу. Делать нечего. Черти собрали оброк, Да на балду взвалили мешок. Идет балда, покрякивает, А поп, завидя балду, вскакивает, За попадью прячется, со страху корячится. Балда его тут отыскал, отдал оброк, Платы требовать стал. Бедный поп подставил лоб. С первого щелка прыгнул поп до потолка. Со второго щелка лишился поп языка, А с третьего щелка вышибла ум у старика. А балда приговаривал сукавизной, «Не гонялся бы ты, поп, за дешевизной».

Итог по первому тесту

Модель хорошо транскрибировала звуковой файл, расставила знаки препинания, но почему-то вставила слова, которых нет. Это происходит не из-за ошибки декодирования, а из-за самой нейросетевой логики. Когда в аудио файле почти нет речи или появляется длинная пауза между предложениями, модель пытается найти наиболее вероятное продолжение последовательности. Это отложилось у нейросети во время обучения – при анализе лекций, интервью, сказок, видео. В обучающих данных часто встречались шаблонные фразы вроде «подписывайтесь и ставьте лайки», «перевел и озвучил», «по мотивам».

Поэтому при отсутствии акустической информации модель начинает опираться не на звук, а на свои языковые вероятности – это называют галлюцинированием моделей.

Второй тест

Второй аудио-файл так же содержит в себе запись Л. Н. Толстого.

Собрался раз в нынешнем городе, в пустыне Казахстана. Был один студент, Иван Акилович Белок. Подсчетный, богатый человек. Его выбрали кричать за вселенную Казахстана. Вот, собрался, взлетнули они. Создал дом, собрали судить. И ворок накрасил. И вот, как судить его, трех старичок, Николай один говорит, не могу я, господин судья, судить его, и вот,, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, у него, Я вам скажу, что по-христианскому нельзя нам друг друга уйти. Я сам хуже этого, и я все-таки мой много хуже. Я сам вот раз раз. На донору-то ходили, не отпустили, и вон они. Вот, дело-то все было вот так. Так, и в складовая, и в складовой двери крепкие, и замки пробраться нельзя. А окно есть, так даже нахожение будет одним лицом. И в окно это большому человеку не влезть, а мальчику влезть можно. Так вот мы и думали, водитель с того мого мальчишку, он ловкий, он тут и вместится, мы его поджёжем и обвяжем верёвкой, пусть он тут и позабудет. Он там наберёт, что ему нужно, и нам будет подавать. Мы по верёвке повысекаем, а потом, когда всё отберёт, там себя опять обвяжем, и мы его высечем назад. Говорит мальчишка, ты все, сколько ты влезешь, я все могу, я лову хватит. Ну ладно, то жена услышала, говорит, что ты, Петро Ильич, скотеешь. А он за жену окликнул, жена знает, что с пьяным с ним говорить нечего. Испугалась его утрата, он взял мальчишку, одел, повел его в стопор. С ним говорить нечего, испугалась его укладка. Он взял машинку, одел, повел его с собой. И все они, как уговорили, пошли они заходить ночью, пошли ночью к Уксёву к водоводу. Подошли судьи и сделали все, как решено было. И делали всё, как решено было. Машинка ловкий был. Туда подсадили его в лес, в кладовую спустился и всё там отбирали. Такие шубы, такие паучьи вещи, как они ему приказывали, отбирал и завязывал. Они вытаскивали. Потом поручик говорит, что завтра завольно, а ночь была. Говорят, что ты сейчас мотив, теперь отвязывай себя. Мы тебя вытаскиваем. Отбежавшим от мотивского двухпоинта они потянулись, Редактор субтитров А.С дворник. Уплотнел полный. Назад, хорошо, что на мягкое, не уходишь. А тут же дворник, ухлышал повод, вышел, стал спрашивать, кто за люди. Так они уезжали, бросились, бежали, убежали. А мальчишка отстал, отстал, говорит, мама, мама, мама, мама. Редактор не догоняли. Машинку логовую, отчетную, и их мальчишке пришли в свадебный режим, и все, маму зовет. Позвали хозяина. Хозяин был добрый человек. Убежал мальчишку, жалко ему стало. И слышит он, что сволочи говорят, ну не следует, так не от нас разбойничья делаются. Мы по мальчишке знаем, где они ходили. А хозяин говорит, ох, неладного, говорит, по хребтням дурску разве можно ребенка заставить на отца покажем? Оставим на тело, пропало как пропало, а мальчишку поверить надо. Сел его домой, кормил, уложил в пакет. Говорит, всё к матери брось. Но что же его утехать? Немножко поднялся и привык. Привык, и как встал из-за бутылки. Был, дожил, и как встал из-за бутылки лапонька. И только влетает там, вырос башкой. Всё время бежит, а ухаживает. И был этот самый Ванька, который попался в амбаре, и был тот самый Купец, который старшиной у притяжных был и отказался судить других людей.

Итог по второму тесту

Генерация получилась лучше, чем у Qwen, но при разборе транскрибации можно заметить, что, помимо повторения словосочетания «у него», модель почему-то распознала в словах «Казахстан».

Повторяется модель из-за того, что она теряет уверенность в том, что слышит в аудио, зацикливаясь на последнем слове или фразе. Вместо распознавания реальной речи декодер продолжает генерировать наиболее вероятное продолжение, которым оказывается уже распознанное слово.

Я отмечу, что whisper-large-v3 уже немолодая, но опытная модель. Ее легко встроить в рабочий процесс, вокруг нее сложилась большая практика использования, она обучена на большом количестве данных. Да, есть свои нюансы в ее использовании, которые тоже научились нивелировать.

Характеристика

Qwen3-ASR (1.7B)

Whisper‑large‑v3

Размер

1.7 B

1.5B

Языки

30 языков

Более 99 языков

Режимы работы

Загрузка медиа, через микрофон

Загрузка медиа, через микрофон

Тип аудио

Речь

Речь (в том числе с помехами)

Точность

Средняя

Высокая

Устойчивость к шуму

Плохая

Высокая

(распознавание фонового 

шума)

Инструмент выравнивания

Встроенный ForcedAligner (0.6B)

Требует сторонних библиотек

По результатам проведенного тестирования модель whisper-large-v3 показала лучшие результаты по сравнению с Qwen3-ASR. При расшифровке аудиозаписи со сказкой модель от OpenAI допустила меньше ошибок и точнее передала содержание исходного текста. 

Также модель продемонстрировала высокое качество распознавания записи Л.Н. Толстого, несмотря на наличие фонового шума и посторонних звуков. Qwen3-ASR в аналогичных условиях чаще допускал неточности, пропуски отдельных слов и ошибки в распознавании фраз.

Финальные мысли

По итогам сравнения, whisper-large-v3 оказалась более точной и надежной моделью для задач транскрибации аудиозаписей различного качества.

Когда-нибудь модели научатся с большой точностью распознавать все языки, диалекты и сленги мира, и мы получим бесшовный переводчик со всех на все языки. Но пока довольствуемся чем можем — кривыми расшифровками, модификациями слов, трудностями распознавания фоновых шумов, сленга и диалектов.

Комментарии (4)


  1. Dr_Faksov
    25.06.2026 04:34

    Краткое резюме - "А балда приговаривал сукавизной". Обе модели.


    1. Flampanzer Автор
      25.06.2026 04:34

      Добрый день. А чтобы не было такого, нужно обучать модели(свои, отечественные) распознавать великий и могучий разных эпох -- от старославянского, до современного сленгового и даже межславянского. Последний, наверное, уже пора из мема выводить в реальный язык, но это в будущем.


  1. fermentum
    25.06.2026 04:34

    Whisper надо правильно конфигурировать под задачи, например включить vad фильтр, чтобы модель не генерировала бред в паузах.

    Сравнение моделей в лоб без настроек не очень корректное.


    1. Flampanzer Автор
      25.06.2026 04:34

      Добрый день, спасибо за коммент. Вы правы, нужно ограничивать модель от придумок. Хотелось немного пояснить читателям, не использовавшим модели STT, как и почему модель "додумывает" слова при паузах, поэтому фильтрация не использовалась