Топ-5 бесплатных нейросетей для транскрибации: лучшие сервисы для перевода аудио в текст / forpes.ru

Главная
Топ-5 бесплатных нейросетей для транскрибации: лучшие сервисы для перевода аудио в текст

Топ-5 бесплатных нейросетей для транскрибации: лучшие сервисы для перевода аудио в текст +23

30.07.2025 12:30

cognitronn 16 6600 Источник

Нас давно не удивишь тем, что нейросеть за пару секунд расшифровывает двухчасовую лекцию или превращает аудиозаметку в аккуратный текст с заголовками и абзацами. Мы живём в эпоху, где слова больше не нужно набирать вручную. Их достаточно просто произнести, а остальное за алгоритмами.

Сегодня мы решили проверить, как работают пять популярных нейросетевых помощников для перевода аудио в текст. И сделаем это необычным способом — через сказки!

Заинтересовали? Тогда давайте расшифровывать, сравнивать и делиться впечатлениями вместе.

Да, у сервисов нашего топа есть платные подписки, но сегодня разбираем только то, что работает бесплатно и не просит привязать карту «просто на всякий случай».

Приятного прочтения!

Как будем тестировать?

Загрузим нейросетям сказки, но не одну и не на одном языке. Так мы проверим, насколько хорошо искусственный интеллект справляется с многоязычностью. А заодно, умеет ли он отличать одного спикера от другого. Давайте слушать!

Русский язык — сказка про трёх медведей:

Расшифровка

Нарратор: Сейчас мы расскажем о том, что произошло однажды с непослушной девочкой Варварушкой.

Варварушка: Пусти меня, бабушка, погулять в лесу. Я грибочков, бабушка, белых принесу!

Бабушка: Не ходи, Варварушка, — попадёшь в беду. Лучше ты, Варварушка, поиграй в саду.

Варварушка (капризно): Ну, какая бабушка может быть беда?

Бабушка (вздыхая): Ох, смотри, Варварушка…

Варварушка: Ладно.

Нарратор: Не послушалась девочка — и пошла в лес.

Варварушка (весело напевает): Сидит ворон на дубу, не велит расти грибу. Ты, грибочек, вырасти, колодочки вырасти!

Нарратор: А в том лесу жили три медведя…

Медведи (вместе, с рычанием): О‑ооо!

Английский язык — «Красная Шапочка»:

Расшифровка

Нарратор: This is the story of Little Red Riding Hood. She»s got a red coat with a hood. She loves the coat. She wears it every day. She»s very happy today — it»s her birthday.

Нарратор: Little Red Riding Hood»s father is a woodcutter. He works in the forest every day. A lot of animals live in the forest, and a wolf lives there too.

Нарратор: Little Red Riding Hood»s mother says...

Мама: Grandmother is ill in bed. Go to her house, take her some bread and jam, but be careful — a wolf lives in the forest.

Красная Шапочка: Yes, Mother.

Нарратор: ...says Little Red Riding Hood. Little Red Riding Hood.

Нарратор: Little Red Riding Hood loves Grandmother. She is happy. She wants to see her.

С заданиями разобрались, теперь можно переходить к тестированию!

Первый в обзоре — BotHub

Тут доступна нейросеть AssemblyAI. Разработчики заявляют, что она умеет превращать аудио в текст с точностью 92,5% и поддерживает 99 языков. Но упор больше сделан на английский. Помимо самой расшифровки, нейросеть умеет делать авторазметку спикеров, извлекать ключевые темы, определять эмоции в голосе, автоматически убирать маты и шумы, а также делать саммари. Видео длиной в 1 час обрабатывается за 2–3 минуты.

Если регистрироваться по реферальной ссылке, вам сразу накидывают 100 000 капсов.

Транскрибация 1 минуты аудио обходится примерно в 36 000 штук. То есть бонуса хватает на 2,5 минуты расшифровки. Забираем и начинаем работать!

Тестируем!

(Русский язык)

Транскрибация выполнена с ошибками, как лексическими, так и грамматическими. Они допущены в пяти словах, и еще одно слово пропущено совсем. Спикеры определены неверно: их как минимум 3, а нейросеть распознала только двух (А и В). Знаки препинания расставлены некорректно. Некоторые союзы и слова пишутся с заглавной буквы без точки перед ними.

(Английский язык)

Тут нейросеть справилась лучше, чем с русским, пусть и незначительно. Транскрибация по словам точна, к ним вопросов нет. Но снова проблемы с определением спикеров и пунктуацией.

Следующий сервис — Riverside

Сервис основан на технологии OpenAI Whisper. А разработчики заявляют о точности до 99 %, распознавании более ста языков и даже понимании региональных акцентов. Готовый текст можно скачать в виде обычного TXT-файла с разметкой по спикерам или в формате SRT, который подойдёт для субтитров.

Riverside умеет различать до семи участников диалога (количество указывается до начала работы), каждому назначается своя метка. Но в случае одновременной речи будет нужна ручная корректировка!

Также есть редактор, где можно редактировать текст, а заодно и само аудио или видео. Например, вы можете удалить ненужную фразу из транскрипта, и она автоматически исчезнет из записи.

Платформа поддерживает загрузку и транскрибацию не только собственных записей, но и сторонних файлов — MP3, WAV, MP4, MOV. Всё работает в браузере, а также через мобильное приложение, не требуя установки софта.

Тестируем!

(Русский язык)

Чтобы нейросеть могла разбирать русскую речь, нужно перейти в настройки и сменить язык, затем нужно выбрать количество спикеров.

Её она транскрибировала примерно минуту. Увы, но со спикерами нейросеть напутала, также есть символы пробела, которые она не распознала. Много слов расшифрованы неправильно, особенно песенка девочки.

«Скопирую и покажу вам», — думал я, но нейросеть запрещает копирование. Скачивание и копирование результата доступны только на платной основе!

(Английский язык)

Перед этим в настройках выбираем English. Ставим 3 спикеров и загружаем «Красную Шапочку».

Спикеров она снова распределила неправильно. Тогда меняем их количество на один, чтобы текст был более собран, и оцениваем корректность расшифровки.

Кстати, кривая линия на дорожке означает любую смену громкости. Это могут быть слова, удары топора по дереву или банальное «хм».

Итак, распознал всё идеально! Знаки препинания на месте, посторонние звуки определены, паузы отмечены. Если не брать в счет спикеров, то это зачёт.

Встречаем третий сервис — Teamlogs

При переходе на сайт нас встречает интерфейс на русском языке. Загружаем файл и сервис моментально определяет длительность аудио. Можно выбрать язык (русский и английский закреплены в быстром доступе), а также включить определение спикеров.

После прохождения регистрации вам начислят 15 минут бесплатной транскрибации аудио. Сервис поддерживает загрузку файлов форматов MP3, WAV, MP4, MOV, M4A, MKV, AVI и OGG.

Текстовая вариант включает автоматическое добавление знаков препинания, тайм‑штампов, и разделение речи по спикерам. Встроенный редактор позволяет слушать исходные файлы, исправлять ошибки, выделять текст маркерами, задавать стили (жирный, курсив) и экспортировать результат в форматах DOCX, XLSX, SRT.

Самый приятный момент: в этом сервисе можно копировать текст прямо из транскрибации — и это бесплатно =)

Тестируем!

(Русский язык)

Спикеров сервис определил лучше, чем предыдущий, но всё же не смог отличить бабушку от внучки в середине аудио. Есть проблемы с пунктуацией и лексикой. Особенно с дефисами и окончаниями слов. В нескольких местах сервис даже перепутал их.

(Английский язык)

Что могу сказать? Определение спикеров снова подкачало. Сервис их вообще не распознал. Но вот с транскрибацией всё гораздо лучше. Почти идеальная расшифровка, за исключением пары мелких ошибок со знаками препинания.

Предпоследний сервис — Speechnotes

Основная версия работает в браузере Chrome, есть также Android‑приложение. Под капотом движки распознавания Google и Microsoft. После прохождения регистрации нам выдают 30 бесплатных кредитов. Этого хватит для расшифровки 15-минутного аудио на русском (всего языков 58), а сам процесс занимает около 30 секунд.

Ещё немного остановимся на стоимости. Транскрибация одной минуты на английском стоит 1 кредит, а на русском придётся заплатить 2 кредита. Она зависит от языка!

Можно загружать аудио и видео (форматы: MP3, WAV, MP4, MOV, OGG) или ссылку/YouTube. Кстати, к загрузке доступны файлы размером не более 1 ГБ.

Сервис выдаёт транскрипт со тайм‑штампами, диаризацией спикеров (на английском) и экспортом SRT для субтитров. Также доступны интеграции через API, webhooks и Zapier. Есть отметки Timestamps и Speaker tags, но СПОЙЛЕР — с определением спикеров нейросеть не дружит.

Тестируем!

(Русский язык)

Это первая нейросеть, которая выдала мат в детской сказке...

Прямо так и написала: «Б…ь». Честно, у меня была та же реакция, когда я это увидел.

Теперь к технической части. Перевод — худший за весь сегодняшний обзор. Спикеры определены неверно, слова перепутаны, правильных знаков препинания почти нет.

(Английский язык)

Аудио было расшифровано по словам верно, ошибок нет. Но вот с определением спикеров и знаками препинания — полный незачёт.

И последняя нейросеть — Whisper

По словам разработчиков, модель v1 и v2 натренированы на 680 тысячах часов аудио из интернета, а v3 на 5 миллионов.

Whisper на сайте OpenAI просто так не потыкаешь. Однако модель доступна через API, а также может быть запущена локально на собственной видеокарте. Если вдруг захочется попробовать самую топовую — Large-v3, — готовьте как минимум 12 ГБ видеопамяти. Ну или через сторонние платформы вроде Hugging Face, куда OpenAI выложили своё детище. Мы как раз будем тестить её здесь.

Тестируем!

Я сделал сразу 2 прогона и решил объединить впечатления.

(Русский язык)

(Английский язык)

Первое, что бросается в глаза, сервис не распознаёт спикеров, вообще. Второе — скорость. Это реально самый быстрый сервис из всех в сегодняшнем списке. Третье — точность. Whisper сам определяет язык в аудиозаписи и распознает ее неплохо.

С транскрибацией английской речи ошибок он не допустил. А вот с русским — не так гладко! Продублировал несколько реплик, допустил ошибки в словах, после запятых часто писал слова с заглавной буквы.

Зато — пунктуация. Здесь сервис удивил. Даже в проблемной транскрибации на русском он расставил все верно.

Резюмируя

Название сервиса	Поддержка языков	Бесплатный лимит	Возможности редактирования	Поддерживаемые форматы
AssemblyAI	Более 100 языков	Около 2,5 минут (бонусы)	Авторазметка, темы, эмоции, шумы, саммари	МP3, WAV, MP4, MOV
Riverside	Более 100 языков	15 минут	Редактор текста, редактирование аудио и видео	МP3, WAV, MP4, MOV, M4A, MKV, AVI, OGG
Teamlogs	Более 50 языков	15 минут	Тайм‑штампы, разделение по спикерам, экспорт	МP3, WAV, MP4, MOV, M4A, MKV, AVI, OGG
Speechnotes	Более 50 языков	15 мин для русского, 30 для английского	Ограничено, без встроенного редактора	МP3, WAV, MP4, MOV, OGG
Whisper	Около 100 языков	Бесплатно, с открытым исходным кодом	Нет, требует сторонних решений	OGG, WAV, MP3

Мы протестировали разные сервисы и в итоге возникает стойкое ощущение того, что самое стабильное — это нестабильность. Английский ещё держится, но с русским всё сложновато. Знаки препинания гуляют, спикеры теряются, а где-то встречаются матерные слова.

Поэтому да, нейросети отличные помощники. Но без человека — никак. Именно вы показываете ей, что важно, где ошибка, а где мысль. Всегда нужно проверять и использовать ручную корректировку.

Так что, нейросети — в помощь, а не вместо. Карандаш и блокнот пока не откладываем в дальний ящик, а только подключаем.

Спасибо за внимание! Будет интересно услышать о вашем опыте работы с нейросетями для транскрибации. Возможно, у вас уже есть любимый сервис? Поделитесь своими впечатлениями и результатами, мы будем ждать!

Комментарии (16)

rPman
30.07.2025 12:40
#28639902
не 'нейросетей' а 'сервисов'

pol_pot
30.07.2025 12:40
#28640080
https://www.youtube.com/watch?v=R9TnCP2D8HQ

Gemini 2.5 flash (prompt = "Listen carefully to the following audio file. Provide a transcript. Fix errors, make a fine text with good looking paragraphs, without time stamps and diarization (speaker separation). This audio file is a cutted fragment with +5 extra seconds in both directions.") По мне так топ, но есть ИИшные заморочки, размер ответа не больше 30т русских символов, цензура может заблокировать запрос, может зависнуть и вернуть повторы повторы повторы повторы повторы повторы повторы повторы повторы повторы повторы повторы повторы...

Ведьмаку заплатите
Чеканной монетой,
Чеканной монетой.
О-о.
Ведьмаку заплатите,
Зачтётся всё это.
Вау.

Он хоть на край земли отправится готов,
Сразить всех чудовищ, убить всех врагов.

Он эльфов всех прогнал за дальний перевал,
Высокие горы, на дальний привал.

Он бьёт не в бровь, а в глаз,
Был ранен много раз.
Он людям товарищ,
Всегда он за нас.

К чему эта вражда,
Никак я не пойму.
Он нас защищает,
Так налетите ж ему!

Ведьмаку заплатите
Чеканной монетой,
Чеканной монетой.
О-о.
Ведьмаку заплатите,
Зачтётся всё это.
Вау.

Ведьмаку заплатите
Чеканной монетой,
Чеканной монетой.
О-о.
Ведьмаку заплатите,
Зачтётся всё это.
Вау.

Ведьмаку заплатите
Чеканной монетой,
Чеканной монетой.
О-о.
Ведьмаку заплатите,
Зачтётся всё это.
Вау.

Whisper(whisper-large-v3-turbo) короткие записи хорошо понимает, в длинных склонен глотать целые абзацы

Ведьмаку заплатите Он эльфов всех прогнал за дальний перевал Высокие горы на дальний привал Он бьет не вброд, а в глаз, был ранен много раз Он людям товарищ, всегда он за нас Ведьмаку заплатите, зачтется все это Ведьмаку заплатите чеканной монетой Ведьмаку заплатите, зачтется все это вам Ведьмаку заплатите чеканной монетой Чиканым монетой Ведь могу заплатить Зачтется все это

Voxtral новая модель от мистраля (такое же недоразумение как и все их модели)

Ведь могу заплатить, чеканы монетой, чеканы монетой. Ведь могу заплатить, зачтется всё это. Он хоть на край земли, отправится готов, сразить всех чудовищ, убить всех врагов. Он эльфов всех прогнал за дальний перевал, высокие горы на дальний привал. Он бьет не впродь, а в глаз, был ранен много раз. Он людям товарищ, всегда он за нас. Чему эта вражда, никак я не пойму. Он нас защищает, так налетишь ему. Ведь могу заплатить, чеканы монетой, чеканы монетой. Ведь могу заплатить, зачтется всё это. Ведь могу заплатить, чеканы монетой, чеканы монетой. Ведь могу заплатить, зачтется всё это. Ведь могу заплатить, чеканы монетой, чеканы монетой. Ведь могу заплатить, зачтется всё это.

Deepgram хороший коммерческий вариант, принимает файлы любого размера и типа без заморочек, выдает хороший результат с огромной скоростью

неправильно распознал язык, обычные записи он хорошо распознает

Assemblyai (большая модель) примерно такой же как deepgram, без заморочек но за деньги

Ведьмаку заплатите чеканной монетой, чеканной монетой. Ведьмаку заплатите, зачтется всё это вам. Он ходит на край земли, отправиться готов. Сразить всех чудовищ, убить всех врагов. Эльфов всех прогнал за дальний перевал, Высокие горы на дальний прибал. Он бьёт не в брод, а в глаз, Был ранен много раз. Он людям товарищ, Всегда он за нас. Чему эта вражда, Никак я не пойму, Он нас защищает, Так налетишь ему. Ведьмаку заплатите Чеканной монетой, Чеканной монетой, о-о-о Ведьмаку заплатите Зачтется всё это вам Ведьмаку заплатите Чеканной монетой, Чеканной монетой, о-о-о Ведь могу заплатите, зачтется все это. Ведь могу заплатите, чеканы монетой, чеканы монетой. Ведь могу заплатите, зачтется все это.

pol_pot
30.07.2025 12:40
#28640158
-- Как понять что статья написана тупым роботом?

-- Он не умеет считать.

Biga
30.07.2025 12:40
#28640928
А где gigaam и t-one?

kat_astropha
30.07.2025 12:40
#28641672
Еще хороший ИИ https://wisprflow.ai/ - распознает даже тип текста (список дел, стихи и пр).

Pilotv
30.07.2025 12:40
#28642634
У меня стояла задача - работа с результатами мутнейших двухчасовых созвонов которые я слушая в пол уха но надо быть в курсе и контролировать что там кто кому наобещал . Решил следующим образом - оформил подписку на replicate.co. Там доступна для запуска дотренированная и. дообученная модель whisper с разделением спикеров и прочими плюшками . Через Claude написал на питоне web приложение которое взаимодействует с этой моделью через стандартный api replicate. Приложение закинул на домашний сервер в докер. Все проблема решена. Совещания пишу в файл результаты скидываю в свое приложение , расшифровка занимает пару минут. Количество спикеров до 15 человек , учитывая специфическую терминологию и то что все говорят одновременно , качество отличное . Текстовый файл с расшифровкой кидаю нейросетке и прошу сделать максимально подробный разбор совещания с отсылками на прямую речь участников , для контроля нейросети . Получается очень продуктивно и стоимость расшифровки одного совещания буквально 5 - 10 центов выходит
1. pol_pot
  30.07.2025 12:40
  #28642998
  Главное не проверять что там этот виспер нарасшифровывал Ж)

Pilotv
30.07.2025 12:40
#28644868
проверял неоднократно все корректно отсебятины нет , максимум неправильно имена и узко отраслевые термины и англицизмы. Но это из контекста и так понятно

Wundarshular
30.07.2025 12:40
#28645104
По личному опыту конкретный вариант Whisper - https://huggingface.co/spaces/sanchit-gandhi/whisper-jax - прекрасно справлялся с транскрипцией интервью и совещаний от 5 до 60 минут с разным уровнем качества речи (в пустой студии, на улице, в шумной переговоке). Преобразовывал довольно шустро, а главное - бесплатно. Сейчас не работает, т.к. какие-то проблемы с доступом к серверам Amazon.
1. Devastator82
  30.07.2025 12:40
  #28649362
  Whisper запускаю локально. Модель large работает на мобильной 3070 8gb терпимо. Транскрибация правда довольно медленная получается, примерно 1 к 1 по времени. Т.е. час видео транскрибируется час реального времени. Зато бесплатно)
  1. pol_pot
    30.07.2025 12:40
    #28649496
    Тут дают 20 часов в сутки на аккаунта виспер https://console.groq.com/settings/limits
    
    Скорость x240.
    
    Куски только резать надо по 25мб. И нет временных меток.
    
    Бесплатно
    
    sergeyssv
    30.07.2025 12:40
    #28650666
    у меня почему-то так
    
    {"error":{"message":"Not Found"}}
    
    Devastator82
    30.07.2025 12:40
    #28650962
    Посмотрю, большое спасибо!
  1. Shannon
    30.07.2025 12:40
    #28651372
    Модель large работает на мобильной 3070 8gb терпимо. Транскрибация правда довольно медленная получается, примерно 1 к 1 по времени. Т.е. час видео
    
    Попробуйте whisper.cpp, должно быть быстрее на 3070. Модели в формате ggml (по сути тоже самое, что gguf) лежат тут: https://huggingface.co/ggerganov/whisper.cpp. У whisper ещё вышла модель whisper-large-v3-turbo, она быстрее и легче чем просто large-v3.
    
    На 4060ti часовая лекция разбирается:
    – за 7 минут на large-v3 неквантованная, 4гб vram
    – за 5.1 минуты на large-v3 в кванте q5_0, 2.5гб vram
    – за 2.3 минуты на large-v3-turbo в кванте q8_0, 1.6гб vram.
    
    4060ti, Andrei1980/whisper-large-rus-ggml неквантованная large v3, транскрипция часовой лекции за 7 минут
    Есть файнтюны для русского языка, но тоже не идеальные:
    – для large-v3: Andrei1980/whisper-large-rus-ggml (обучена лучше)
    – для large-v3-turbo: dvislobokov/whisper-large-v3-turbo-russian (обучена хуже, путает слова)
    
    Пример как выше с песней, модель Andrei1980/whisper-large-rus-ggml
    Для английского есть модели получше чем whisper, рейтинг тут: https://huggingface.co/spaces/hf-audio/open_asr_leaderboard
    Для русского ещё есть модели: vosk, GigaAM и T-one.