Сегодня нас не удивишь тем, что нейросеть за пару секунд расшифровывает двухчасовую лекцию или превращает аудиозаметку в аккуратный текст с заголовками и абзацами. Мы живём в эпоху, где слова больше не нужно набирать вручную — достаточно просто их произнести. Остальное — за алгоритмами.

Но всё ли так гладко?
Одно дело — стерильное студийное аудио, где диктор звучит как утренний ведущий на радио. Совсем другое — голосовое, записанное на фоне вентилятора и междометий в стиле «эээ… ну короче».
Так что мы решили не просто составить список транскрибаторов с сухими характеристиками. Мы пошли дальше — устроили испытание! Взяли 5 популярных нейросетей и заставили их пройти 3 уровня сложности.
Обзор вышел объёмным, поэтому мы разбили его на две части. В первой расскажем про три сервиса. Во второй — про оставшиеся два, а ещё попробуем выбрать лучших.
Приятного Вам прочтения!
Зачем нужна транскрибация?
Казалось бы, кто в 2025 году не умеет слушать? Но правда в том, что слушать — это одно, а понимать, запоминать и возвращаться к сказанному — совсем другое.
И вот почему она реально спасает:
Голосовые. Кто‑то записал вам аудио на 5 минут. Там что‑то важное… наверное. Слушать весь этот поток мыслей в 1.5x — уже мини‑подвиг, с транскрибацией вы просто смотрите текст и сразу понимаете, в чём суть.
Встречи и звонки. Был умный разговор с начальником? Или, наоборот, пустой. Текст поможет пересмотреть и не упустить детали (или доказать, что вы были правы).
Учёба и саморазвитие. Записали лекцию, интервью, подкаст — и теперь можете не просто переслушивать, а читать, выделять, делать заметки.
Просто лень. Признайтесь, не всегда хочется включать звук. Особенно, если в автобусе, на совещании или просто устали от чужих голосов.
Итого транскрибация — как кнопка «переведи это в нормальный формат». Просто удобство!
Как будем тестировать?
Мы не собираемся записывать аудио в студии, читать с выражением или ставить диктофон под подушку. Всё гораздо проще — и одновременно сложнее.
Для каждого уровня мы берём реальные аудиофрагменты из открытых источников: сказки, интервью, подкасты, старые видеозаписи — всё, что живёт в интернете.
Уровень 1: Сказочный полиглот
Загрузим нейросетям сказки — но не одну и не на одном языке.
В тесте участвуют 3 аудиофрагмента, чтобы проверить, насколько искусственный интеллект мультиязычен, и самое главное — может ли он различать спикеров:
Русский язык — сказка про трёх медведей:
Скрытый текст
Нарратор: Сейчас мы расскажем о том, что произошло однажды с непослушной девочкой Варварушкой.
Варварушка: Пусти меня, бабушка, погулять в лесу. Я грибочков, бабушка, белых принесу!
Бабушка: Не ходи, Варварушка, — попадёшь в беду. Лучше ты, Варварушка, поиграй в саду.
Варварушка (капризно): Ну, какая бабушка может быть беда?
Бабушка (вздыхая): Ох, смотри, Варварушка…
Варварушка: Ладно.
Нарратор: Не послушалась девочка — и пошла в лес.
Варварушка (весело напевает): Сидит ворон на дубу, не велит расти грибу. Ты, грибочек, вырасти, колодочки вырасти!
Нарратор: А в том лесу жили три медведя…
Медведи (вместе, с рычанием): О‑ооо!
Английский язык — «Красная Шапочка»:
Скрытый текст
Нарратор: This is the story of Little Red Riding Hood. She»s got a red coat with a hood. She loves the coat. She wears it every day. She»s very happy today — it»s her birthday.
Нарратор: Little Red Riding Hood»s father is a woodcutter. He works in the forest every day. A lot of animals live in the forest, and a wolf lives there too.
Нарратор: Little Red Riding Hood»s mother says...
Мама: Grandmother is ill in bed. Go to her house, take her some bread and jam, but be careful — a wolf lives in the forest.
Красная Шапочка: Yes, Mother.
Нарратор: ...says Little Red Riding Hood. Little Red Riding Hood.
Нарратор: Little Red Riding Hood loves Grandmother. She is happy. She wants to see her.
Арабский язык — сказка про быка:
Скрытый текст
الثَّوْرُ وَالمُحَارِبُ
فِي قَدِيمِ الزَّمَانِ ، كَانَ هُنَاكَ
مُصَارِعٌ لِلتِّيرَانِ اسْمُهُ حَزْمٌ.
كَانَ حَزْمٌ ذَكِيًّا وَمَاهِرًا وَعِنْدَهُ قُدْرَةٌ فَائِقَةٌ فِي القَضَاءِ عَلَى أَيِّ ثَوْرٍ فِي
دَقَائِقَ قَلِيْلَةٍ مَهْمَا كَانَتْ قُوَّتُهُ وَضَخَامَتُهُ.
وَفِي يَوْمٍ مِن الْأَيَّامِ تَمَّ الْإِعْلَانُ عَنْ
إِقَامَةِ مُبَارَاةٍ مُذْهِلَةٍ بَيْنَ حَزْمٍ وَثَوْرٍ
مِن التِّيرَانِ الْقَوِيَّةِ قَدْ جَاءُوا بِهِ مِنْ
أَقْصَى غَابَاتٍ أَفْرِيقِيَا.
اجْتَمَعَ النَّاسُ لِمُشَاهَدَةِ الْمُبَارَاةِ وَأَخَذُوا يُصَفِّقُونَ وَيَهْتِفُونَ: هَيَّا يَا حَزْمٍ ! هَيَّا يَا حَزْمِ !.
Уровень 2: Испытание на выносливость
Те же записи — но теперь с сюрпризом.
Нейросети послушают модифицированную нами версию — с добавленными аудиопомехами: белый шум, ускорение, замедление, эхо и другие искажения.
Посмотрим, как система справится с речью в условиях, приближённых к реальности и выходящих за её рамки!
ЗАПИСИ НИЖЕ ИСКАЖЕНЫ, ПОЖАЛУЙСТА, БЕРЕГИТЕ ВАШИ УШИ!!!
Уровень 3: Говори как умеешь
Финальный уровень — самый человечный.
Мы используем записи реальных людей с речевыми особенностями. Это не имитации, а настоящие голоса — с акцентами, дефектами и индивидуальной подачей.
В тесте участвуют три аудиофрагмента — каждый на своём языке, с разными особенностями речи:
Картавость — запись на русском языке:
Скрытый текст
Ко мне подходили одноклассницы и всегда просили, чтобы я сказал: «Тридцать три вагона в ряд тараторят, тарахтят». Но они мне за это покупали еду, так что всё было по обоюдному согласию.
Я периодически играю в такую игру — когда специально разговариваю, не произнося ни одного слова с буквой Р.
В детстве моим любимым фильмом был «Гарри Поттер».
И, к сожалению, ни одно ни другое слово я не могла выговорить.
И моя бабушка всегда, до сих пор припоминает мне, что я говорила: «Гарри Поттер».
Невнятная речь — знаменитые фразы Уинстона Черчилля:
Скрытый текст
“And we must expect another blow to be struck, almost immediately.”
“The hospital ships which brought off many thousands of British and French wounded.”
“At any rate, that is what we are going to try to do.”
“That is the resolve of His Majesty”s Government.”
Заикание — фрагмент речи:
Скрытый текст
Complete, like, what they think I'm gonna say, because most of the time, they're wrong. And so just, like, to let me, like, finish my thoughts and sentences.
Один уровень сложности — но, возможно, самый сложный. Именно здесь мы проверим, сможет ли AI понять человека таким, какой он есть.
Это не туториал по нейросетям, а дневник эксперимента, где мы будем делиться наблюдениями, смешными фейлами и неожиданными победами.
Давайте начинать!
Итак, наш первый кандидат — AssemblyAI
Сервис заявляет, что умеет превращать аудио в текст с точностью 92,5% и поддерживает 99 языков. Но стоит копнуть чуть глубже — и становится ясно: весь упор сделан на английский. Остальные языки будто для галочки. Позже вы поймёте, о чём я.
Функционал тут — на среднем уровне. Самое основное: определение спикеров (спойлер — часто ошибается), фильтрация мата и автоматическая пунктуация. Ничего сверхъестественного я не заметил.
Для теста нейросети я буду использовать платформу BotHub. Кстати, если регистрироваться по реферальной ссылке, вам сразу накидывают 100 000 капсов — это внутренняя валюта сервиса. Как выяснилось, транскрибация 1 минуты аудио обходится примерно в 36 000 капсов. То есть бонуса хватает на 2,5 минуты расшифровки.

Начинаем со сказок!
Итак, регистрируюсь, забираю капсы и выбираю раздел «Транскрибация». Здесь загружаю первое аудио. Смотрим, что получилось.

Транскрибация выполнена с ошибками — как лексическими, так и грамматическими. В 5 словах допущены ошибки, 1 слово пропущено. Спикеры определены неверно: их как минимум 3, а нейросеть распознала только двух — А и В. Знаки препинания расставлены некорректно. Некоторые союзы и слова пишутся с заглавной буквы без точки перед ними.

Транскрибация по словам точна — к ним вопросов нет. Но снова проблемы с определением спикеров и пунктуацией. Даже на английском языке нейросеть допускает ошибки.

Тут без комментариев — арабский язык она расшифровывать не хочет.
Давайте дадим нейросети послушать модифицированные аудио.
Сомневаюсь, что будет лучше, но эта жажда эксперимента…

Такое у меня впервые — 3 теста поместились на одном скрине. Кстати, здесь можно наблюдать то, о чём я говорил в начале: упор идёт на английский. Только запись на нём нейросеть разобрала неплохо, если закрыть глаза на вечные косяки с пунктуацией и определением спикеров.
Плавно переходим к аудио с речевыми особенностями

Тут, с русским языком справился лучше. Есть правильное разделение на спикеров, но опять неточная пунктуация, и нейросеть застопорилась на скороговорке. «Гарри Поттер» тоже не распознан.
Давайте к Черчиллю!

Есть косяки, кое‑где он сделал множественное значение слов, написал «result» вместо «resolve», ну и многострадальная пунктуация. Давайте посмотрим, как нейросеть справится с заиканием.

И вот она — та самая удача: здесь нейросеть справилась идеально. И пунктуация, и точность слов — хвалю.
Что скажу в итоге?
Диаризации как таковой нет — спикеров путает, стоит им заговорить в одном тоне, а знаки препинания расставлены неправильно. Зачёт ставить пока рано!
Следующий сервис нашего топа — Riverside
На пороге нас встречает окно регистрации. Доступны варианты через Google, Apple, еmail и даже Spotify.

Я выбрал лёгкий путь — Google‑аккаунт — и, как думалось, сразу перейду к основному интерфейсу. Но нет, нас встречает окно с опросом. К счастью, всего два вопроса, которые можно просто скипнуть.
Теперь к интерфейсу.

Он довольно приятный: тёмный фон, белые надписи. Слева — кнопки «Домой» и «Проекты», всё привычно. На главном экране сразу рассказывают об основных функциях нейросети. Среди них: улучшение звука до студийного качества (Pro), генерация коротких видео из длинных роликов, автоматическое создание заметок, глав и цитат (Pro), добавление анимированных субтитров, быстрая транскрибация загруженных файлов.
Вот последняя нас и интересует — кликаем на эту иконку, и перед нами всплывает окно для загрузки файла.

Загружаю аудио — занимает около 20 секунд. После открывается окно со звуковой дорожкой. Всё в ярких цветах: белым показаны участки, которые нейросеть не смогла расшифровать.

И да, она не дружит с русским языком — распознала и перевела какую‑то часть на английский. Так подумал я изначально, но позже к этому вернёмся.

Ниже — панель с масштабированием аудиодорожки. При нажатии под каждой строкой появляется меню редактирования.
Начинаем тестирование
Итак, возвращаемся к аудио. Чтобы нейросеть могла разбирать русскую речь, нужно перейти в настройки и сменить язык. Кстати, там доступно около 100 языков.
Русскую речь она транскрибировала примерно минуту, при этом разделила на два спикера. Интересно, отличит ли она бабушку от внучки?
Смотрим:
Увы, со спикерами нейросеть напутала, также есть символы пробела, которые она не распознала. Много слов расшифрованы неправильно, особенно песенка девочки. Но теперь начинается самое интересное.
«Скопирую и покажу вам», — думал я, но нейросеть запрещает копирование. Скачивание и копирование результата транскрибации доступны только на платной основе!
Давайте расскажу о ней:

Стоимость Pro составляет 24 $ в месяц при оплате на год. Также сервис дарит дополнительные 14 дней бесплатно. Вам станут доступны новые функции, вот некоторые из них:

Итак, итог транскрибации на русском — провал.
Переходим к английскому, надеюсь он порадует.
Перед этим в настройках выбираем English. Повторяем те же действия: ставим 3 спикеров и загружаем «Красную Шапочку». Через 20 секунд — всё готово.
Спикеров он снова распределил неправильно — ничего нового.

Тогда ставим одного спикера, чтобы текст был собран воедино, и оцениваем корректность расшифровки.
А кривая линия на дорожке означает любую смену громкости — это могут быть слова, удары топора по дереву или банальное «хм».

Итак, распознал всё идеально: знаки препинания на месте, посторонние звуки определены, паузы отмечены. Посмотрим теперь, что он покажет на арабском!
Меняем язык на арабский в настройках и приступаем к загрузке. Файл транскрибировался быстрее, чем на русском, — хотя, казалось бы, арабский должен быть сложнее.
Время загрузки — около 30 секунд. В аудио всего один спикер, так что здесь нейросеть не ошиблась.

Что могу сказать: в целом текст выглядит более‑менее, по крайней мере очень похоже на оригинал. Насчитал всего пару символов, которые не совпадают с оригиналом. Но перевёл текст — и да, есть расхождения с оригинальным переводом.
Знаки препинания расставлены не все — например, восклицательный знак отсутствует. Но паузы определил точно.
Итак, время теста с модификациями
Начинаем с «Трёх медведей»!
Спикеров уже не выбираю — смысла в этом нет, всё равно нейросеть не определит их правильно.
Файл загружается очень долго — около 2 минут. Видно, что система действительно испытывает трудности.

Ожидаемо: больше половины аудио нейросеть даже не смогла расшифровать. Особенно плохо обработаны замедленные фрагменты. Паузы расставлены неверно, расшифровка хромает.
Переходим к «Красной Шапочке»!

Здесь нейросеть справилась с распознаванием всего видео — плавное увеличение громкости ей явно не помешало. Но, увы, даже с английским языком она до конца не справилась. Что‑то похожее выдала, но до идеала далеко.
И наконец, арабский.

Думал, загрузка займёт столько же времени, но нет — справилась быстрее, примерно за минуту.
Сервис обработал всю аудиодорожку, большинство символов совпадают. Как выяснилось, с арабским он справился лучше всего!
Но замечания всё те же: местами пропущены знаки препинания, встречаются ошибки в иероглифах.
С паузами — неплохо, но всё равно незачёт!
Переходим к третьему заданию!
Первая особенность речи в нашем списке — картавость.
Начинаем с транскрибации аудио на русском. Её он сделал быстро, за 30 секунд.

Сервис не справился со скороговоркой про вагоны, слово «Поттл» вместо «Поттер» — нейросеть не смогла разобрать правильно, также есть ошибки в знаках препинания.
Вторая особенность речи — невнятность.
Тест на английском. Транскрибация заняла примерно 30 секунд, идентично русскому!

Держался достойно, но камнем преткновения стала последняя — там он допустил ошибки в словах «resolve» и «majesty»s». Знаки препинания и паузы расставил верно, кроме последней фразы опять же.
И, пожалуй, самая сложная особенность речи для транскрибации — заикание.
Загружаем файл и ожидаем так же 30 секунд.

Нейросеть расставила паузы верно, верно расшифровала слова, но кроме точки остальные знаки препинания нужно добавить самому.
Итак, что могу сказать?
Сервис слабо справляется с русской речью, арабскую обрабатывает чуть лучше, но тоже не идеально. С английской — и так всё понятно. Знаки препинания ставит посредственно, спикеров нормально не разделяет. Как в таком случае расшифровывать лекции или групповые звонки — непонятно. К тому же, текст транскрибации нельзя копировать — огромный минус.
А ещё есть ограничение — не больше 2 часов аудио.
Встречаем третий сервис — Teamlogs
При переходе на сайт нас встречает интуитивно понятный интерфейс — всё на русском языке, что, конечно, радует. Большая иконка для загрузки файлов и кнопка «Войти» создают ощущение простоты. На секунду даже показалось, что можно начать транскрипцию без регистрации… но, как оказалось, это не так.

Загружаем файл — сервис моментально определяет длительность аудио. Можно выбрать язык (русский и английский закреплены в быстром доступе), а также включить определение спикеров.

Нажимаем «Продолжить» — и вот тут появляется необходимость регистрации. Только после её прохождения Вам начислят 15 минут бесплатной транскрибации аудио.

Регистрируемся (я выбрал вход через Google‑аккаунт), после чего нас перекидывает в основное меню, где уже начинается процесс транскрипции.
Что по результатам?

Спикеров сервис определил лучше, чем предыдущий, но всё же не смог отличить бабушку от внучки в середине аудио. Есть проблемы с пунктуацией и лексикой — особенно с дефисами и окончаниями слов. В нескольких местах сервис даже перепутал слова.
Давайте посмотрим, что будет с аудио на английском!
Интересно, что после загрузки файла вы не сразу можете его посмотреть. Нужно перейти в раздел «Мои файлы» — только там появляется доступ к расшифровке. Немного неинтуитивно, но ладно.
Давайте теперь посмотрим на историю о Красной Шапочке.

Что могу сказать? Определение спикеров на этот раз подкачало — сервис их вообще не распознал. Но вот с транскрибацией всё гораздо лучше: почти идеальная расшифровка, за исключением пары мелких ошибок со знаками препинания.
Итог: за транскрибацию — зачёт, за спикеров — увы, нет.
И так, арабский язык!
Важно: перед загрузкой файла обязательно поставьте параметр «Язык текста» на «Авто»!
Самый приятный момент: в этом сервисе можно копировать текст прямо из транскрибации — и это бесплатно.

Теперь к расшифровке арабского языка. Сразу скажу — она совсем не совпадает с оригиналом. Сервис пропустил восклицательный знак в реплике «هيا يا حزم!» — вроде бы мелочь, но мы же смотрим ещё и на то, как нейросеть понимает эмоции.
Тем не менее, я перевёл историю, и в плане смысла — идеально. Да, текст, который выдала нейросеть, подан немного литературнее оригинального — это подтвердил и мой знакомый, который изучает арабский язык. Сказал, что даже добавлены артикли, а фразы звучат красивее.
Вывод: несмотря на мелкие отличия, смысл сохранён, подача даже улучшена — ставлю зачёт!
Переходим ко 2 заданию
Начнём с русского языка.

Увы, ни спикеры, ни их речь распознаны правильно не были. Определено всего 3 реплики. Предыдущий сервис явно справился лучше.
Посмотрим итог на английском!
Это единственная запись, с которой сервис затруднился, — обрабатывал около 30 секунд, тогда как остальные транскрибировались почти моментально. Но результат всё‑таки есть!

Формально — незачёт, но не всё так плохо. За исключением нескольких слов, почти весь текст расшифрован правильно. Да, знаки препинания расставлены неверно или вовсе отсутствуют, но в целом — вполне достойно.
Интересный факт: когда была чистая запись, сервис не распознал спикеров. А вот когда дал ему модифицированную версию — пожалуйста (хоть он сделал это неправильно).
И, наконец, арабский язык.

Текст немного отличается от оригинала: в нём есть повторы прилагательных. Грубых ошибок нет. Восклицания по‑прежнему нет. Сделал перевод, и он совпадает с оригиналом.
Ставлю зачёт!
Давайте посмотрим, как сервис справится с речевыми особенностями
Открывает тесты — картавость!

Спикеры определены неправильно, так же, как и большинство выражений. Скороговорка — провал! А «Гарри Поттер» определенл верно — браво.
Сможет ли нейросеть расшифровать невнятность Черчилля?

Справилась она неплохо, кроме пропущенной запятой ничего не заметил.
И напоследок — заикание!

Нейросеть ни капли запутали слова с заиканием. Она справилась с расшифровкой. Её подвела только пунктуация, опять…
Ну ладно, поставим зачёт!
Кстати, в сервисе можно выделять ключевые слова разными цветами, а также переименовывать аудио и спикеров.
Готовый результат можно бесплатно скачать в формате Word.

Что по ценам?

Стоимость одной минуты — 10 рублей, оплатить можно российской картой. Пакет из 100 минут обойдётся в 900 рублей, а при покупке 1000 минут действует скидка 20%.
Что в итоге?
AssemblyAI показал себя неплохо на английском, но практически бесполезен для русского и полностью игнорирует арабский. Riverside отлично справляется с английским, удовлетворительно с арабским, но с русским у него серьёзные проблемы. К тому же платная функция копирования текста сильно ограничивает его использование. Teamlogs оказался наиболее сбалансированным: неплохо работает с разными языками, позволяет бесплатно копировать текст, хотя с пунктуацией и определением спикеров у него всё ещё есть проблемы. Идеального варианта мы пока не нашли.
Во второй части продолжим тесты и выберем лучших из оставшихся двух сервисов?
Комментарии (8)
poriogam
16.05.2025 13:535р за пару строчек Ж)
cognitronn Автор
16.05.2025 13:53Дело в том, что стоимость округляется до минуты вверх. На скриншотах рядом видно, что более крупные фрагменты текста по такой же стоимости (потому что длительность отрывков тоже менее 1 минуты).
titulusdesiderio
16.05.2025 13:53Сравните пожалуйста с tl;dv - у них бесплатная транскрипция онлайн звонков без лимитов. По качеству понимания слов чуть хуже Гугла (которого у вас нет) зато знаки препинания расставляет качественно. И более менее адекватно распознает иностранные слова в русской речи.
Rend
В тегах статьи не хватает слова «Самореклама».
cognitronn Автор
Заметьте: в этих статьях мы рассматриваем пять разных моделей/онлайн-сервисов, один экземпляр из которых — AssemblyAI, запущенный через BotHub)