Синтез речи ◍ 2025: топ-4 бесплатных нейросетей для озвучки текста / forpes.ru

Главная
Синтез речи ◍ 2025: топ-4 бесплатных нейросетей для озвучки текста

Синтез речи ◍ 2025: топ-4 бесплатных нейросетей для озвучки текста +23

27.05.2025 13:11

cognitronn 27 9400 Источник

Искусственный интеллект давно перестал быть набором скучных алгоритмов. Это и художник, который рисует словами, и переводчик, что ломает языковые барьеры, и музыкант, играющий на голосовых нотах. Но есть у него ещё одно дело, в котором он преуспел, — синтез речи.

В 2025 году синтез речи уже не бездушный голос Siri или навигатора, который бесконечно хочет «повернуть направо». Сегодня это голос, умеющий шутить, удивлять и даже немного злиться.

Но всё ли так гладко?

Просто тараторить текст — мало. Настоящий голос должен видеть запятые, чувствовать паузы, играть интонациями и уметь погружать. Он должен звучать не как робот, а как рассказчик с характером. С душой — насколько это вообще возможно для машины.

Поэтому мы устроим кастинг четырём нейросетям. Послушаем, как они звучат, как держат паузы, как справляются с эмоциями. И главное — попробуем понять: насколько близко они подошли к имитации живого рассказчика.

А чтобы было интересно, мы вдохновились атмосферой «Хоббита». Интересно, смогла бы нейросеть рассказать о приключениях лучше самого Бильбо Бэггинса?

Сегодня алгоритмы получат Толкина, омографы, арабский язык — и замок, который может быть замком.

Готовьте Ваши уши — мы начинаем!

И вот что ожидает нейросети!

Тест 1. Ударения, омографы и паузы

Цель: выяснить, насколько нейросеть способна интонационно различать омографы, правильно реагировать на пунктуацию и сохранять ритм речи.

Часть 1: используем оригинальный текст со всеми ударениями и знаками препинания.

Текст тестирования

На закате Бильбо остановился у древнего зáмка.

— Зáмок или замóк? — пробормотал он. — Даже му́ка может стать муко́й в непредсказуемости путевых перипетий.

Гэндальф усмехнулся:

— Главное — ударéние. И смысл. Особенно, когда речевая амбивалéнтность подстерегает за каждым углом.

Внутри пахло архивной пылью и фонетической стáростью.

— Здесь заседали хронисты и лингвомаги, практиковавшие грамматические трансмутации, — заметил волшебник.

— Кто? — переспросил Бильбо.

— Адепты словесной алхимии. Их трактаты по артикуляционной эквилибристике — теперь редкость.

— И сова́ тут была? — спросил Бильбо.

— Со́ва. Или сову́. Зависит от семантической перспективы.

Хоббит вздохнул:

— Вот бы просто сказку… Без этой филологической экспедиции.

И они шагнули вперёд — сквозь ветви́, к новым историям и акцентологическим открытиям.

Часть 2: убираем ударения и пунктуацию. Посмотрим, сможет ли нейросеть самостоятельно расставить смысловые акценты, понимает ли она контекст или просто читает «как написано».

Текст тестирования

На закате Бильбо остановился у древнего замка Замок или замок пробормотал он Даже мука может стать мукой в непредсказуемости путевых перипетий Гэндальф усмехнулся Главное ударение и смысл Особенно когда речевая амбивалентность подстерегает за каждым углом Внутри пахло архивной пылью и фонетической старостью Здесь заседали хронисты и лингвомаги практиковавшие грамматические трансмутации заметил волшебник Кто Адепты словесной алхимии Их трактаты по артикуляционной эквилибристике теперь редкость И сова тут была спросил Бильбо Сова или сову зависит от семантической перспективы Хоббит вздохнул Вот бы просто сказку Без этой филологической экспедиции И они шагнули вперед сквозь ветви к новым историям и акцентологическим открытиям.

Тест 2. Мультиязычность

Цель: оценить, насколько нейросеть способна плавно переключаться между языками без «переломов» и сохранять целостный интонационный стиль.

Мы подготовили текст на трёх языках: русском, английском и арабском. Но не всё так просто — некоторые сервисы ещё не могут читать несколько языков разом. Поэтому пойдём навстречу: будем проверять каждый по отдельности.

Текст тестирования

Бильбо вышел из норы, вдохнув прохладный воздух.

— Путь будет непрост, — пробормотал он.

— Зáмок или замóк, — заметил Гэндальф. — Всё зависит от смысла.

— А если он закрыт, найду ли ключ? — спросил Бильбо.

Beyond the misty hills lay secrets untold. “Bilbo,” Gandalf whispered, “every step you take must be measured with both courage and caution. The castle you seek — or is it the lock you fear? — is neither fully seen nor understood. Beware illusions of the mind and the deceit of homophones.”

Bilbo adjusted his pack and nodded, feeling the weight of impending adventure, yet comforted by the wizard’s words.

في غياب النجوم وصمت الليل، تسلل بيلبو بحذر بين الأشجار، وهو يتساءل: هل هذا بلد غريب أم هو مفتاح اللغز؟ رغم خفة خطاه، كان قلبه ينبض بشدة، والظلمة تحيط به.

Бонус

В завершение каждого теста мы субъективно оценим «человечность» голоса по 10-балльной шкале. За каждый пункт по 2 балла.

Будем учитывать:

Живость речи — звучит ли голос как «живой» рассказчик, а не робот.
Умение рассказывать — передаёт ли нейросеть ритм повествования.
Характер — есть ли у голоса индивидуальность, манера, настроение.
Понимание контекста — чувствуется ли, что нейросеть понимает, о чём говорит.
Актёрская выразительность — передаёт ли интонации и эмоции голосом.

Для создания текстов я использовал платформу Bothub, а точнее — ChatGPT-4, который там доступен. Кстати, это не единственный волшебник на борту. В арсенале также есть Gemini, Claude, Deepseek, Qwen и даже Grok.

А ещё приятный бонус: при регистрации по ссылке сервис дарит 100 000 капсов — забирайте и начинайте творить. Ну а наш речевой кастинг Средиземья объявляется открытым!

Открывает наш топ известный сервис — ElevenLabs

Сразу отметим, что на момент тестирования ElevenLabs недоступен в России. В сети есть несколько способов обойти ограничение. Просто имейте это в виду, если решите попробовать его сами.

Интерфейс минималистичный, ничего лишнего: посередине — огромное поле для ввода промпта, над ним — функции сервиса, а ниже — спикеры и манера озвучки.

Интересный факт: на этом этапе можно озвучить текст длиной до 500 символов без регистрации. Однако скачать результат не получится — доступна только прослушка онлайн.

Регистрация доступна через Google или внутри сервиса — через email.

После регистрации нас перебрасывает в другой интерфейс, начисляют 10 000 кредитов и просят ввести текст. К слову, начислять 10 000 кредитов будут каждый месяц. Давайте посмотрим возможности сервиса!

В левой области наблюдаем:

Speed — регулирует темп речи: от медленного, вдумчивого до быстрого, динамичного.

Stability — влияет на предсказуемость звучания: чем выше значение, тем меньше вариативности в интонации.

Similarity — задаёт степень приближённости к оригинальному голосу: чем выше, тем ближе результат к источнику.

Style Exaggeration — добавляет или уменьшает эмоциональную окраску.

Speaker Boost — делает голос насыщенным, хорошо работает в шумной аудиосреде.

Внизу есть парочка сценарных подсказок: от рассказа истории до записи рекламы или ведения подкаста. Но это ещё не всё!

В сервисе доступно свыше 70 голосов, каждый из которых подходит под определённую задачу.

Рассмотрим голоса из раздела Default:

Nadia — женский голос, чёткий и аккуратный. Подходит для новостей, инструкций и формального повествования.

Callum — эмоциональный мужской голос, разработан для озвучки персонажей и сцен с характером.

Brian — мужской голос для документалистики, презентаций и подкастов. Умеренно выразительный, авторитетный.

Alice — женский голос средней выразительности. Универсальный выбор для роликов и подкастов.

Aria — эмоциональный и яркий женский голос, подойдёт для рекламы и соцсетей.

Итак, время первого задания — начинаем!

Мы вставили текст и выкрутили эмоциональный окрас до 50 — один из критериев оценивания. Остальное оставили стоковым. Ну а спикером мы выбрали Брайана — он показался самым подходящим, к тому же ещё и нарратор. Модель оставили v2.

Больше о моделях тут!

Eleven Multilingual v2 — для случаев, когда нужно, чтобы голос звучал «как будто с душой». Поддерживает 29 языков, включая русский, английский и японский. Заявлено, что хорошо справляется с эмоциями и подходит для озвучки книг, подкастов и прочего «контент‑крейшена». Использует больше ресурсов, но обещает «высокое качество».

Eleven Flash v2.5 — более лёгкий и экономичный вариант. Работает быстро, на 32 языках, без лишних эмоциональных выкрутасов. Подходит для повседневного озвучивания, где не требуется актёрская игра. Звук будет проще, но зато меньше расхода кредитов.

После кликаем Generate Speech — результат рождается моментально. Давайте послушаем итог:

В целом — достойно.

Что сразу бросается в уши? Нейросеть уверенно держит паузы, уважает пунктуацию и ударения. Единственное, что выбилось из стройной картины, — «амбивалентность»: там прозвучала чёткая [э] вместо [е].

Но работа аккуратная — зачёт.

Приступаем ко второй части. Сумеет ли нейросеть вырулить сама — без ударений и подсказок? Давайте слушать!

Запись получилась фонетически насыщенной — нейросеть расставила паузы, не скатываясь в монотонное чтение. Несмотря на отсутствие точек, заглавные буквы помогли ей сориентироваться. Слово «амбивалентность» она произнесла правильно — со звуком [е]. Кстати, в тесте работал Каллум, и звучал он живее, чем Брайн: речь была более естественной.

Ну а в целом нейросеть справилась хорошо: ударения в словах поставлены верно, единственная сложность — это омографы. Но в остальном — приятно удивлены.

Ставим зачёт!

Время проверки на мультиязычность — второе задание!

Давайте посмотрим, как нейросеть справится сразу с тремя языками в тексте. Все настройки — на скриншоте.

А главное новшество в тесте — мы дали слово даме. В роли полиглота сегодня — Элис.

Готовы? Слушаем!

Элис озвучила текст ровно, с чёткими паузами. Переход между английским и арабским не чувствуется — она точно любит прогуливаться на перекрёстке Лондона и Каира.

Придраться не к чему: мультиязычность? Зачёт!

Но не всё идеально. В слове «норы» ударение ушло не туда. Возможно, нейросеть решила, что это имя. Ну а что — может, у Бильбо и правда есть подруга по имени Нора?

А вот с омографами — уже классика. «Замок» она произнесла одинаково, несмотря на явно расставленные ударения. Ирония в том, что в английском и арабском ударений вообще не было, но ошибок — тоже.

Какой вывод? Больше нюансов — точнее результат!

Насколько хорошо нейросеть имитирует дикторский голос?

Скажу честно: если бы включить эти записи лет этак семь назад, я бы точно подумал, что это человек. Но в 2025-м, когда каждый второй ролик в ленте озвучен нейросетью, ухо уже натренировано и механика заметна.

Пройдёмся по спикерам!

Когда читал Брайн, всё шло неплохо… до слова «ГЛАВНОЕ». После него — пауза, как будто Брайн внезапно вспомнил, что забыл выключить утюг. А когда он пытается показать эмоции, это чувствуется — слишком старается, словно эмоции где‑то вшиты.

Каллум, наоборот, приятно удивил. Прочитал живо и естественно. Омографы его, конечно, слегка подвели — но кого они не путают?

Теперь Элис. Во втором задании её озвучка оказалась менее эмоциональной. Робот в голосе слышен, а интонация — на минималках. Хотя технически всё ровно, но живости не хватает.

Общий итог? Уверенные 8 из 10. Прогресс впечатляет, но харизма по‑прежнему на стороне людей. Или на стороне Каллума...

Что по тарифу?

Рассмотрим средний план. Creator стоит 22 $ в месяц и даёт 100 000 кредитов, что равно 100 минутам озвучки. Качество — стабильное, с нормальной передачей интонаций. Дополнительные кредиты доступны: стандартные — по 0,30 $ за тысячу, турбо — по 0,15 $. Параллельно можно запускать до пяти задач, при этом обработка происходит без задержек.

Идём дальше!

Второй сервис нашей подборки — Voicemaker

Первое впечатление — открыл чистый лист бумаги. Перед вами поле для текста, рассчитанное всего на 250 символов. Ниже — счётчик токенов генерации.

Зарегистрироваться можно через Google, Facebook✶ или LinkedIn. После на счёт падает 25 000 кредитов. Должно хватить надолго: 7 кредитов уходит на 2 секунды озвучки.

Справа — панель настроек. Давайте о ней!

В сервисе доступны 3 модели синтеза речи.

У каждой своя начинка!

1. Basic

Самая простая. Из функций доступны:
• Voice Volume — громкость речи;
• Voice Speed — скорость речи.

Настройки фиксированные. Выбираешь из заранее заданных вариантов: громко, тихо, быстро, медленно.

2. Advanced Settings v1

Голос становится податливее! Настройки те же (громкость и скорость), но теперь можно двигать ползунки.

3. Advanced Settings v2

Всё как в предыдущей версии, но появляется новый параметр:
• Voice Pitch — высота тона голоса.

В разделе Audio Settings задаётся формат аудиофайла. База — MP3 с частотой до 48 000 Гц. Но если хочется экзотики, можно опустить частоту до 8000 Гц и получить звучание радиоузла 80-х годов.

Стоит учесть, что высокие частоты — 44 100 и 48 000 Hz — доступны только в Advanced Settings v2.

Теперь рассмотрим голоса!

В каталоге свыше 100 голосов. Причём это базовая коллекция! Удобная сортировка помогает не утонуть: можно выбрать по полу, возрасту. Если кто‑то зацепил — сохраняйте в избранное.

Каждый голос с изюминкой. Посмотрим, удастся ли сохранить её в тестах!

И да, 75 языков. Сервис говорит на французском, японском и арабском — самоопределения нет, нужно выбирать вручную. Кстати, спикеров на русском 15 штук.

Начинаем тестирование!

Сразу о грустном, текст пришлось сократить — 250 символов, очень мало. Постарались добавить омографы, ударения и паузы. Для теста выбрали Дарью, а эффект повествования — Thoughts out of control, из раздела Sci‑Fi & Fantasy.

Про категории эффектов тут!

Это набор звуковых фильтров, которые можно включить для имитации определённого стиля. Доступны:
• Real‑World Environments — реальные звуковые окружения (улица, офис);
• Devices & Communication — имитация звучания через телефон, рацию, радио и прочие устройства;
• Radio & Broadcast — звук под радиопередачу;
• Households & Indoor Spaces — комнаты, квартиры, ванная, коридоры;
• Robotic & AI Voices — роботизированный, «цифровой» стиль голоса;
• Sci‑Fi & Fantasy — эффекты для озвучки фантастических персонажей, магии и технологий;
• Amp Gears & Stereo Effects — гитарные усилители, объёмный стереозвук и другие музыкальные эффекты.

Модель — V2, остальные параметры оставили нетронутыми. Кликаем Convert to Speech — и слушаем результат.

Идём по порядку.

В первом предложении «зáмка» было произнесено с ошибкой: вместо ударения на первый слог система использовала второй. При этом в исходнике имеется недвумысленный знак ударения.

В третьем предложении — аналогичная ситуация с «му́ка», а «муко́й» система озвучила с «и краткое»... нет, даже не так: синтезировалось в «муко и краткое».

Слово «ударение» озвучено как «ударнее», а «амбивалентность» прозвучало как «амбивальтность».

В итоге: ни пауз, ни ударений, с омографами — полный хаос. Зато фильтр классный. Мне понравился!

Давайте уберём знаки препинания и посмотрим результат!

Этот текст мы провели без фильтров, а спикером выступил Дмитрий.

Нейросеть не соблюла ничего: где только можно было перепутать ударения — она перепутала. Этого стоило ожидать, ведь она без подсказок не справляется. Имейте это в виду.

Незачёт!

Ну а мы переходим к тесту на мультиязычность!

Насколько нам известно, нейросеть не умеет автоматически определять языки. Но давайте попробуем.

Интересно посмотреть, как она справится, если оставить голос на русском, а текст дать на трёх языках. Смотрим!

Вышло забавно: с русским нейросеть справилась, а вот английский начала читать с характерным русским акцентом. «Висперд» — это, конечно, сильно. С арабским она даже не попыталась — просто сдалась на старте. Зато в плане плавности переходов между языками всё прошло гладко — границ почти слышно. Но проблемы с произношением и ударениями в словах ещё на месте.

Давайте переключимся на английский и попробуем с ним прослушать русский и арабский!

На этот раз выбрал голос Джессики. Арабский она проигнорировала. Зато русский прочла… с очень сильным акцентом. Смотрим!

Как мы уже поняли, если нужен арабский — придётся задавать его отдельным языком!

Что скажем?

Если так смотреть — мы проверяли мультиязычность. Да, с тремя языками сразу нейросеть наш тест не сдала. Но если задать конкретный язык, то справляется она вполне достойно. Так что, думаем, — зачёт!

Что по «живости» текста?

Расписывать спикеров смысла нет — справились они все примерно одинаково: без эмоций и с одинаковыми ошибками.

Подробнее тут!

Если честно, на русском нейросеть справилась как робот — сухо и механически. А вот на английском и арабском звучание было чуть более человечным, хотя роботизированный тон слышен. Вечные запинки и произношение «ТОЧКА» — недобор. К тому же при представлении голосов в каталоге женские спикеры почему‑то говорят в мужском роде.

Зато эффекты для создания атмосферы хоть капельку, но спасают ситуацию — за это плюс.

В общем, за живость речи — уверенные 5 из 10.

Что по ценам?

Premium стоит 10 $ в месяц и предлагает 500 000 символов — примерно 9 часов озвучки. За сессию можно озвучить до 5000 символов, что по‑прежнему немного. Тем не менее план открывает доступ к продвинутым функциям: клонирование голоса (Custom Voice Cloning), фирменный эффект‑движок Voicemaker VoxFX™, поддержка нескольких голосов в одном проекте, а также — 10 ГБ облачного хранилища и история файлов.

Следом в обзоре — Robivox

Сервис представлен российскими разработчиками и встречает понятным интерфейсом. Слева выбор языка, справа голос спикера.

Кстати, сами спикеры представлены в виде фотографий и аудиозаписей — каждого можно прослушать прямо на сайте.

Ниже размещены правила использования голосов.

Ознакомиться можно тут!

Для озвучивания видеороликов на YouTube и в других хостингах/соцсетях, озвучка подкастов, при создании новостного или образовательного контента.
Для озвучивания приложений и компьютерных игр.
Для записи голосовых приветствий на автоответчик и меню IVR.
В робототехнике и гаджетах, например для озвучивания пылесосов.
Для озвучивания технической документации, презентаций и аудиокниг.

Robivox поддерживает более чем 100 языков, есть мультиязычный режим. Без регистрации можно протестировать сервис — до 100 символов текста.

Регистрацию можно пройти через Google, Mail.ru, «Яндекс» или «ВКонтакте». После вы получаете 5 рублей, которых хватает на 7 минут озвучки обычным или минуту голосом Pro, голосов доступно 14.

Начинаем тестирование!

Разумеется, мы попробовали Pro‑голос — выбрали Романа, он звучит более‑менее живо. Однако озвучить весь текст у нас не получилось: система вежливо попросила доплатить 3 рубля.

Ну а мы любезно сократили текст. Для следующего теста создадим новый аккаунт!

Кстати, внизу страницы можно найти стоимость озвучки. Выходит, что бонуса хватит примерно на 500 символов Pro‑голосом.

Для скачивания под плеером есть «Скачать» — достаточно кликнуть, и файл моментально отправляется в загрузки. Доступны 2 формата: MP3 и WAV.

Давайте посмотрим итог!

Нейросеть провалилась. По сравнению с предыдущими сервисами, ошибок ощутимо больше. К имени героя придираться не будем, а вот к ударениям — с удовольствием. Из шести слов правильно было произнесено только одно.

Паузы расставлены неплохо, но на слове «Гэндальф» случился провал. Концовка получилась неплохой — нужная пауза была.

Но в общем зачёте — увы, незачёт.

Убираем знаки препинания!

Текст в сокращённом варианте, продолжаем беречь бюджет. Ну а спикером на этот раз выступает Светлана!

Давайте слушать!

Скажем так — средненько. С омографами Светлана не справилась, интонацию не уловила, паузы — о чём это мы?

Зато ударения — тут неожиданно приятно: 4 из 6 слов произнесены правильно. Это лучше, чем в случае выше!

Для зачёта всё равно недостаточно.

Проверим мультиязычность!

Понимание разных языков включается через пункт «Мультилингво». Ну а спикером для теста будет Брендан. Текст опять пришлось сократить, ибо наш снова не влезает в 5 рублей!

Слушаем результат!

Перехода между языками не слышно — плюс. Но русский нейросеть прочитала с лёгким акцентом: например, «он» выпало в отчётливое [онт] — звучало, будто читает немец. Английский — без нареканий, а вот в арабском ошиблась только в имени Бильбо. Приятно удивило, что спикер отличил два «замка». Ребята выше не смогли!

В целом — зачёт. Нейросеть справилась.

Но если хочется чёткого произношения на каждом языке — лучше задавать их отдельно.

Как дела с естественностью?

Текст звучит довольно живо, особенно если не вдаваться в грамматические тонкости. В целом все спикеры справились примерно одинаково. Серьёзной роботизации не услышали — голоса старались звучать по‑человечески. Что удивительно, даже с акцентом речь звучит живо и естественно.

Так что даём уверенные 7 из 10!

Смотрим цены!

Средний Robivox обойдётся в 500 рублей. За эту сумму вы получаете 550 бонусных единиц, которых хватит на 190 минут озвучки обычным голосом или 95 минут с использованием Pro.

Если ни один из предложенных тарифов вам не подходит — есть возможность ввести свою сумму вручную: сервис автоматически пересчитает, сколько минут вы получите в зависимости от выбранного типа голоса.

Ну а мы завершаем наш топ вместе с олдскульным APIHost

Почему олдскульным? Интерфейс выглядит, мягко говоря, немного из 2000-х.

Сайт выполнен в тёмно‑красной цветовой гамме, центральную часть занимает чёрное поле с красной рамкой. Сверху расположены выпадающие меню: выбрать язык, голос, а также формат аудио и высоту. Снизу — настройки скорости и длины пауз.

Чуть выше находятся кнопки переключения версий TTS от V1 до V7 — разные поколения моделей синтеза речи.

Подробнее тут!

Перечислим некоторые особенности версий. Каждая следующая улучшает качество звучания предыдущей.

V1 TTS

17 голосов.
Максимальное количество символов — 1000.
Можно регулировать высоту звука (0,6...+3,0).
Доступно 4 языка.

V2 TTS

Доступно 20 голосов.
Формат MP3 недоступен.
Максимальное количество символов — 500.
Можно регулировать высоту звука (0,6...+3,0).
2 языка.
Можно регулировать паузы (0,1...0,5).
Можно регулировать скорость голоса (0,5...1,5).

V3 TTS

Доступно 2 голоса.
Доступен формат MP3.
Максимальное количество символов — 500.
Можно регулировать высоту звука (0,6...+3,0).
Можно регулировать паузы (0,1...0,5).
Можно регулировать скорость голоса (0,5...1,5).

V4 TTS

Доступно 200 голосов.
Доступен формат MP3.
Максимальное количество символов — 500.
Можно регулировать высоту звука (0,6...+3,0).
Можно регулировать паузы (0,1...0,5).
Можно регулировать скорость голоса (0,5...1,5).
Самый быстрый синтез среди всех версий.
Доступно 40 языков.

V5 TTS

Доступно 53 голоса.
Доступен формат MP3.
Максимальное количество символов — 500.
Можно регулировать паузы (0,1...0,5).
Можно регулировать скорость голоса (0,5...1,5).
Доступно 16 языков.

V6 TTS

Доступно 200 голосов.
Доступен формат MP3.
Максимальное количество символов — 500.
Можно регулировать паузы (0,1...0,5).
Можно регулировать скорость голоса (0,5...1,5).
Доступно 60 языков.

V7 TTS

Доступно 60 голосов.
Доступен формат MP3.
Максимальное количество символов — 500.
Можно регулировать паузы (0,1...0,5).
Можно регулировать скорость голоса (0,5...1,5).
Доступно 29 языков.

Ну а слева внезапно — лицо в сетке и философский вопрос. Спасибо, интерфейс, я как раз об этом думал. Так сайт рекламирует свои работы.

Перед тем как перейти к текстам, стоит упомянуть одну интересную особенность: регистрироваться в сервисе необязательно. Авторизация нужна только для перехода к платному аккаунту — никаких дополнительных бонусов или бесплатных функций после регистрации вы не получите!

И да, не забудем про лимит — сервис ограничивает длину этими 500 символами. Так что, если вам понравится сервис, придётся вооружиться несколькими устройствами.

Приступаем к тестам!

Итак, для тестов мы выбрали версию V5 и спикера Ольгу. Сервис автоматически обрезал текст до 500 символов — это максимум любой версии. Из доступных настроек мы решили поэкспериментировать с длиной пауз и выставили её на 0,3 секунды.

Давайте к итогу!

Сразу скажу — это незачёт!

С самого начала непонятно, что нейросеть пыталась сказать: «остановился у древнего парамок»? Что это вообще было? Ударения не распознаёт совсем: [амбиватность], [стэростью], «мука», 2 «замка» — всё мимо.

Паузы, надо признать, выдерживаются, и что‑то отдалённо похожее на вопросительную интонацию всё‑таки было. Но с омографами — беда, нейросеть не угадала ни в одном.

Теперь без помощи!

Мы выбрали спикера Евгения и увеличили длину пауз до 0,5 секунды — в надежде, что они наконец‑то появятся там, где нужно. Смотрим!

И знаете что? Кажется, нейросеть действительно старалась. Такое ощущение, что она хочет сделать паузы, но до конца не понимает, куда их ставить.

Но есть и приятный сюрприз: с омографами «му́ка» и «муко́й» она справилась! И даже те слова, которые в прошлом тесте звучали коряво, на этот раз произнесены сносно.

Тем не менее всё ещё остались проблемы с интонацией, остальные омографы даются с трудом, а паузы — как призраки: вроде есть, но где — непонятно.

Так что, несмотря на прогресс, зачёт снова не ставим!

Теперь к мультиязычности!

Нейросеть не справляется с одновременной озвучкой трёх языков — максимум, что она может, это русский и английский, причём оба с заметным акцентом. Поэтому решили идти по классике: протестируем английский и арабский отдельно.

Для арабского выбрали версию V4, так как именно там удалось найти подходящий голос. Тут есть одна особенность: нейросеть нормально работает только с «чистым» арабским, без уточнений страны, — иначе получите отказ.

В качестве спикера выступил Ахмед. Как выяснилось, голос платный и озвучка оборвалась на середине. Но даже по тому, что удалось услышать, можно сказать: Ахмед звучит неплохо.

А вот с английским вышла загвоздка — ни одного бесплатного голоса без акцента найти не удалось. Что ж, работаем с тем, что есть.

Ну а теперь — давайте просто послушаем. Запись даже комментировать не будем: вы всё сами услышите.

Подводя итог, можно честно сказать — это провал. Провести наш тест не удалось, и ладно. Если же разбирать по языкам отдельно: с русским нейросеть разговаривает вежливо, почти на «вы», арабский — платный, английский — только с акцентом.

Насколько живо говорит?

Скажем честно: это самый «неживой» сервис в топе. Роботизация ощущается с первых секунд, голос звучит сухо и безжизненно, и это притом, что мы выбирали из лучших доступных. А ведь есть и хуже.

Факторов, которые могли бы сгладить впечатление, увы, нет. Даже увеличенные паузы будто сжались.

Что ж, это 4/10!

Что по цене?

Голоса Extra стоит 4 рубля за 1000 символов. Включает набор голосов V2 с улучшенной интонацией и естественным звучанием. Также открывается доступ к голосам из наборов V1, V3, V4 и V5. Насколько звучание станет естественным, проверять мы не будем, а пойдём дальше!

Резюмируя

Да, нейросети учатся быстро. Некоторые из них звучат почти как живые. Но «почти» — не значит «совсем». Омографы, интонации, плавные языковые переходы — всё это остаётся лакмусовой бумажкой, на которой роботы всё ещё мазят.

Человеческий голос — это не просто звук. Это опыт, эмоции, история, рассказанная между строк. Это дыхание и паузы, в которых скрыто больше, чем слова. Этому пока не научишь ни одну модель.

Спасибо за прочтение! Делитесь в комментариях своим опытом использования нейросетей для синтеза речи. Возможно, у вас уже есть любимый сервис — будем рады узнать о вашем опыте!

✶ Facebook принадлежит Meta Platforms Inc., деятельность которой запрещена на территории Российской Федерации.

Комментарии (27)

un1t
27.05.2025 13:31
#28359336
Очень странно увидеть в заголовке "бесплатно", а в тексте исключительно платные сервисы
1. gfiopl8
  27.05.2025 13:31
  #28359436
  Они все дают бесплатно пощупать.
  
  Гугол недавно открыл свой TTS. Там дают бесплатно 15 запросов в сутки... но прикол в том что аккаунт очень легко создать, а значит и купить пачку ключей на "черном рынке" за копейки. Сегодня попробовал им целую книгу озвучить - 8часов, получилось неплохо, надо только получше разрезать на кусочки что бы паузы между абзацами и главами были в нужных местах, ну и если сильно хочется то можно еще неправильные ударения руками исправить. Из интересного - он часто сбивается с инструкции читать монотонно и начинает эмоционировать.
  
  https://drive.google.com/file/d/1m9WIC-mi-dgNEryl8deDJc7mfIEe0z01
  
  зы цены у элевенлабс и аналогов - жесть даже по меркам сшанцев. 20 баксов за 250 минут ослабленной модельки :рукалецо:
  1. un1t
    27.05.2025 13:31
    #28364050
    8 часов это с одного акаунта или сколько? С одного аккаунта какие лимиты на длинну ?
    
    poriogam
    27.05.2025 13:31
    #28364314
    Бесплатный лимит там 15 запросов в день по ~3000 русских символов на аккаунт, так что для озвучки 8 часов нужна большая пачка аккаунтов.
    
    Hopenolis
    27.05.2025 13:31
    #28364456
    Это лимит для апи. На сайте https://aistudio.google.com/app/prompts/new_chat лимит или намного больше или его вообще нет + не надо быть программистом что бы юзать.
1. Balling
  27.05.2025 13:31
  #28360924
  Kokoro причём лучше всех этих платных сервисов.
  1. poriogam
    27.05.2025 13:31
    #28360998
    В kokoro нет русского, а английский неплохо звучит даже у старого гугла и edge.
    
    Самый интересный из бесплатно доступных сейчас - джемини, он может орать, петь итп, говорить на 2 голоса. Тут можно поиграться, там же есть и эдж с гуглом и опенаи (который из openai.fm).
    
    https://drive.google.com/file/d/1Yje3s0SQeBRrD2y2gwJGe2L4OS4KDDuf/view?usp=sharing

hssergey
27.05.2025 13:31
#28359516
Для прослушивания книг использую на телефоне Voice Aloud Reader (https://play.google.com/store/apps/details?id=com.hyperionics.avar&hl=en-US ) - просто скармливаешь ему fb2 (можно зазипованный) и он его читает. При этом используется движок Google Voice или можно в настройках выбрать какой-то другой. Качество озвучки среднее, попадаются неправильные удаления, но в целом вполне приемлимо.
1. gsaw
  27.05.2025 13:31
  #28359594
  Я пользуюсь fbreader, и тоже google tts. Получше выходит чем некоторые тут примеры. Конечно практически без выражения, но привыкаешь. И мне кажется FBReader наиболее правильно нарезает части текста для озвучивания. Некоторые читалки отрезают по середине диалога, от этого странные паузы получаются в озвучке.
  
  Я вот пытаюсь на компе запустить нейронку, попробовать подключать к телефону как tts. Сложна очень все.

poriogam
27.05.2025 13:31
#28359666
Голос Дмитрий из второго сервиса, и Светлана из третьего это 146% легко узнаваемые русские голоса из бесплатно edge tts.

Margutoop
27.05.2025 13:31
#28359738
Очень большая помощь и перспектива для незрячих пользователей

DikSoft
27.05.2025 13:31
#28359874
Тема интересная, но у всех движков полная беда с тюркскими языками, кроме турецкого толком нет ничего.

hoaken0
27.05.2025 13:31
#28359966
К чему это статья? Ноль полезной инфы, так ещё куча следов ИИ!

Думал смогу найти синтезатор для озвучки новостей на своём сайте, как например на VC, но увы вся статья о популярных платных сервисах.

Да и цены космические, сравните полезность подписки ChatGPT за 20$ и 5 часов озвучки от недо синтезаторов.

Другое дело получить рыболовный инструмент, хоть и не топовый, за то бесплатно, и можно запустить на своём ПК, слушать книги. Так сказать замена Алисе.

SnakeSolid
27.05.2025 13:31
#28360380
В своём проекте я использую локальные модели Silero Models. Для озвучки больших текстов существует готовая обёртка speakerpy, которая автоматически разбивает текст на предложения и конвертирует числа в слова. Если нужно статьи озвучить можно через trafilatura получать текст и сразу отправлять на озвучку, книги аналогично. На моём компьютере за 15 минут генерируется примерно час аудио - этого более чем достаточно даже при прослушивании на повышенной скорости.

Из недостатков:
1. Часто неправильно расставляются ударения (для моего проекта не критично).
2. Поддерживаются только некоторые популярные языки (мне достаточно поддерживаемых русского и английского).
3. Требуется предобработка и нормализация текста, так как модель работает только с символами целевого языка и текстом ограниченной длинны (можно использовать тот же speakerpy, но я написал свою утилиту по мотивам).
1. Biga
  27.05.2025 13:31
  #28360646
  На гитхабе есть питоновые библиотеки для расстановки ударений. Есть даже с нейросетями. Бесплатно. Пробовал, работает норм. Если выбрать "тяжелую" модель, то даже замок от замка отличает.
  1. d-sh
    27.05.2025 13:31
    #28360992
    Замок от замка даже чатгпт плохо отличает, не может нормально йофицировать текст. Видимо из за того что большинство русских текстов без ё.
    
    Biga
    27.05.2025 13:31
    #28362556
    Хм, странно, на мой взгляд. Пользуюсь RHVoice, там с ёфикацией проблем нет вообще, и без всяких нейросетей.
    
    poriogam
    27.05.2025 13:31
    #28363372
    Как с этим может не быть проблем, как не понимая смысла текста можно определить что за слово тут стоит - осёл или осел?
    
    Biga
    27.05.2025 13:31
    #28363676
    Видимо таких случаев в разы меньше, чем с ударениями, вот и не бросается в уши.
    
    poriogam
    27.05.2025 13:31
    #28363820
    Ну допустим что осел встречается нечасто но как насчёт слов - все и всё?

FifthLeg
27.05.2025 13:31
#28360906
А почему openai tts не попробовал? У него как мне показалось наилучшее качество.
1. un1t
  27.05.2025 13:31
  #28363896
  Наилучшее это у ElevenLabs. У гугла вроде тоже есть хорошее качество. openai дешево, но что качественно я бы не сказал.
  1. FifthLeg
    27.05.2025 13:31
    #28364318
    Вы про новые говорите версии от openai, которые в конце марта выпустили? Мне они лучше всех понравились.
    
    Я пробовал книжку озвучить и ElevenLabs точно не впечатлил.

Kogolbok
27.05.2025 13:31
#28361210
Все эти нейросети добавляют лишь немного интонации. Жрут немерянно, а на выходе всё те же ошибки, которые в старых движках были, неправильные ударуния и прочее. И раньше движки были открытыми, а теперь закрытые. Не нравится мне это всё.

HumanBearPig
27.05.2025 13:31
#28361288
Обучите модель на аудиокнигах Сергея Чонишвили и получите лучшего диктора для книг.

poriogam
27.05.2025 13:31
#28361306
Большой минус шибко умных моделей (openai и gemini) в том что они тупо отказываются озвучивать запрещенку, порнографические тексты вообще никак.

Yurii_Kostyukov
27.05.2025 13:31
#28364914
Спасибо за статью. Но её оформление напрягло: примерно каждое 4 слово зачем-то выделено жирным, так что не возможно читать. Поправьте, пожалуйста, свой системный промпт для генерации статей, чтобы такого не было.