30+ движков за две недели, реальные замеры на Apple M4, и почему ElevenLabs за $5.57/час - это приговор для бизнеса
Сижу на очередном рабочем созвоне. Обсуждаем архитектуру нового сервиса. Технически я всё понимаю - документацию на английском читаю без словаря, код ревьюю, в слаке переписываюсь нормально. А вот когда надо открыть рот и сказать что-то сложнее "I agree" - начинается цирк. Пауза. Подбираю слова. Коллега уже ответил за меня.
Знакомо?
Я CTO, серийный предприниматель, последние годы плотно работаю с AI-интеграциями. И вот парадокс: могу собрать систему автоматического обзвона клиентов с клонированием голосов, а сам на созвоне звучу как иностранец с разговорником.
Решил наконец закрыть этот гештальт. Полез искать real-time переводчик. Что-то типа: я говорю по-русски, собеседник слышит английский. И наоборот. В реальном времени, без пауз на 10 секунд.
И тут началось интересное.
Существующие решения - от $25 до $300+ в месяц
Я прошёлся по всему рынку. Вот что есть:
Продукт |
Задержка |
Цена |
Проблема |
|---|---|---|---|
Google Meet S2ST |
~2 секунды |
Только платный Workspace |
Только в Google Meet. Не работает в Zoom, Teams, Discord. Ограниченная география. Нет API |
Palabra.ai |
~800ms |
от $25/мес за 60 мин |
WebSocket API есть. Бесплатно 30 мин/мес. При активном использовании $100+/мес легко |
Talo (куплен Palabra) |
<1 секунды |
по запросу |
Поглощён Palabra в ноябре 2025. Отдельного продукта больше нет |
DeepL Voice |
~1-2 секунды |
$32.99/мес (Pro) |
Жалобы на лаги в реальных звонках. Хорош для текста, слабее для речи |
Interprefy |
~1-3 секунды |
enterprise, от $300+ |
Заточен под конференции и ивенты, а не под ежедневные созвоны |
JotMe |
~2-4 секунды |
от $10/мес |
Больше транскрипция + субтитры, чем voice-to-voice |
Wordly |
~2-3 секунды |
enterprise, от $500+ |
Для конференций на 1000+ человек. Overkill для двух людей на созвоне |
ElevenLabs |
STT 150ms + TTS 75ms |
собери сам + $99+/мес |
Отдельные компоненты, не готовый продукт. Дорого |
Протестировал всё что мог потрогать. Ни одно не работало так чтобы разговор звучал естественно. Где-то задержка два с лишним секунды - это уже не перевод, это рация. Где-то привязка к одной платформе. Где-то ценник для корпораций.
Ну и мы же айтишники. Да ещё и AI интегрировать умеем. Собрал рабочий прототип за выходные, а за следующие пару недель прогнал через бенчмарки весь рынок голосовых движков. Результаты - ниже.
Как устроен голосовой AI-переводчик
Схема простая. Три компонента в цепочке:
STT (распознавание речи) → LLM (перевод) → TTS (синтез голоса)
Я говорю по-русски. Deepgram распознаёт речь. Groq с Llama переводит. TTS озвучивает. Собеседник слышит английский. В обратную сторону то же самое.
Звучит просто. На деле каждый компонент - это бутылочное горлышко, и в каждом свои грабли. Разберём по частям.
Часть 1: STT - кто слушает лучше всех
Speech-to-Text - первое звено цепочки. Чем быстрее распознали речь, тем раньше начнётся перевод.
Провайдер |
Задержка |
WER (ошибки) |
Цена/мин |
Streaming |
|---|---|---|---|---|
Deepgram Nova-3 |
<300ms |
~10% |
$0.0059 |
Да |
AssemblyAI Universal-2 |
~300ms |
8.4% |
~$0.006 |
Да |
ElevenLabs Scribe v2 |
150ms |
~9% |
~$0.01 |
Да |
Groq Whisper Large v3 |
batch |
10.3% |
$0.0028 |
Нет |
whisper.cpp (локально) |
1-3 секунды |
~10% |
бесплатно |
Нет |
Deepgram Nova-3 - лучший для streaming. Работает стабильно, задержка меньше 300ms, цена копеечная.
Кстати, при регистрации Deepgram даёт $200 на счёт. При расходе $0.0059/минута этого хватает на 33,000 минут распознавания. Это 560 часов. Реферальной программы у них нет, а то бы дал ссылку и жил на пассивном доходе.
Groq Whisper мы пробовали раньше - нестабильный, падал с 503 ошибками, средняя задержка 2812ms. Заменили на Deepgram и забыли как страшный сон.
ElevenLabs Scribe v2 с заявленными 150ms стоит потестировать, но пока нет данных по точности и цене.
Часть 2: LLM - кто переводит быстрее
Для перевода нужна LLM, которая выдаёт первый токен максимально быстро (TTFT - Time to First Token). Качество перевода у всех крупных моделей плюс-минус одинаковое, а вот скорость отличается в разы.
Провайдер |
Модель |
Скорость (tokens/s) |
TTFT |
|---|---|---|---|
Groq |
Llama 3.3 70B |
~750 |
~200ms |
Cerebras |
Llama 8B |
1800 |
~350ms |
Gemini |
2.5 Flash |
217-245 |
330-450ms |
Fireworks AI |
Llama 3.3 70B |
~800 |
~200ms |
Cerebras быстрее по токенам/секунду, но у них выше TTFT. Для перевода коротких фраз (5-15 слов) критичен именно TTFT, а не скорость генерации. Groq с Llama 3.3 70B - оптимальный выбор: ~200ms до первого токена, хорошее качество перевода.
Локальные LLM (Llama 3.2 3B на MLX, ~100 t/s) пока проигрывают облаку для latency-critical задач.
Часть 3: TTS - где всё ломается
Text-to-Speech выглядит как самая простая часть пайплайна. На деле это бутылочное горлышко всей системы. Если STT + LLM работают за 500ms, а TTS добавляет ещё секунду - собеседник ждёт полторы секунды после каждой фразы.
Вот полная картина.
Облачные TTS API (полная сводка)
Провайдер |
Модель |
TTFB |
ELO |
Цена/1M симв. |
Цена/час |
Русский |
|---|---|---|---|---|---|---|
Cartesia |
Sonic Turbo |
~40ms |
1054 |
$37-47 |
$1.26 |
Да |
Cartesia |
Sonic 3 |
~90ms |
1054 |
$37-47 |
$1.26 |
Да |
Hume |
Octave 2 |
<200ms |
1562 |
$7.60 |
$0.26 |
Да (11 языков) |
Inworld |
TTS-1.5-Max |
<250ms |
1576 |
$10 |
$0.34 |
Нет |
Inworld |
TTS-1.5-Mini |
<120ms |
~1480 |
$5 |
$0.17 |
Нет |
ElevenLabs |
Flash v2.5 |
~75ms |
1544 |
~$206 |
$5.57 |
Да |
Smallest.ai |
Lightning |
<100ms |
~1150 |
~$25 |
$0.84 |
Да |
Fish Audio |
OpenAudio S1 |
<100ms |
~1200 |
$15 |
$0.51 |
Да |
Deepgram |
Aura-2 |
90-184ms |
~1050 |
$27-30 |
$1.01 |
Нет |
OpenAI |
TTS-1 |
~500ms |
1106 |
$15 |
$0.51 |
Да |
OpenAI |
gpt-4o-mini-tts |
~300ms |
~1350 |
$64/1M токенов |
~$3.20 |
Да |
Neural2 |
200-250ms |
~1020 |
$16 |
$0.54 |
Да |
|
Chirp 3 HD |
до 3.5с! |
~1180 |
$30 |
$1.01 |
Да |
|
Azure |
Neural HD |
300-500ms |
~1080 |
$15 |
$0.54 |
Да |
Speechmatics |
Flow |
~150ms |
~1100 |
$11 |
$0.37 |
Нет |
Расчёт "цена/час": ~33,750 символов TTS на час звонка (два направления, ~750 символов в минуту, ~45 минут активного TTS).
Рейтинг качества TTS (ELO, слепое голосование)
Данные из TTS Arena v2 и Artificial Analysis, март 2026:
# |
Модель |
ELO |
Тип |
|---|---|---|---|
1 |
Vocu V3.0 |
1600 |
облако |
2 |
Inworld TTS-1.5-Max |
1576 |
облако |
3 |
Hume Octave 2 |
1562 |
облако |
4 |
ElevenLabs Flash v2.5 |
1544 |
облако |
5 |
MiniMax Speech 2.6 HD |
1544 |
облако |
6 |
OpenAI TTS-1 |
1106 |
облако |
7 |
Kokoro 82M |
1059 |
open-source |
8 |
Cartesia Sonic 3 |
1054 |
облако |
Локальные TTS модели (реальные бенчмарки на Apple M4)
Все тесты - MacBook Air M4, 24GB RAM. Одни и те же фразы, warm (после прогрева).
Модель |
Размер |
Инференс (2-3 слова) |
Инференс (10 слов) |
Качество |
Русский |
Лицензия |
|---|---|---|---|---|---|---|
Piper ryan-medium |
63MB |
30-50ms |
137ms |
B |
Да |
MIT |
Kokoro 82M fp16 |
156MB |
370ms |
730ms |
A+ |
Нет |
Apache 2.0 |
pocket-tts 100M |
100M |
260ms |
7500ms! |
B (нестабильно) |
Нет |
Gated |
ZipVoice 123M |
123M |
~500ms |
1240ms avg |
B+ |
Нет |
Apache 2.0 |
Chatterbox 500M |
500M |
6310ms |
9100ms |
A |
Да |
MIT |
Qwen3-TTS 0.6B |
600M |
~800ms |
~1600-2000ms |
B+ |
Да |
Apache 2.0 |
Qwen3-TTS 1.7B |
1.7B |
~2500ms |
~5300ms |
A |
Да |
Apache 2.0 |
Marvis TTS 250M |
250M |
~3000ms |
~8500ms |
C+ |
Нет |
MIT |
Тренд неприятный: все серьёзные новые модели (Chatterbox, Dia, Sesame CSM, Spark-TTS) идут к 0.5-2B параметров. На Mac без GPU это 6-19 секунд на фразу. Лёгких конкурентов Kokoro 82M почти нет.
Реальные бенчмарки: одни и те же фразы, все провайдеры
5 одинаковых фраз, warm, замеры TTFB или total time. Это самая ценная таблица в статье:
Провайдер |
Модель |
Протокол |
TTFB avg |
Min |
Max |
Цена/1M |
|---|---|---|---|---|---|---|
Cartesia |
Sonic-2 |
WebSocket |
245ms |
208ms |
281ms |
$37-47 |
Kokoro |
82M |
local MLX |
313ms* |
259ms |
340ms |
бесплатно |
ElevenLabs |
Flash v2.5 |
WebSocket |
395ms† |
309ms |
551ms |
~$206 |
Hume |
Octave 2 |
HTTP stream |
800ms |
773ms |
833ms |
$7.60 |
ZipVoice |
123M distill |
local MPS |
1240ms |
792ms |
2190ms |
бесплатно |
Cartesia |
Sonic-2 |
sync SDK |
1361ms |
1173ms |
1567ms |
$37-47 |
Inworld |
TTS-1.5-Mini |
sync HTTP |
2018ms |
1606ms |
2404ms |
$5 |
Hume |
Octave 2 |
sync |
2158ms |
1915ms |
2395ms |
$7.60 |
Inworld |
TTS-1.5-Max |
sync HTTP |
2616ms |
2077ms |
2886ms |
$10 |
*Kokoro - total time (нет стриминга, генерирует аудио целиком). †ElevenLabs - avg без первого cold-start запроса (2520ms).
Обратите внимание на Cartesia в двух строках. Одна и та же модель, одна и та же фраза. Разница - только протокол подключения.
Четыре находки, которые стоили мне недели
Находка #1: Протокол решает всё
Cartesia Sonic через WebSocket: 245ms.
Cartesia Sonic через обычный HTTP SDK: 1361ms.
Разница в 5.5 раз. Просто потому что в одном случае соединение уже открыто и данные идут стримом, а в другом каждый запрос открывает новое соединение и ждёт полной генерации.
Если выбираете TTS для голосового бота и тестируете через синхронный API - вы получаете цифры, которые не имеют отношения к реальности. Всегда тестируйте через WebSocket.
Находка #2: Квантизация замедляет на Apple Silicon
Обычно INT8-квантизация ускоряет инференс. На Apple Silicon - наоборот.
Kokoro 82M в fp16: 373ms. Та же модель в INT8: 687ms. Почти вдвое медленнее.
ARM-процессоры Apple оптимизированы под fp16. Квантизация экономит RAM, но добавляет overhead на конвертацию типов. Нигде в документации это не написано. Мы убили на это день.
Находка #3: Русский язык - пустыня
Из 30+ моделей русский поддерживают:
Модель |
Русский |
Качество |
Проблема |
|---|---|---|---|
Piper TTS (~20M) |
Да |
"Синтетический" голос |
Проект архивирован |
Chatterbox 500M |
Да |
Отличное |
6-19 секунд на фразу |
Qwen3-TTS 0.6B |
Да |
Хорошее |
Слишком медленно на Mac |
Coqui XTTS-v2 1.4B |
Да |
Хорошее |
Модель 1.4GB |
Облачные (Cartesia, EL, Google, Azure) |
Да |
Хорошее-отличное |
$$$ каждый месяц |
Kokoro 82M - лучшая бесплатная модель по качеству - русского не поддерживает. Если делаете голосовой продукт для русскоязычного рынка на open-source - готовьтесь к боли.
Находка #4: ElevenLabs - лучшее качество, худшая экономика
ElevenLabs Flash v2.5 - объективно один из лучших движков. ELO 1544, голоса неотличимы от живых.
Цена: ~$206/1M символов. Для голосового бота на час - $5.57.
Cartesia Sonic Turbo при сопоставимой скорости: $1.26/час. Hume Octave 2: $0.26/час.
ElevenLabs в 4-20 раз дороже конкурентов при сравнимом качестве. Считайте unit-экономику до того как выберете провайдера. Не после.
Kokoro 82M: бесплатный чемпион (с нюансами)
Отдельно про модель которую я в итоге выбрал для английского TTS. Kokoro 82M - StyleTTS2, Apache 2.0 лицензия, 156MB в fp16.
Бенчмарки на M4 (ONNX Runtime, CPU, 4 потока):
Фраза |
Инференс |
Длительность аудио |
|---|---|---|
"hey so" (2 слова) |
373ms |
1.50s |
"well actually" |
372ms |
1.77s |
"we should push the deadline..." (10 слов) |
730ms |
3.33s |
"I believe we need to reconsider..." (11 слов) |
1036ms |
4.45s |
Полный параграф (~40 слов) |
2756ms |
14.1s |
Попытки ускорить:
Оптимизация |
Результат |
Вывод |
|---|---|---|
fp16 (дефолт) |
373ms |
Лучший вариант |
INT8 квантизация |
687ms |
1.8x медленнее! |
q8f16 |
655ms |
1.75x медленнее! |
CoreML Neural Engine |
ошибка |
Не поддерживает архитектуру |
1 поток |
1723ms |
Слишком медленно |
2 потока |
942ms |
Ещё медленно |
4 потока |
~730ms |
Оптимум |
8 потоков |
754ms |
Overhead |
28 английских голосов (20 US, 8 GB). Качество - первое место в TTS Arena для single-speaker. Субъективно значительно натуральнее Piper.
Минус: нет русского. 9 языков (EN, JA, ZH, ES, FR, HI, IT, PT, GB-EN), но не русский.
Что получилось в итоге
Финальный стек переводчика:
Deepgram Nova-3 (STT, ~300ms) → Groq Llama 3.3 70B (перевод, ~200ms) → StreamChunker (нарезает на куски по 2-3 слова, ~100ms) → Kokoro 82M (TTS английский, ~370ms на первый чанк)
Общая задержка до первого звука: ~870ms.
Решение |
Задержка |
Цена |
|---|---|---|
Google Meet S2ST |
~2000ms |
Только платный Workspace, ограниченная география, только Meet |
Palabra.ai |
~800ms |
от $25/мес (60 мин) |
Мой переводчик |
~870ms |
~$0.009/мин |
На уровне лучших коммерческих решений. Скоро выложу в open-source.
Для русского TTS пока Piper с фиксом нормализации громкости. Проблема "тихо" оказалась багом - семплы из ONNX шли без gain normalization. Починили, стало нормально.
Бонус: тот же стек для колл-центра
Пока копался в TTS-движках, тот же пайплайн пригодился для другого проекта. У RigCrewесть колл-центр - автоматический обзвон кандидатов, скриптованные разговоры, FAQ на 30 вопросов. Живые операторы стоят денег и масштабироваться с ними дорого.
Адаптировали пайплайн: STT слушает кандидата, LLM генерирует ответ по скрипту, TTS озвучивает. Один менеджер управляет целым оркестром из AI-звонилок. Голосовой бот который звучит натурально, стоит $1-2 в час, и не устаёт к концу смены.
Все бенчмарки из этой статьи - они работают и там. Тот же выбор между Cartesia за $1.26/час и ElevenLabs за $5.57/час. Та же разница в 5.5 раз между WebSocket и sync API.
Куда движется голосовой AI
Conversational Speech Models. Sesame CSM-1B генерирует речь с паузами, "ммм", контекстной интонацией. Пока research-grade (200-400ms, нужен GPU), но через год-два это будет стандарт.
LLM-based TTS. Hume Octave 2, OpenAI gpt-4o-mini-tts - модели которые "понимают" что говорят. Грустную новость бот сообщает грустным голосом. Hume побеждал ElevenLabs в слепом тесте (71.6% по quality).
Гонка цен вниз. Новые игроки (Inworld, Smallest.ai, Fish Audio) давят ElevenLabs. Цены за два года упали в 5-20 раз.
Open-source догоняет. Kokoro 82M бесплатно даёт качество облачных API годовой давности. Но русский язык - по-прежнему боль.
End-to-end модели. Google S2ST переводит речь напрямую, сохраняя голос. Пока только в Meet. Если откроют API - рынок изменится.
Три вещи которые я хотел бы знать до начала
Считайте unit-экономику на берегу. Разница между $0.26/час и $5.57/час при 1000 часов звонков в месяц - это $5,310. Выбор TTS-провайдера может убить бизнес-модель.
Тестируйте через WebSocket. Один и тот же провайдер: 245ms или 1361ms. Зависит только от протокола.
Русский язык - бутылочное горлышко. Open-source пока не дотягивает. Бюджет на cloud TTS неизбежен если ваш продукт для русскоязычного рынка.
Переводчик скоро в open-source. Все бенчмарки из статьи реальные, повторяемые, с указанием железа и условий. Если делаете что-то похожее - пишите, сэкономлю вам пару недель мучений.
Источники и бенчмарки:
TTS Arena v2 · Artificial Analysis · Cartesia · Hume Octave 2 · Deepgram Nova-3 · Kokoro-82M · Sesame CSM · Google Meet S2ST · Cerebras vs Groq · ElevenLabs Scribe v2 · Inworld TTS · Piper TTS · Kokoro ONNX
Об авторе: Кир, CTO и серийный предприниматель. Пишу про AI для бизнеса без булшита: @ai_integr
Комментарии (7)

Chingul
29.03.2026 01:19Не увидел среди тестируемых движков Silero. Почему? Интересно было бы посмотреть результаты.
===
А вообще в идеале упаковать весь pipeline теста в некий автоматический сервис, чтобы проверять все STT, TTS движки регулярно на качество и скорость.

Kir_Moisha Автор
29.03.2026 01:19Довольно старая и слабая модель, по качеству голоса она не подходила для звонилки. В целом может подойти для переводчика да, по скорости/качеству звука +- одно и тоже что Piper должно быть. Но главное отличие что она не обновляется давно насколько мне известно и лицензия не MIT

Chingul
29.03.2026 01:19Странно. Они вроде регулярно обновляются, даже статья на Habr датируется этой же датой: https://habr.com/p/1015942/
Мы точно про одно и тоже говорим?

Kir_Moisha Автор
29.03.2026 01:19О, прикольно, протестим тогда. А не знаешь что там с лицензией? Может тоже сменили рельсы?
Real_Egor
черт, одна из самых полезных статей на хабре -)
забавно, что комментрировать любят только то, где минусуют. Закинул в закладки
Kir_Moisha Автор
На хабре много полезного, скоро будет больше =)