На Хабре часто висят в топе: политика и очередные запреты, трактор, ну и конечно сенсационные новости про "очередные достижения AI". Также журналисты маркетологи любят перепечатывать нормальные статьи наподобие этой но под максимально кричащими заголовками в духе "AI поработит мир, ваш голос уже украли".


Не секрет, что имея бюджет на вычисления в единицы или десятки миллионов долларов, напоказ достичь можно многого. Но реальность как правило оказывается более сложной и прозаической.


Вопреки этому тренду, в этой статье мы постараемся на пальцах и близко к народу:


  • На реальных примерах показать возможности генерации голоса на малом числе данных или на данных с неидеальным качеством;
  • Немного порассуждать на тему цифровых памятников (это чем-то похоже на интерактивные или трехмерные фотографии), сделанных из голоса человека;
  • Также немного порассуждать на тему того, какую объективную опасность это представляет для общества;

И также мы конечно поделимся новостями нашего публичного синтеза речи.


Границы возможного


Сейчас вовсю лютует эпоха пост-модернизма. Тренд на утерю рационального мышления принял системный характер. Развитие Интернета скорее привело не к массовому распространению "fake news", а скорее массовой низкопробной фантастики (самый яркий пример — Hyperloop), которая согласуется с чаяниями обычных граждан. Скорее получается не "fake news", а усилитель неграмотности с локальной спецификой. Я постоянно вижу какие-то новости на тему того, что или кого должны уже заменили роботы сильный ИИ нейросети. Отсюда также растут тренды про плоскую землю, чипирование, вышки 5G и прочее мракобесие.


Хорошая актуальная иллюстрация на злобу дня — маркетинговые материалы OpenAI против более менее вменяемых попыток повторения от комьюнити:


avocado


Но если вернуться к нашей реальности, то в современной парадигме машинное обучение — это скорее сжатие данных. Фотографии уже как более века не являются диковинкой (и в современном понимании тоже являются сжатыми данными, тот же JPEG — это максимально популярный пример). Трехмерные фотографии (голограммы) — на самом деле в самом примитивном исполнении — тоже есть везде (стикеры, магнитики и вкладыши). Фотографии с картой "глубины" до недавнего времени требовали специального оборудования. Но сейчас появляются смартфоны с такими камерами и ее восстанавливают (точнее галлюцинируют) те же нейросети.


В самом-самом эпизоде сериала Черное Зеркало "White Christmas" четко прослеживается идея цифрового посмертия и сохранения каких-то цифровых артефактов.


Сейчас такими артефактами обычно являются фотографии, аудио и видео. Но как правило, такие артефакты не являются интерактивными. Появляются алгоритмы для анимации лиц и / или фото. Но что если рассмотреть сам голос непосредственно как некоторую "открытку" или привет из прошлого от некоего человека? Вы не можете заставить такую открытку саму говорить то, что бы говорил реальный человек (говорящие про "мышление" нейросетей люди просто лукавят), но голос может быть узнаваем или даже неотличим от реального при каких-то условиях.


В принципе "успехи" так называемых больших языковых моделей (LLM) могут сделать примеры из Черного Зеркала с созданием полных цифровых аватаров людей чем-то извращенно похожим на реальность. Но при детальном общении они будут рассыпаться буквально через 1-2 фразы и в лучшем случае пока будут примером грубой "китайской комнаты", которая сделала лишь один маленький шаг от бредогенераторов. Но голос, если вынести за скобки огромную палитру человеческих эмоций и интонаций, сохранить в принципе можно уже более менее точно и неотличимо.


Отдельный философский вопрос возникает: вот я сделал "копию" голоса близкого человека, но что будет с этим файлом через 50 лет? С одной стороны веса нейросети так и останутся матрицами, но все теперешнее окружение (например PyTorch) скорее всего уже уйдет в небытие. Возникает некая аналогия с тем, что HiFi электроника из 70х является условно самодостаточной (если есть розетка 220V и заменить резиновые ремни), а современные "подписочные сервисы" не будут найдены археологами. По этой причине интересно будет посмотреть на маркетинговые материалы инвестиционных стартапов, которые рано или поздно возьмутся за такое дело.


Будут ли они предлагать саппорт на 1 год, 5 лет, 50 лет, или будут как обычно все умалчивать и потом тихо пропадать? Логичной кажется конечно генерация большого количества каких-то неслучайных (?) фраз и просто хранение их тупо на диске или в какой-то физической оболочке. Например, если человек записал книгу или статью, можно ее озвучить и показывать потомкам.



Критерии успеха при создании голоса


В течение последних нескольких месяцев мы сделали несколько пробных и не очень проектов и выделили основные критерии, которые влияют на качество синтезированного аудио (сначала самые важные):


  • Качество и количество аудио;
  • Качество и свойства самого голоса, четкая дикция, консистентность (мы не умеем сохранять всю палитру эмоций);
  • Соответствие канонам произношения и соответствие фонем их типичному произношению, точность произнесенного написанному (да, внезапно);
  • Похожесть на существующих спикеров и наличие базы "идеальных" спикеров на нужном языке;

В прошлой статье мы приводили примеры запуска похожих голосов и даже более менее похожих голосов на разных языках "с холодного старта" и "с теплого старта" (пример чего-то относительно похожего в литературе). В этот раз мы уже провели сильно больше экспериментов и у нас сложилась некоторая более связная картинка мира.


В прошлых статьях мы подметили, что ударение сильно повышает качество синтеза для русского языка, а фонемы как будто не очень. Поигравшись с языками народов СНГ, также мы обратили внимание на сильную "фонетическость" записи некоторых языков (особенно на кириллице, когда письменный язык делали лингвисты не так давно). В каком-то смысле это также применимо к немецкому и испанскому.


Картинка сложилась, когда мы пробовали тренировать модель "с теплого старта", когда целевой спикер говорит по-английски, а спикер-донор — по-русски. Предсказуемо, так просто не работало даже с теплого старта при прочих равных и похожих голосах. При более детальном рассмотрении оказалось, что у русского, испанского и немецкого языков очень похож набор фонем, в отличие от английского.


Чтобы не растекаться мыслью по древу, сведу все итоги по абстрактным типам экспериментов в одну несколько упрощенную таблицу:


Номер Старт Качество / дикция / шум Количество аудио Фонетика Качество
Яндекс Холодный Диктор с "войс-коучем" 40 часов В примерах был русский 4-5+
(1) Холодный Хорошее, диктор 3+ часов (лучше 5) Любой язык 4-5
(2) Теплый Хорошее, диктор, нет шума От 5-15 минут Тот же язык и диалект ~4
(3) Теплый Среднее, нет дикции, мало шума От 5-15 минут То же, но голос похож 4-, артефакты
(4) Теплый Среднее, нет дикции, мало шума 20-30 минут То же 4-
(5) Теплый Голос В.И. Ленина 15-20 минут То же 3-
(6) Теплый Хорошее, голос диктора 3+ часов Другой язык, похожая фонетика 4
(7) Теплый Среднее, дикция "плавает" 15-20 минут Другой язык, не похожая фонетика не работает
(8) Теплый Среднее, дикция "плавает" 15 минут Тот же язык, разный акцент 4-
(9) Холодный Хорошее, голос 1 диктора 15 минут Любой язык не работает
(10) Холодный Хорошее, много дикторов 10+ часов Любой язык, дикторы похожи 4+

Что интересно, в случае (6) пол, язык и похожесть голоса особой роли не играют, если язык похожий по звучанию. Если построить ментальную модель происходящего, то усилия дикторов можно экономить имея в загашнике много дикторов даже не с похожими голосами, а с похожими соответствиями между произносимыми звуками и "фонемами", которые с листа читает диктор. Простым языком — похожий диалект / акцент / набор часто произносимых фонем.


Ну то есть грубо говоря, если вы хотите сделать максимально качественную модель для людей, говорящих на индийских языках или на английском с индийским акцентом на малом числе данных, вам надо иметь данные не с идеальным британским произношением, а с произношением похожим на целевой домен. В ретроспективе это кажется очевидным, но в процессе постановки экспериментов гипотез была тонна.


Примеры


Мой голос на малом числе плохого аудио


Вводные:


  • Мало аудио (около 12 минут после чисток);
  • Плохое качество (пьезо-микрофон в гарнитуре);
  • В оригинале это был недельный звонок в Телеграме, я говорил быстро и без дикции;


Теплый старт на нормальном количестве аудио


Вводные:


  • Известный язык (русский), без акцента и прочих сложностей;
  • Нормальное количество аудио (от 5 минут до нескольких часов);
  • Хорошее качество и микрофон, но шум на фоне;
  • Не очень хорошая дикция;


В.И. Ленин


Вводные:


  • Мало аудио, аудио записано около 100 (!) лет назад (в 1919—1921 годах);
  • Для аудио столетней давности, качество очень высокое;
  • Шума на фоне не слышно, но есть сильные артефакты записи (пластинки или цилиндра);
  • Очень своеобразная манера разговора, длинные фразы, небольшие проблемы с дикцией;
  • Поскольку дедушка Ленин этими речами поднимал людей на трудовые подвиги, речь очень "неровная" и отчасти эмоциональная;


Голоса бабушки и дедушки


  • Мало аудио (20-30 минут на человека);
  • Средней руки микрофон (3000 рублей), небольшой шум и эхо;
  • Записывали мои бабушка и дедушка. Они уже в возрасте, поэтому это вносит некие коррективы;
  • Синтез немного хромает, но очень четко передает манеру их речи;
  • Они оба не далеко не дикторы, но старались просто четко литературно читать предложения без особых изысков;


Более качественное говорение на другом языке


  • Самая главная недавняя находка наших изысканий — дикторы могут говорить на других языках гораздо качественнее;
  • Тут приведен самый яркий пример этого прогресса на английском языке. Просто послушайте;
  • Примеры даны парами — сначала аудио примерно соответствующее нашей старой публичной мультиспикерной модели, а потом новая улучшенная модель;


Более качественное говорение на другом языке 2


  • Аналогичный пример, но с другими языками;


Существует ли массовая опасность со стороны "ИИ"


Короткий ответ именно для вас — пока вероятно нет.


Длинный ответ — it depends. Наши примеры и опыт (у нас не по 10-30 фразам конечно, но 5-15 минутам, что тоже немного) и примеры из статьи подсказывают, что:


  • Ключевым является именно качество аудио, его все-таки надо еще где-то взять (аудио и видео с хорошим звуком люди обычно не постят направо-налево);
  • У реальных продакшен систем там относительно низкие шансы успеха атак даже на качественных студийных аудио;
  • При атаке на другом языке / акценте / диалекты шансы успеха еще падают;
  • В случае простых атак… можно просто записать голос и проиграть, зачем париться (и почему мы не слышали про массовое применение таких атак);

Ну то есть получается, что сделать качественную копию вашего голоса неотличимую от вашего голоса по телефону можно. И мы это неоднократно демонстрировали даже на относительно малом числе аудио.


Но чтобы постоянно атаковать миллионы людей подходят наверное только zero-shot системы. А они ограничиваются тем, что нужно во-первых разбираться в них (а публичные системы всегда хуже чем коммерческие), а во-вторых все-таки надо собрать качественные примеры аудио для всех атакуемых.


Наверное в случае какой-то массовой дыры в горячо любимой всеми социальной сети такой сценарий отдаленно возможен, но почему тогда идти по сложному пути, когда просто фишинговые письма + вирусы + СМС кажутся гораздо более эффективным инструментом "сужения" воронки. А голосовые интерфейсы все-таки еще не нашли массового применения. Наверное потому, что разумные люди понимают, что голос — это не уникальный ключ, и существуют люди, которые умеют имитировать чужие голоса.


И на всякий случай очевидная мысль — если ваш банк использует голос в качестве единственного (а не составного ключа, допустим из телефона, 2FA и SMS) ключа — то немедленно бегите. А если проверка еще text-independent (то есть сказать можно любую фразу) или только по одной фиксированной не меняющейся фразе (без какого-то сценария в духе "прочитайте эти три слова или решите капчу 2 + 3 = ?"), то это обходится банально записью одного телефонного разговора с вами по нужному сценарию. По этой причине — не только не берите трубку, когда вам звонят из "службы поддержки Сбербанка", но если взяли — не говорите ни в коем случае и не ведите пространные беседы.


Новости нашего синтеза


Публичные голоса народов СНГ


Вместе с комьюнити мы сделали и опубликовали полностью уникальные модели языков народов СНГ:


  • Башкирский (aigul_v2);
  • Калмыцкий (erdni_v2);
  • Татарский (dilyara_v2);
  • Узбекский (dilnavoz_v2);

Мы также попробовали сделать украинский голос на публичных данных (из аудиокниг), но там получилось весьма посредственное качество (все остальные голоса люди записали с нуля).


Некоторые модели звучат почти идеально, некоторые похуже. Обычно это связано со стабильностью дикции. Но поскольку дикторы участвовали в этом на общественных началах, сложно было приставлять к ним "войс-коучей" и вообще стоять над душой.


На каждый голос мы использовали от 1 до 6 часов записей. Это модели без автоматической простановки ударения, они чуть быстрее как и все V2 модели.


К сожалению пока публичного украинского языка не будет, но просто в качестве дразнилки, вот пример того как это может звучать (автор голоса не разрешил нам публиковать модель) на голосе профессионального диктора:



Воспользоваться моделями можно по ссылке или напрямую в Colab Open In Colab.


Улучшенные и приватные голоса


Когда мы делали публичный релиз нашего синтеза номер два у нас был нелегкий выбор между:


  • Работой с комьюнити, чтобы создать хоть какие-то голоса народов СНГ;
  • Увеличение скорости (которое всё еще не вышло сделать до конца);
  • Качеством существующих голосов;

В силу малого количества свободных ресурсов, мы решили пожертвовать качеством публичных моделей. И в ретроспективе мы не прогадали, так как потом люди стали присылать ссылки на паблики в социальных сетях, где люди пытаются "учить" других людей, как заниматься телефонным мошенничеством с использованием наших голосов. Понятно, что паблики эти условно мертвые (40 подписчиков), но направление мысли в принципе понятно и коррелирует с трендами.


По этой причине скорее всего максимально качественные модели на русском языке (особенно для своих коммерческих голосов) выкладывать мы больше не будем.


Тем не менее максимально возможное качество получилось еще улучшить, послушайте:




Дальнейшая работа


С тех пор данных для синтеза на разных языках у нас стало сильно много (больше, чем железа), но мы решили полностью сконцентрироваться на так сказать technology push-e, на качестве, а не количестве.


Текущий чеклист:


  • Еще большее снижение требований по данным;
  • Добавление малых языков и языков народностей России и СНГ по мере сбора датасетов;
  • Дальнейшая работа над качеством (в следующем большом релизе будет сюрприз!);
  • Высота голоса и скорость;
  • Радикальное ускорение моделей (10+ раз);
  • Эмоции, управление интонацией;
  • Добавление новых голосов по мере появления открытых голосов на других языках;

Последний пункт является по сути низко висящим фруктом (нужно просто вложить много вычислительных ресурсов и грамотно продумать каскад моделей), но мы решили отложить его до решения всех остальных задач и закрытия ряда проектов.

Комментарии (19)


  1. vgray
    21.10.2021 14:20

    Про мошенников, если это не псевдопричина, чтобы обосновать переход на коммерческие рельсы, то беспокоиться не стоит. На рынке полно движков, которые за небольшую плату все, что угодно сгенерят.


    1. snakers4 Автор
      21.10.2021 14:58
      +3

      На рынке полно движков, которые за небольшую плату все, что угодно сгенерят.

      Платных GAFA АПИ для синтеза тонна, цены сейчас пока действительно низкие.
      Но вопрос тут исключительно в целесообразности и конверсионном сценарии, когда мошенники обрабатывают миллионы клиентов.


      Вообще использовать синтез для скама — пока в принципе так себе затея, потому что сочетание спам-рассылок и операторов из "службы поддержки Сбербанка" может быть выгоднее даже бесплатного синтеза.


      чтобы обосновать переход на коммерческие рельсы

      А зачем что-то обосновывать? Очевидно, что мы успешно делаем и коммерческие и некоммерческие проекты.


      Мы сделали комьюнити огромный подарок — быстрый, качественно работающий синтез на ~10 языках. Причем какие-то языки в принципе никогда не будет покрыты GAFA продуктами и мотивация некоторых членов комьюнити была прозрачной — получить более качественный синтез, чем на их языке допустим есть в espeak, вложив свою работу pro bono. По сути практически то же самое, что делают GAFA корпорации, но публично и бесплатно без strings attached.


      Статья была высоко оценена Хабром (+200). Но вот судя по числу донатов (7 человек) — команда любого такого проекта (даже если жить на 100 долларов в месяц и видеокарты и мотивацию брать с деревьев) на такую щедрость существовать не может.


      Если вам нравятся наши публичные проекты — open_stt, silero-vad и silero-models — вы всегда можете поддержать нас напрямую или проектом. А вот лукавить и передергивать про "обоснование" пожалуйста не надо — из статьи очевидно следует, что у нас далеко идущие планы по развитию и публичного синтеза.


      1. vgray
        21.10.2021 15:13
        +2

        Про коммерцию я немного неверно написал, я имел ввиду ситуацию когда разработчику немного неудобно сказать "я делаю классный продукт и хочу за него деньги", то могут быть вариаты вида "я беру деньги, только чтобы покрыть расходы на сервера", те разработчик начинает оправдываться за желание заработать.

        Мне почему-то показалось, что ваши слова о том, что вы прекращаете выкладывать модели, вызваны именно ситуацией описанной выше.

        Еще раз приношу извинения, что написал неверно и показалось, что я вас в чем-то обвиняю.


        1. snakers4 Автор
          21.10.2021 19:54

          del


  1. PereslavlFoto
    21.10.2021 19:18
    +2

    Когда же мы сможем услышать подлинные слова Ленина о том, что надо верить всем цитатам из интернетов?

    Когда?!


    1. snakers4 Автор
      21.10.2021 19:54
      +5


      1. PereslavlFoto
        21.10.2021 20:17

        Что-то он запинается в начале, после слова «товарищи». Нельзя ли найти другую патефонную пластинку?


        1. snakers4 Автор
          22.10.2021 09:43

          =)


          Вообще интересен такой философский вопрос. Настоящих записей лидера мирового пролетариата было сделано буквально пара десятков. Тот факт, что мы можем сделать его голосом синтез и какие-то фразы звучат почти нормально — мне кажется чудом (но Хабр почему-то пропустил статью, я перестал понимать логику коллективного бессознательного Хабра).


          Но если просто взять все почищенные и обработанные аудио и попросить актера повторить голос, то синтез вероятно получится сильно лучше и, вероятно, люди в слепом тесте выберут "поддельный".


          Соответственно возникает вопрос — неужели, если мы это сделаем, мы тем самым косвенно примкнем к тем, что считает, что Земля — плоская?


  1. stalinets
    21.10.2021 21:18

    Моим родителям года полтора назад уже звонили моим голосом (они уверяли, что звучит один в один) и просили денег, типа я на машине сбил человека. Они не повелись, т.к. 1) раньше уже был подобный прецедент, исполненный потопорнее, 2) мошенник где-то взял мой голос, но прокололся на том, что я за рулём авто почти не езжу.

    А вообще я сам поигрался бы с таким движком. Программа-минимум - для розыгрыша друзей) Или сделать читалку книг с интересным мне голосом.

    Чтоб сначала обучить программу, скармливая ей разные записанные фразы в wave-виде и рядом текстом набирая что именно было сказано (программа должна быть достаточно умна, чтоб правильно сопоставить конкретные миллисекунды записи с конкретными написанными мною текстовыми слогами). А потом чтобы могла говорить этим голосом любой введённый текст, разве что с доп.инструментарием для расставления ударений в словах и логических ударений и тона во фразе. Инструмент-то интересный.


    1. snakers4 Автор
      21.10.2021 22:12

      Моим родителям года полтора назад уже звонили моим голосом (они уверяли, что звучит один в один)

      Интересно. Это был динамический синтез, или просто фиксированное аудио из надерганных слов?
      Люди старшего поколения, особенно в возрасте, иногда бывает и не на такое ведутся.


      Чтоб сначала обучить программу, скармливая ей разные записанные фразы в wave-виде и рядом текстом набирая что именно было сказано (программа должна быть достаточно умна, чтоб правильно сопоставить конкретные миллисекунды записи с конкретными написанными мною текстовыми слогами). А потом чтобы могла говорить этим голосом любой введённый текст, разве что с доп.инструментарием для расставления ударений в словах и логических ударений и тона во фразе. Инструмент-то интересный.

      По отдельности все эти задачи у нас естественно так или иначе решены, но планов пакетирования их в отдельное desktop приложение у нас нет. Да и с этической точки зрения мне это кажется уже в серой зоне будет.


      1. stalinets
        22.10.2021 07:28

        Как именно было сделано - не могу сказать, для этого надо бы иметь запись того разговора, а без неё родители ничего толком не объяснять, просто "очень похоже" и всё.

        Ну инструмент всё равно злоумышленники используют так или иначе.


        1. snakers4 Автор
          22.10.2021 09:00

          Не уверен конечно, что там может быть прямо синтез, все-таки мороки с ним очень много.
          Может максимум слили базу с возрастом и полом.


          Ну или еще банальнее — записано 10 разных голосов по какому-то общему сценарию, и просто рандомом всем звонят, побирая по полу и возрасту. Если 1 клюнет — уже профит.


  1. AigizK
    21.10.2021 21:50

    А для русского уже ударения можно не размечать?


    1. snakers4 Автор
      21.10.2021 21:52
      +2

      Модели V2 содержат автопростановку ударений и ё.
      Но она работает примерно для 95-97% случаев и не покрывает омографы.
      Мы данные собрали, но не продвинулись дальше пока, к сожалению.


  1. DmitrySpb79
    21.10.2021 22:33
    +1

    Спасибо, интересно.

    А какие open source AI проекты стоит попробовать, чтобы поиграться с синтезом и распознаванием речи? Заработает ли это на Neural Compute Stick? (можно попробовать например робота говорящего сделать :)


    1. snakers4 Автор
      22.10.2021 09:02

      Насчет проектов могу посоветовать наш — https://github.com/snakers4/silero-models


      Насчет Neural Compute Stick — весьма маловероятно как мне кажется. Когда в прошлый раз узнавал что-то про эти дивайсы, там все еще все было плохо. Грубо говоря работали сетки от производителя дивайсов. Сейчас может конечно что-то поменялось.


  1. Ivan_Vasilevich54
    11.11.2021 08:47

    Здравствуйте. Периодически юзаю ваш скрипт на колабе (baya_v2), голос нравится, действительно неплох. Но:

    Во-первых, не всегда правильно ставит ударения. Даже в вашем примере он говорит: ядра кедрОв. Идея: можно прикрутить словарь ударений (такие в интернете есть). Конечно, не словарь Даля или Ожегова, а что-нибудь простое, часто употребляемое.

    Во-вторых, иногда глючит, особенно если в предложении имеется аббревиатура. То есть, например, <обычные слова> <абракадабра> <обычные слова> он сперва читает нормально, потом на абракадабре зависает (3 секунды тишина), и дальше часть слов глотает и оставляет только конец. Цифры не читает. Идея: прикрутить что-то типа конвертёра чисел в фразу, а для аббревиатур сделать транслитерацию.

    В-третьих, качество довольно низкое, на уровне голосового сообщения. Думаю, это реализовать сложно, плюс обрабатываться будет долго, и вообще, есть "улучшалки" записей, делающие "из wav 16000 flac высокого качества"

    В-четвертых, обзавестись интерфейсом. Или не надо?

    А так, спасибо за такой полезный проект, потому что a) такого красивого и милого ("няшного") голоса нет НИГДЕ. Вообще нигде. б) Это один из немногих ОТКРЫТЫХ проектов, который вырос из "механической тети" (все наверное слышали экранный диктор в винде, оставайтесь на линии, ваш звонок важен для нас и т.п.) в реалистичный голос.


    1. snakers4 Автор
      11.11.2021 08:55

      Во-первых, не всегда правильно ставит ударения

      Мы и не говорили, что она всегда их правильно ставит.
      Мы работаем в этом направлении.
      Если нужно идеально четко все поставить — там есть флаг для ручной подачи ударений и буквы ё.


      Идея: прикрутить что-то типа конвертёра чисел в фразу, а для аббревиатур сделать транслитерацию.

      Мы считаем, что разного рода middleware не должны быть частью открытого релиза.
      В текущем релизе аббревиатуры и числа надо обрабатывать транскрипцией.
      Если нужен продукт под конкретную ситуацию — мы предлагаем такие услуги на коммерческой основе.


      В-третьих, качество довольно низкое, на уровне голосового сообщения.

      22 или 32 kHz действительно звучит немного получше, но я бы не характеризовал 16 kHz как "низкое" качество. Скорее в V2 версии моделей, мы специально выложили модели более низкого качества, чем в V1. Речь вообще имеет мало частот выше 4 — 8 kHz, только обертона. Насчет того, делать ли модели с 32 kHz публичными я пока не решил. С другой стороны, мошенникам по телефону хватает и 8.


      Относительно актуальные примеры приватных моделей можно найти тут:


      https://soundcloud.com/alexander-veysov/sets/silero-private-hq-samples
      https://soundcloud.com/alexander-veysov/sets/silero-private-hq-samples-2


      В-четвертых, обзавестись интерфейсом. Или не надо?

      Какая-то из моделей крутится здесь @silero_tts_bot в телеграме.


      1. nikich340
        18.11.2021 07:00
        +1

        Потрясающий проект! Один из немногих доступных именно с русскоязычными моделями (даже мультиязычными и с хорошим качеством!!). Русский в вашей модели даже звучит лучше и приятнее чем LJSpeech в других английских такатронах2 (или он просто приелся, у них ведь стандарт - использовать LJ для демонстрации всего и вся).
        Сборка с запуском буквальном с пары строчек и от одного pytorch - волшебно, после запусков flowtron от nvidia :D (где ещё нужно подобрать версиии всех модулей, чтобы они друг с другом не конфликтовали).

        Прочитал обе ваших статьи. Совершенно справедливые замечания про черри-пики всех артефактов/косяков от исходника. Заметил, что Вы постоянно ставите целью "ускорить работу в 5-10 раз", что (невероятно), но удаётся!
        Однако когда ради этого приходится жертвовать качеством голоса, теряется изначальная цель всех долгих обучений и обработок датасета.. Поэтому если есть возможность выложить не самые производительные, но более качественные модели, это было бы замечательно!
        А насчёт мошенников.. Они всё равно найдут способ, до чтения этой статьи я как-то даже и не думал, что могут использовать в таком ключе синтез речи. Им ведь логичнее было бы предзаписать фразы живым голосом? Хотя я конечно не знаю, как они там работают :)