Или как я делал youtube спектакли, с участием искусственного интеллекта.

Как-то раз, я вспомнил свою неоконченную диссертацию и вторую специальность и занялся просвещением. Создал канал на youtube, с, не побоюсь скромности, интересным контентом

Но вот незадача и дикция у меня, как у подвыпившего бабуина и вообще длинные речи произношу с трудом. Что делать?

И тут, размахивая флагом импортозамещения, вбежал представитель Ростелекома. И рассказал про ChatGPT, рассказывал интересно, к чему было завершение на тему мы все равно победим проклятущих буржуинов, я не понял, но было интересно. И тут меня посетила гениальная идея: «пусть работает робот, а не человек». А именно – я нашел сервис озвучивания речи, с набором импортозамещенных голосов, некий zvukogram, и отдал роботу рассказать, на радость благодарному человечеству, мою Илиаду. Что творил разгулявшийся робот вы не представляете. Детей 12-14 лет, он превратил в детей 1214 лет (вероятно, это дети рептилоидов, они долго растут). Ударения он ставит так, что не все слова можно понять. Короче – мрак и ужас. А ещё – имитирует эмоции он хуже молодого Шварца.

Такое нельзя давать слушать публике. Но я все-таки справился с задачей. Насколько успешно, вот вам первый, комковатый блин. Судите сами:

Итак, как я очеловечил роботов и превратил Терминатора в человекоподобный театр. Несколько советов и тонкостей. Примеры привожу на примерах из одного сервиса, но я проверит штук семь, и нашел различие в основном в количестве голосов на разных языках (ну и в ценах). И еще не все приемы, озвученные в статье есть в приведенном видео, я уже готовлю следующие и примеры из них, из более продвинутых.

Очеловечивание Железного Дровосека

Самое главное, это сценарий. Поскольку роботы говорят правильно, но не эмоциональность, то жизненность им предаст сценарий. Который эмитирует человечность.

То есть пишите не весь текст от автора, а диалоги и раздайте роли различным роботам. Так, например, я выделил три роли:

Самое главное, это сценарий. Поскольку роботы говорят правильно, но не эмоциональность, то жизненность им предаст сценарий. Который эмитирует человечность.

То есть пишите не весь текст от автора, а диалоги и раздайте роли различным роботам. Так, например, я выделил три роли:

  1. Автор, тот, кто читает основной нарратив. Тут важно правильно выбрать робота, чья интонация звучит тематически и выберете тон и скорость. Вы не совещании, поэтому основной рассказчик должен говорить чуть медленнее стандарта. Вообще, роботы говорят в темпе не русской, а американской речи. Поэтому для рассказа надо выставить 0,9 или даже 0,8;

  2. Нужен вопрошатель. То есть тот, кто будет вести диалог с автором. Его регулярные реплики и ответы на них, создадут видимость эмоций. Например: «<dialog voice ='Алена' emotion='good' speed='0.8'> То есть негры пионеры в +агро инновациях того времени? </dialog> Скорее они заимствовали не хуже японцев, и куда лучше европейцев»;

  3. Все цитаты надо отдать отдельному роботы. Опять-таки, привожу пример: «<dialog voice ='Борислав' emotion='4' speed='1.2'> Без Анголы нет Бразилии </dialog>».

Ямы на дорогах

Спектакль — это весело, но вот вам набор оценок, что бы вы не повторяли уже совершенных ошибок и опыт ваш был сынок ошибок трудных, но чужих.

  1. Никогда не отдавите безумному порождения цифровой революции свой нарратив целиком, озвучивайте по кускам, и слушай что он буровит. Закидоны у него странные. Так междометие то, он упорно прощает в аббревиатуру техосмотра и «негр то при деньгах», превращается в «негр ТО при деньгах». Я стал выкидывать то из своих текстов, не сумев победить;

  2. Прослушивайте редкие слова дважды и не надейтесь, что искусственный интеллект, чему ни будь научится. Нет, эта тупая тварь, будет всегда выбирать произношение кривое, а если есть распространенный омоним, то, как не бейся, вы не победите тучу примеров из интернетов и произношение всегда будет неверным. Искусственный интеллект ориентирован на массовость и посредственность;

  3. Не используйте имитацию загробного / ангельского / короче экзотичных голосов. Сделать можно используя сочетания скорости и высоты голоса. Работает отвратительно и неестественно;

  4. Не используйте SSML, на русском он мало функционален. Можно с английскими текстами. Ну или подождите годик;

  5. Не используйте выделение слов интонацией, не работает. Попробовал раз двадцать-тридцать, причем у разных сервисов;

  6. Перенос строки и абзацы не понимает, потому паузу надо выставлять руками. Мне хватило типового <break time=»1000ms»/>, и я уже не думаю и не экспериментирую, ставлю везде между смысловыми массивами;

  7. Любовь к букве Ё. Это регулярная боль. Слово опознаЕте , упорно превращает в опознаЁте, спасает только проставление ударения опозн+аете;

  8. Ударения в слова. Еще одна регулярная боль. Причем не всегда этому есть внятная причина, вот упорно превращает к+ару в кар+у, и даже О не подставлять. Хотя бывают и случаи, обусловленные просто тем, что машина не умеет ставить слово в контекст, а от контекста зависит ударение (например, стран+ы или стр+аны);

  9. С жаргонизмами вселенский разум не освоился. Например, выражение ч+елом, превращает в чел+ом. Типы был (но не бил) Вася таким чел+ом;

  10. Редкие слова. Вот с Богом у меня были мучения, трижды переставлял ударение, пока не сделал из привидения Провид+ение (совет поставить свечку считаю нетехнологичным);

  11. Не со всеми знаками препинания дружит. Если . и , доступно Железячкину, то : и – просто не замечает, спасает краткая пауза вот такое сочетание -. Можно смело проставлять массовой заменой;

  12. Ну и непобежденные знак, это - ?, не то что бы его игнорирует бог из машины. Помогают вопросительные слова (всякие там Как и Что) не то что бы в озвучке появляется вопросительное выражение, но мозг, того, кто слушает, сам имитирует его, по привычке;

  13. Иногда переиначивает слова так , у меня колодцы, превратил в колодца. А хаос в хаос.

Summary

Выводы простые. Использование автоозвучивания русскоязычного контента, если хотите качества, то трудоемко. И если сами обладаете подвешенным языком, то эффективнее использовать человека.

Могло бы помочь использование автоматизации — вот всего что я наговорил. Но лично я не вижу алгоритмов, а использование обучения искусственного интеллекта принесет пользу не всем текстам. Чем более узкая и специализированная тематика, тем бесполезнее искусственный интеллект.

Комментарии (7)


  1. Z3D
    11.10.2023 15:05

    Про крах буржуинов - это правильно)


  1. vassabi
    11.10.2023 15:05
    +1

    скажите, а вы silero пробовали ?


    1. Firsto
      11.10.2023 15:05

      Поигрался в Colab, весьма неплохо озвучивает.


  1. delphinpro
    11.10.2023 15:05
    +3

    спасает краткая пауза вот такое сочетание

    Ну и непобежденные знак, это - ?, не то что бы его игнорирует бог из машины

    Никогда не отдавите безумному порождения цифровой революции

    ну и так далее... я на некоторых предложениях прямо зависал, пытаясь понять изначальный смысл.

    Прослушивайте редкие слова дважды

    Вам тоже совет – перечитывайте свою статью трижды перед публикацией.


  1. Mitch
    11.10.2023 15:05
    +2

    Написание статьи тоже отдал роботам. А вычитку читателям.


  1. myswordishatred
    11.10.2023 15:05
    +1

    жизненность им предаст сценарий. Который эмитирует человечность

    Dark Souls какой-то! То эмитируют человечность, то рынок человечности обвалят.

    Вообще статья могла быть не такой уж и плохой, если бы автор дал себе труд её прочитать перед публикацией и исправить очевидные опечатки. А если бы дал почитать ещё кому-нибудь другому, кто поправил бы несообразности выше - вообще бы цены не было.

    Совсем хорошо было бы, конечно, если бы технических подробностей настроек было больше и был бы проведён какой-то анализ разных вариантов озвучки.

    В общем если поправить, то будет если не хорошо, то нормально. А пока это какая-то реклама ютуб-канала с опечатками.


  1. Ok_Lenar
    11.10.2023 15:05

    Язык русский что-ли не родной?