Вопрос генерации со своим голосом занимал меня с v3.5. Другая интересная тема — аранжировка. Если не в обычном виде (на входе стиль и аккорды, на выходе “минус”), то способом обновления, “раскраски” черновика (mp3 из GM MIDI, Audio Upload, режим Cover). За пару лет я сделал много тестов, результаты представлял на Хабре, своём сайте, в Телеграм-канале. Последнее обновление Suno — повод снова вернуться к этим вопросам.

Эта статья — детальный разбор “механики”, как я её понимаю после тестов. Возможно, сначала стоит послушать “что на входе” и что на выходе. Примеры у меня на сайте:
Ваш голос ч.1, Ваш голос ч.2, Аранжировка ч.1, Аранжировка ч.2.

Свой голос

Как только версия 5.5 стала доступна, приступил к тестам опции “Your Voice” 1), опираясь на опыт с Suno v3.5 и RVC. Собрал 11 DS (голосовых наборов) на своём материале. Задача — проверить, как реагирует система на разный исходный материал, стили и параметры генерации.

1) Ссылка на процедуру “Your Voice” (PDF на русском) из раздела Help на сайте Suno.

Уже не раз касался понятий тембр и манера с психоакустической точки зрения. Нынче повод вернуться к теме: можно говорить похоже или нет, но чтобы контролировать, надо понимать механику.

Для синтеза вокала Suno (или другому ИИ) нужно обеспечить 3 компонента:

Тембр, или «окраска» звука, зависит от “геометрии” голосового аппарата: трахея, гортань, связки, резонаторы.(Певцы, артисты могут в определённой степени его менять. У родственников голоса часто похожи — физиология).

Интонация — изменения высоты (мелодия) + нюансы: вибрато, опевания, “подъезды” (Pitch curve).

Артикуляция — работа языка, нёба, челюсти, губ, обеспечивающая произнесение/ пропевание слов.

Именно разделение на 3 компонента придаёт гибкость системе: берём модель тембра, добавляем интонирование в нужной манере и соответствующую языку артикуляцию. Хотите на хинди? Пожалуйста!

Узнаваемым голос певца может делать тембр, манера или оба компонента. И в синтетическом вокале эти компоненты определяют “похожесть”. Если непохоже, то надо разбираться, какой компонент представлен в генерации недостаточно или изменён.

Тембры

Существуют разные системы описания голосов, манер и вокальных техник. Когда задача типизации ставится перед инженером, перечень становится конкретнее. Synth-V предлагает Normal, Soft, Power, Bright, Dark, Emotional, Whisper, а Vocaloid 2)Breathiness, Dynamics, Opening. Как видно, системы Synth-V и Vocaloid выходят за рамки тембра в узком понимании — в них присутствует и манера (интонирование). Для описания именно тембра (“подачи”) в пении я бы предложил систему, понятную и не специалисту:

Power (Strong) — “с опорой”. Зычный, как говорят, “поставленный, командирский” голос. Характерен для оперных певцов. Причина эффекта — выраженная “певческая форманта” (~ 2,5 кГц), это также основная форманта дефолтной у человека гласной “А”.

Normal (Neutral) — обычный, без напряжения голос.

Breathy (Breathing) — “на придыхе”, почти шёпотом, т.е. когда связки работают и высота тона есть (в чистом шёпоте “ноты нет”, так как связки отключены).

2) с момента доступности библиотек Leon, Lola, Miriam, Sweet Ann, BigAl (~ 2004), занимался повышением выразительности, встречался с Хидеки Кенмоти (рук. отд. Vocaloid в Yamaha). Основная проблема была в изменении “подачи” — только Normal. Никакой частотной эквализацией это не решается — требуется изменение набора гармоник (другие сэмплы).

Голосовые наборы (DS / датасеты).

Сначала я собрал 7 DS (вокальных и речевых), пытаясь задать как тембр, так и манеру. Сделать настоящий “с придыхом” (Breathy) с первой попытки не получилось. Эти DS по 1—1,5 мин (допустимая длительность от 6 сек до 4 мин.), вокальные без тьюнинга.

  1. Rower (вокал).

  2. Normal (вокал).

  3. Theater — “театральный” (речь).

  4. Crying — “плачь, стон”.

  5. Mixed — сборка из 1, 2, 3, 4.

  6. Speech Expressive — прочитал стих с выражением (речь).

  7. Speech Inexpressive — стих монотонно (речь).

    На этих DS сгенерил для 9 стилей треки, меняя параметры (Weirdness, Style/ Audio influence) от 0,0,100 до 0,90,50. DS, примеры (всего 63) и комментарии на сайте в удобном для анализа виде. Результаты удивили и порадовали, но о “своём” на 100% голосе говорить рано.

    Чтобы добиться большей схожести со своим голосом и, принимая во внимание работу первых семи, собрал 4 новых DS (по 4 мин.):

  8. Breathy — получилось собрать DS “с придыхом”, но с не очень широким диапазоном. Причём низкие частоты пришлось сильно прибрать.

  9. RVC DS — из своего набора для RVC (> 20 мин.), оставив фрагменты (Ru/En вокал и речь), максимально разные по характеру.

  10. One Song — на основе вокала одной песни, где в какой-то мере есть Power, Normal и Breathy. Трек был с тьюнингом, собирая DS, я в нём “прибрал” своё неправильное вибрато.

  11. Song Set — сборка из фрагментов 8 песен с разной подачей, большинство с тьюнингом. Речитатив, “театр”, смех и другое, нехарактерное для обычных песен, не включал. Набор из разных фраз, где ритмика, тональность, мелодии отличаются, — повышает универсальность DS и снижает вероятность “повтора” характера песни, что имеет место в случае с One Song.

С каждым из этих DS сделал 5 генераций с теми же Styles, Lyrics и параметрами, что были использованы для первых семи. Также пару примеров (сказка и реклама) с использованием Breathy. Результаты — на сайте.

Своя мелодия и свой голос (аранжировка)

Тестируя опцию “Your Voice”, думал: что нужно для полноценной аранжировки? Своя мелодия. Оказалось, эта схема работает (Suno где-то отмечали, что “Your Voice” — это бывшая “Persona”), т.е. режим Cover. 8 апреля проверил на “народной” песне, которую пел ещё в школьной группе.

Набил простой MIDI-черновик, сконвертировал в mp3, загрузил. Далее — Cover, свой голос, Lyrics, Style, параметры — вуаля! Проверил на 8 голосовых DS из 11. Примеры и комментарии на сайте.

Через пару дней решил “спеть” что-нибудь из своих изданных песен. Взял “Make Me Feel” (Beverly Bremers, Rick Paul (США) / Vocaloid: Miriam, BigAl.) и “Red Hair Girl” (Дмитрий Мухачев, CD, Canada / Vocaloid: Leon). Использовал DS: Breathy, One Song, Power, RVC DS, Song Set и Theater с разными параметрами, но в основном с большим значением Audio Influence. Очень интересно — примеры и комментарии на сайте.

Технические моменты с черновиком

Надо задать мелодию, ритмику, гармонию — всё в максимально простом и “сухом” (Dry, т.е. без Delay, Reverb) виде. Чем проще черновик, тем больше свободы в выборе стилей. Когда аккорды и бас прописаны четвертями, в генерации можно получить и как 1/8, так и 1/8t. Если Hi-Hat прописан 1/16 — вариаций становится меньше.

Отдельный вопрос — чем записана мелодия. Иногда “работало” и фортепиано. Часто для явного различия с аккордами прописывал GM Clarinet, Lead 6 (voice). Возможно, с VSTi с натуральной гласной “А” и быстрой атакой мелодия “читалась” бы лучше. В недавних примерах тема в черновике “Make Me Feel” воспринималась хорошо, а мелодия в “Red Hair Girl” — плохо.

Мелодию можно напеть и, если большие ошибки, оттьюнить. Можно забить в Synth-V, Vocaloid или в чём-то подобном. При этом интонация (вибрато, мелизмы) в мелодии в какой-то степени будет присутствовать и в генерации. Мелодия может и не соответствовать полностью тексту (число нот = числу слогов) — Suno часто с этим справляется, но в этом случае гарантий верного исполнения меньше.

Проблемы могут возникать и с гармонией, особенно, если она не совпадает с характерной для выбранного стиля. Иногда у меня получался и “хроматический, walking” бас: Am, Ab5+, Am7/G, Gb5-, Dm, Db5+, F/C, Bm5-7. А порой система 3) “округляла” мажор в минор и наоборот, игнорируя очевидную логику и гармонические шаблоны.

3) принимая во внимание принцип Stable Diffusion, подобные эффекты можно объяснить так: вот есть набросок, эскиз с силуэтом. Просим двух художников дорисовать, раскрасить — у одного на выходе четкий образ юноши, у другого — девушки.

Так что гармонию тоже желательно прописывать проще: Am7/G, Csus2, Csus4 и им подобные — повышение риска неверного прочтения.

Если в качестве черновика использовать готовый трек (Cover), то свободы в выборе стиля меньше, а генерация по звуку хуже, особенно если аранжировка насыщенная, а фонограмма пережата.

Выводы

В принципе, хотя и пришлось повозиться с голосовыми DS и настройкой генераций (за 10 дней в Pro истратил 2000 кредитов из 2500), я доволен работой опции “Your Voice” на данном этапе.

Все голосовые DS, где у меня заметная интонация (Crying, Mixed, RVC DS, Speech Expressive, Speech Inexpressive, Theater) или тембр (Power, Breathy), выдают генерации, где “певец” узнаваем. Себя сложнее оценивать, но знакомые и близкие однозначно говорят: “Это ты”. Из речевых DS Suno генерит классный речитатив (выйти из темпа, выдать эмоцию, попасть в долю, не нарушая лад и т.п.) — далеко не каждый профессиональный певец владеет подобной техникой. Правда, материал этих DS не так типичен для обычной песни, как в One Song и Song Set. А вот с последними “похожесть” получается меньше.

Судя по всему, одному “певцу” стоит иметь несколько голосовых DS — вряд ли получится обойтись одним универсальным набором для разнохарактерных песен.

У меня нет планов создавать виртуального артиста, но если бы стояла задача генерить что-то в комедийном, театральном стиле, то понятно, как делать голос/ манеру узнаваемой.

Похожесть и не

Мне бы хотелось, чтобы результат больше походил по тембру и меньше по манере, как это в v3.5 4) (хотя звуковое качество v3.5 оставляло желать лучшего). Идеальной я бы считал генерацию, где полностью сохранён тембр, а манера была чуть подправлена, как если бы я уже позанимался вокалом с педагогом пару лет (сняли зажатия связок, поставили дыхание, правильное извлечение звука, вибрато и т.п.).

4) в v3.5 была другая голосовая модель (кажется Bark). В Suno v5.5, по косвенным признакам, используют что-то близкое к нейронным TTS-моделям, как у ElevenLabs.

Три важных момента в сохранении тембра, понятных на данном этапе:

  1. Соблюдение высотного диапазона (регистра) в черновике. Когда Suno генерит песню по Style и Lyrics с вашим голосом (без черновика/ Cover), система сама выбирает тональность, соответствующую диапазону голосового DS. Причем, он может быть расширен в некоторых пределах без утраты тембра. Но и в этом случае, если песня и стиль требуют развития, а в голосовом DS нет нужного материала, голос морфируется в дефолтный — замена может происходить даже в пределах одного слова.

  2. Желательно, чтобы Style/ промпт соответствовал голосовому набору. В противном случае получится что-то странное (рэп с оперным вокалом или рок с Breathy), или система будет постоянно переключаться на дефолтный. К примеру, если задать промптом R&B, Suno наполнит вокал характерными для R&B и Soul опеваниями и риффами. Это нормально для Usher и Coco Jones, но у нас такая вокальная техника не очень развита — Тимати, Anikv так не поют, хотя и пишут в стиле R&B.

    Я пока не знаю, как в промпте и в Lyrics ограничивать вариативность Suno. Результат, конечно, красивый, но: а) дальше от исходной мелодии; б) меньше похоже на “певца”. Иногда приходилось генерить песню дважды, меняя первый и второй куплеты местами, чтобы потом использовать те, где меньше вариаций.

  3. Параметрам лучше выставлять значения, делающие голосовой DS (Audio Influence) доминирующим.

В общем, всё влияет на результат: хотите узнать, что Suno “думает” о вашем тексте — сгенерите без промпта. Как воспринимает голос — сгенерите с пустым Style и нейтральным текстом — это интересно.

Влияние команд в Lyrics

“Голосовых” команд у Suno множество. По идее, они должны влиять если не на отдельное слово, то на фразу, стих. Для тестирования команд я сделал генерации на разных текстах для RVC DS и Song Set — эти DS содержат разные “подачи”. [Spoken Word] и [Whispering] работают, а особого, управляемого влияния других команд я не заметил. Такое ощущение, что у Suno есть “свой план развития” композиции: что-то срабатывает, а что-то — нет. Похоже на ситуацию с молодым дирижёром и опытным оркестром: он им что-то указывает, а музыканты играют по-своему. Результаты — на сайте.

Технические косяки v5.5 на начало апреля 2026 года

  1. Часто примерно с 3-й минуты в генерации “забывается” голосовой DS, и голос плавно переходит в дефолтный.

  2. Генерация двойной длины: система повторяет Lyrics или делает бесконечную коду. Как будто музыканты репетируют. Причём всё без разрыва — до максимальных 8 минут.

  3. Есть мягкие разрывы волны — скорее всего, это ошибки в стыковке спектральных фреймов.

  4. Нередко наблюдается провал аккомпанемента с началом вокальной партии — похоже на Side-chain, когда один трек приглушается при появлении сигнала в другом.

В моих планах

Проверить опцию “Your Voice” с кем-то не поющим, у кого необычный, хорошо узнаваемый тембр. Такие знакомые есть; вопрос во времени, организации процесса дистанционно и (!) верификации у Suno. Тут интересно, насколько настойчиво система будет приводить такой тембр в “норму” (к дефолтному).

Поработать ещё с голосовыми DS, промптами, стилями и обновить свои новые и старые песни так, чтобы мне нравился результат.


Все материалы о моих экспериментах — на сайте, новости — в канале MAX. К каналу в Telegram вернусь, если он заработает.

Комментарии (7)


  1. Flux82
    12.04.2026 19:44

    Все материалы о моих экспериментах — на сайте, новости — в канале MAX. К каналу в Telegram вернусь, если он заработает.

    При всём уважении к Вашим обзорам Suno, честно говоря, только эту ремарку считаю сильнейшим очернением всего, что Вы делаете.

    На suno.ai Вы как заходите? Без средств обхода он не открывается. Вероятно, Вы их имеете, значит проблем с постингом в ТГ не будет при их использовании. СкаМа у большой части здешних пользователей нет и не будет. Я читал Ваш канал в ТГ, больше не буду, Вы его не обновляете.

    В последнем посте в канале Вы пишете, что Телеграм не работает. Научитесь добавлять прокси и обновите до последних версий, пока почти у всех работает. В конце концов, воможно сделать кросс-постинг tg-ботом с зарубежного VDS.


    1. BioHazzardt
      12.04.2026 19:44


    1. AlexHanguery Автор
      12.04.2026 19:44

      Спасибо за информацию, мои извинения за то, что вас что-то расстроило.

      Мне всё равно, сколько у меня подписчиков. С несколькими я сотрудничаю, и этого достаточно.

      Обратная связь мне интересна, если помогает разбираться с работой музыкального ИИ.

      Относительно доступа: мне кажется, он отличается в зависимости от региона и от провайдера. Suno в Сириусе/Адлере работал всегда без VPN, но какие-то сервисы в последнее время стали недоступны. Я стараюсь не использовать VPN.

      Сначала начал угасать WhatsApp… Потом я увидел, что с Telegram всё сложнее работать, особенно с ребятами за рубежом. Попробовал 2–3 редких мессенджера (люди разное советовали) — бросил, вернулись к Gmail. В окружении — явная миграция в MAX. Вести в нём канал неудобно, однако. Может, ещё допилят.

      Если что-то требует возни, суеты, борьбы, то есть не доставляет радости, — зачем оно?

      Это же не работа, это для души, ради любопытства.

      Мне 68+, и хочется время расходовать по возможности позитивно.

      С праздниками!


    1. Margo1981
      12.04.2026 19:44

      @flux82 Суно работает прекрасно в РФ без средств обхода. Если бы вы были в теме, то не писали бы это ..


  1. Perekhod_I
    12.04.2026 19:44

    Пробовал эту фичу, как-то не понравилось, голос не мой и совсем не похож.
    Вставлял как и дорожки вокала со студий, так и просто использовал микрофон, напевал в него и т.д, в итоге все равно голос не похож.

    Ещё потыкаюсь, может как-то не так делал, но пока эта функция разочаровала. Хотелось бы использовать её для обучения и развития собственного голоса.
    Вообще эта техника может быть успешной, так как обучаться на своем голосе легче, чем на других.


    1. AlexHanguery Автор
      12.04.2026 19:44

      Спасибо, интересно, что получается у других! Именно вопросу похожести и было потрачено время, именно из-за этого и я делал разные манеры и подачи в голосовых наборах. Как отмечал, мне тоже не очень понравилось обычное, нормальное пение. Но, там, где я прикалывался - очень даже похоже. Т.ч. тут один вариант - больше тестировать. Хотя, и само Suno, наверняка, эту проблему понимает.

      Обращался в support, но там на ответах робот. Компания выросла, когда начинали - отвечал один из основателей. Правда, если слать ссылки на треки и скриншоты - ответы более осмысленные.


    1. AlexHanguery Автор
      12.04.2026 19:44

      Идея: напойте что-нибудь бессмысленное с эмоциями и сгенерируйте БЕЗ стиля и с НЕЙТРАЛЬНЫМ текстом (чтобы Suno не выбрал Hard-Rock или R’n’B) - должно быть больше похоже. Можете мой нейтральный текст попробовать:

      [verse 1] This is just a song of none, Words are here for only fun. We just need to do a test, Better all without a rest. Эта песня ни о чём, И слова здесь ни при чём. Надо просто сделать тест, Лучше всё в один присест. [chorus] This is Suno five and five, How to feel the process live. Это сУно пять и пять, Хочется процесс понять. C’est le cinq et cinq Suno, Le processus est nouveau. Este Suno cinco cinco, Quiero ver el laberinto. [verse 2] Esta voz no dice nada, Sin palabra, sin mirada. Solo hay que hacer el test, Todo junto, sin estrés. C’est un chant de rien du tout, Les paroles sont floues partout. Il faut juste faire un test, Sans attendre tout le reste.