Как обычно, не претендую на полноту освещения вопроса, но надеюсь, что информация будет полезной.

Кажется, критическую точку внедрения музыкального ИИ в жизнь мы уже прошли: за пару дней, похоже, создается музыки больше, чем 10 лет назад за год. Ведущие музыкальные ИИ‑сервисы уверенно обрастают функционалом DAW, а DAW включают все больше инструментов ИИ. Музыканты уже не всегда отличают генерации от живого (впрочем, и до ИИ в музыке с каждым днем живого становилось все меньше). Профессионалы, хоть и с упреками, приняли и применяют разделение (Split) и работу со стемами. Аранжировщики не гнушаются заимствовать идеи у ИИ. Вслед за детекторами ИИ появились сервисы «гуманизации» и «отмывки прав». Даже наши знаменитости, как и западные артисты, если на словах в большинстве еще и остаются приверженцами «настоящего», то в жизни ищут способы использования ИИ — бизнес!

В области финансов и права три группы крупных игроков: обладатели прав, стриминговые сервисы (и др. продажники) и представители генеративного ИИ. Все ИИ‑сервисы используют известную музыку для обучения: одни по лицензии, другие — без спроса. Да, это главная претензия (зацепка), но причина, как всегда, в том, что кто‑то теряет доходы.

Какая разница, на чем учился ИИ? Тут лукавство изначально: мелодию ведь ИИ не повторяет! Вот как было и есть с людьми: «А» заявляет, что «Б» украл у него мелодию. Суд, знатные эксперты (композитор, музыковед, звукорежиссер), материальные доказательства (партитуры, диски, флешки в конвертах с почтовыми печатями, свидетельства регистрации, проекты DAW с ПК и т. п.), проверяют сходство мелодий у «А» и «Б», смотрят на даты — кто раньше сочинил — отсюда решение.

Ну вот, я в Audio Upload Suno загружаю фрагмент Криса Ри (Chris Rea) «On The Beach» и генерю 30 треков в его стиле (не мелодий!). Если мелодия похожа, идентична — то да, плагиат, но не стиль. В музыке всегда было так. Из объявления: «Ищем басиста, играем в стиле Radiohead». У меня друзья 20 лет сочиняют и играют а‑ля Depeche Mode. Понятно, что «манера, стиль» представляют ценность, но, кажется, этих понятий, объектов нет в авторском праве.

Мы же от автора песни не требуем список произведений, на которых он учился, показать чеки на CD, подписки, а если их нет, то заплатить правообладателям. А если я рос в доме с окнами на танцплощадку, слушал много и впитал, авторов не знаю, теперь сочиняю...

Мне здесь близка позиция Zaptrem'а, основателя Sonauto: »... артисты несомненно имеют право на выгоду от воспроизведения своих записей. Но я не думаю, что кто‑либо должен иметь права на знания, заложенные в этих творениях, поскольку в большинстве случаев они не принадлежат им изначально...... вряд ли они изобрели эту секвенцию аккордов, или инструменты, на которых они играют, или стиль, который они используют, или даже лирические темы, которые они поют. Все основано на том, что было до них... если бы все в цепочке решили, что они имеют право на долю, у нас была бы катастрофа...»

С другой стороны, такая опция, как генерация с голосом и манерой известного артиста, кажется неправомерной без разрешения его или его наследников. К слову, в Sonauto это возможно прямым указанием имени.

Есть наш хороший ресурс, подробно освещающий юридические вопросы, касающиеся музыкального ИИ. Я же хочу поделиться опытом самого честного способа использования Suno, который, по идее, если и ущемляет права, то не третьих лиц, а пользователя. Речь об опции Cover — генерации новой аранжировки на основе уже существующей своей композиции.

В последние пару месяцев, получив доступ к платному тарифу и v4.5, провел множество экспериментов, пытаясь решить несколько задач:

1. Реставрация аудиозаписи живого исполнения — улучшение качества звука при сохранении всех партий, т. е. не меняя «партитуры».

Попробовал на паре треков нашей студенческой группы (1980 г.) — результат неважный. Можно сгенерировать новое, сохраняя в целом стилистику, вокальные, сольные партии, бас, ударные. Но исходные, мелкие, «зашумленные» детали не восстанавливаются, т. е. «партитура» меняется, да и форма. «Реставратор» должен хорошо знать контекст: не понятно, какая гармония в 1-м куплете, где, например, только вокал, — посмотри, что есть во 2-м и т. п.

2. Генерация качественного минуса (Backing‑track) на основе примитивного черновика (DS, Dataset), созданного в секвенсоре и записанного с General MIDI модулем/ VSTi, в котором всего 4 партии: аккорды (фо‑но), бас, минимум ударных + Solo с отличающимся тембром (гитара, LeadSynth).

В принципе, эта схема работает: темп, тональность, гармония, соло в основном сохраняются, особенно если Style не конфликтует с DS. Проблема в том, что система порой «втыкает» Solo в Verse/ Chorus. Частично она решается добавлением коротких, негромких нот Solo на слабые доли. Форму, что есть в DS, Suno соблюдает в ~50%, но можно же еще и резать/ клеить.

3. Освежение, улучшение по звуку песен (или инструментала) с бюджетной аранжировкой — тех, где фонограмма («забивка» в ПК) была сделана на скорую руку, без привлечения живых музыкантов, качественного сведения, мастеринга и т. д. По факту это задача «раскрашивания, дорисовки», когда примитивные тембры заменяются на «дорогие», на звук близкий к настоящему. И, желательно, с добавлением исполнительских приемов (для гитары это вибрато, Sliding/Gliding + Fret Noises).

Эти опыты дали достаточно хорошие результаты, особенно при условии, когда DS — это простая MIDI‑пьеса с небольшим числом инструментов, которые отличаются по регистру, тембру, ритмике (+ минимум Reverb/ Delay). Например: бас, ударные, фортепиано, акустическая гитара. Похоже, в этом случае система легко «читает» исходные данные.

4. Генерация полного трека (музыка + вокал) только из вокала. Здесь интересно было оценить сохранение исходной мелодии и качество ее гармонизации.

Да, это вполне реальный способ получить песню из пропетой мелодии. Если спето по нотам чисто и достаточно ритмично, то Suno в 80% сохраняет исходные темп, тональность, мелодию, ритмику. Причем, пропеть достаточно один раз Verse/ Chorus — система сгенерит и не пропетые куплеты/ припевы, конечно, если все прописано в Lyrics. Гармонизация — отдельная тема, результат зависит, как от мелодии, так и Style, и значений параметров (Style / Audio influence).

Основные моменты

У меня нет полного представления, как работает Suno. Однако недавние эксперименты и прежние опыты позволяют предложить условную схему, объясняющую особенности генерации музыки системой, что, полагаю, делает результаты ее использования более предсказуемыми.

Главное: результат, как обычно с ИИ, всегда вероятностный. Зависит от DS (Dataset, исходник), Style, параметров генерации: Weirdness, Style influence, Audio influence (Случайность, влияние Стиля, влияние DS).

Применяемый промпт / Style (модель) — выбранный системой набор элементов: ритмические паттерны, мелодические фразы, инструменты, тембры, гармонические секвенции, форма. При одном и том же промпте модели (наборы) могут быть разными, отсюда и различия в генерациях. В случае загрузки образца (DS) в Audio Upload и пустом Style — модель (набор) одна и та же. Вариативность результата в первом и во втором случаях я уже разбирал. Также ранее в общем виде рассматривал и «болезни» музыкальных ИИ.

В режиме Cover (при не нулевом значении Style или Audio influence) взаимодействуют два набора. Причем числовые значения параметров не являются определяющими. Так при Style=10 и Audio=90 стиль может доминировать и наоборот. Скорее всего, у системы есть какие‑то критерии «совместимости» наборов: выбирается та комбинация элементов из двух моделей (Style и Audio), с которой можно отработать структуру, заданную в Lyrics. В итоге:

Форма/структура пьесы

Нет гарантии сохранения формы, гармонии из DS. Генерации иногда короче, иногда длиннее, часто не соответствуют тому, что задано в Lyrics.

В v3.5 ошибки в форме были, наверное, в 10-20% при генерации «с нуля» (Style + Lyrics) и в 70% при генерации из DS (Audio Upload). Самая типичная ошибка — повторение какой‑то части и скомканное начало Lyrics. По этой причине обычно в начало, перед Verse1, добавлял «ла‑ла‑ла, ммммм...» и т. п. Недавно я внимательнее посмотрел на подобные косяки, появилась догадка: система, похоже, повторяет то, что считает сгенерированным с ошибкой. т. е. она не останавливается (все делается в один проход), но «оглядывается» назад — на то, что уже «нарисовала». Почти как в живой группе: «Гитарист не начал соло, т.к. запутался в педалях. Руководитель дает всем знак, что еще раз идем на проигрыш». В v4.5 подобных накладок заметно меньше.

Мелодии

Фразы сольных инструментов, мелодии в вокале, рифы гитары, баса, обыгрыши инструментов второго плана — всё это мелодические элементы набора. Тому, что повторяется чаще и/или звучит громче, видимо, придаются бо́льшие веса. Скорее всего, есть и разделение на те мелодии, что относятся к соло/ вокалу, и те, что выполняют роль орнамента/ украшений. Важно, что система бережно «относится» к авторству: мелодические компоненты в целом сохраняют исходный вид. Тут композиторы могут быть спокойны. Впрочем, при генерации саксофон может исполнить партию вокалиста, а голос — линию гитары. При этом система порой вольно комбинирует мелодические элементы (как в LEGO): может наложить бэк‑вокал на инструментальный Bridge, а гитарное соло из проигрыша на Chorus, не нарушая гармонию, конечно.

Гармония

О, это отдельная «песня»! Судя по всему, в Suno не делается анализ гармонии, подобный тому, что предлагают многие сервисы/ приложения (Chordify, Chordai и др.). Анализ аккордовой секвенции традиционно выполняется с использованием автокорреляции, других статистических методов и непосредственно связан с анализом формы музыкальной пьесы. Упрощенная схема:

  • Разбираемся с формой, находим одинаковые/ похожие части, определяем роль непохожих, получаем Intro, Verse1, Chorus и т. д.

  • Определяем тональность (Key) и её изменения.

  • Берём одну часть, пусть Verse1, идём с шагом в 2/1, 1/1, 1/2, 1/4, смотрим, какие аккорды из набора, соответствующие Key, лучше подходят тому, что в данный момент есть в спектре. Затем то же самое с другой частью.

Это как бы способ «соседи меня не интересуют», т. е. системе все равно, что было ДО и что будет ПОСЛЕ текущего аккорда. Так часто поступают, возможно, и в Suno путем сравнения спектров. Но это ненадежный способ. Есть три базовых момента, позволяющих верно подобрать/ определить гармонию:

а) на фрагменте нужно точно определить местоположение аккордов от тоники, доминанты, субдоминанты (функции). По сути дела, все начинается с трех аккордов.

б) помнить, что в секвенции крайне важна очередность: из этого следует это, а из этого — то. т. е. учитывать вероятность появления следующего аккорда. Причем, это важнее, чем время, занимаемое конкретным аккордом — т. е. секвенцию из четырех аккордов можно проиграть как 1/8, 1/4, 1/8, 1/2, а можно и как 1/4, 1/4, 1/4, 1/4 — главное последовательность.

в) во всех стилях есть гармонические шаблоны. Создать базу типовых, отсортировать по частоте использования, затем «примеривать» на фрагменте с учетом п. б). Вот, к примеру: в целом такте осталась звучать одна нота (или две) — с методом «неважно что ДО и ПОСЛЕ» ошибка появится с вероятностью 50-70%. А ведь даже в паузе в музыкальном смысле аккорд есть!

Таким образом, определение аккордов, гармонизация требуют нескольких проходов по материалу, а не анализ в «узком временном окне». Ошибки гармонизации в Suno, хотя и существенно меньше, чем у Riffusion, заметно снижают качество генераций. Если увеличивать значение Audio influence, т. е. влияние DS, где можно «прочитать» исходную гармонию, то при низком звуковом качестве DS, как в General MIDI треке, мы не улучшаем тембры. А если повышать значение Style influence, чтобы ярче проявлялась модель с нормальными тембрами, мы отходим от исходной гармонии. Suno нередко вставляет аккорды, которые, если и не конфликтуют с текущим спектром, то явно ломают как исходную гармонию из DS, так и типовую секвенцию выбранного стиля. Это напоминает игру музыканта, который не набрался опыта и, играя незнакомую пьесу, «втыкает» хоть и допустимый аккорд, но не то, что ожидалось.

Неудивительно, что Suno без нормального анализа гармонии в DS плохо воспринимает и модуляции (отклонения, сопоставления) — т. е. ситуации, когда меняется тональность (Key). Иногда система справляется, а иногда вокал уже в новой тональности, а оркестр еще в прежней и «догоняет» его только через такт, полтора и т. п.

Авто‑описание трека в Suno

При загрузке DS в Audio Upload система выполняет анализ трека. Если есть вокал — делает транскрибацию. Доверять ей, однако, не стоит — надо самим прописывать Lyrics. Также выдает описание музыки, но крайне далекое от того, что загрузили. В чисто вокальном треке может «услышать» гитару и струнные, практически не определяет верно инструменты, темп, тональность, размер. При этом текст уважительный и профессиональный, как у музыкальных критиков — даже на простой MIDI выдаст что‑то вроде: »... продакшн чистый и сбалансированный, с теплым, привлекательным звучанием. Реверберация деликатно используется на гитаре и клавишных, чтобы создать ощущение пространства...».

Понятно, что в одном сервисе используется несколько различных ИИ; этот явно слабый, в сравнении с другими, и особенно с Cyanite. Обратил на эту опцию внимание, поскольку верный анализ исходного материала, по идее, должен повышать качество «разбора» на элементы (модели, набора) и, как следствие, — качество генерации. (А так получается, что «BMW X7 выдают из автосервиса с колесом от садовой тележки.» Хотя по факту... тоже колесо).


В целом, я очень доволен результатами этих экспериментов с Suno v4.5 с опцией Cover: удалось вдохнуть новую жизнь в треки 20-летней давности, а некоторым придать человеческое звучание, так как слушать в 2025-м «пластмассовый» звук General MIDI уже тяжело. Причем мелодии‑то сохраняются!

Описания части экспериментов представлены в моем телеграм‑канале:

Suno Cover — это точно «Voilà»!
Suno, Cover: минус из MIDI
Suno, Cover: реставрация?
Suno, Cover: текущие итоги
Suno, Cover: из сырого вокала

Почти все примеры — исходники (DS) и генерации — в разделе на сайте.

Комментарии (0)


  1. profotocor
    18.09.2025 09:03

    Хотел сделать кавер на слова песни "Учат в школе..." (ну вы помните "Буквы разные писать, тонким перышком в тетрадь и т.д.) Suno генерить отказалась ссылаясь на защиту лирики авторским правом...


    1. AlexHanguery Автор
      18.09.2025 09:03

      Ну, вообще то я не делал пока каверы из чужих песен :-). Товарищ занимается, вот его рекомендации:

      "Изменение темпа и тональности. Просто темп если изменить этот трек не принимает".

      От меня уточнение - лучше по полутонам (немного), причем если темп/ тональность менять в одном направлении, то искажений будет меньше. Например, если подняли на 1 полутон, то темп надо поднять на 0,5946%.

      "если же текст строго не принимает, то добавляем белиберду всякую, твердые знаки и тд))"

      Можно еще один способ попробовать (я применял его для создания DS) - перемешать фразы в исходном треке. Если проверку не проходит лишь по тексту - то сработает. Если причина - мелодия, то нет. Я это делал просто перекомпоновкой в DAW. Но можно и по-другому - разделить Voc/Instr, перемешать фразы в вокале (по строчкам), затем собрать песню. Опять же, если проблема в тексте.