Я еще не совсем отошел от шока полугодичной давности, когда познакомился с RVC ... а тут новый прорыв - Suno. Думаю, многие если и не знакомы с самим сервисом, то слышали результаты - саундтреки с вокалом, полностью сгенерированные ИИ, по сути, не отличимые от живого исполнения. Хотя, конечно, еще до ИИ в музыке стало так много синтетики, что теперь и музыкант не всегда определит, как именно она была сделана.

В общем, то, о чём мечтают многие сочинители текстов - положить свои стихи на музыку, стало невероятно простым и доступным. Именно невероятно - 3 клика и Suno за 30 сек выдает 2 варианта песни на ваш текст в выбранном вами стиле.

Я не первый, кто взялся написать об этом удивительном сервисе, но мне кажется, что у меня есть некоторые догадки, позволяющие предположить, как эта система устроена внутри. А понимать принцип работы, значит меньше совершать ошибок и быстрее достигать желаемого результата. Пока, к сожалению, работа с Suno похожа на управление "пищевым конвейером инопланетян" - на выходе в целом правильная и даже вкусная еда, но не совсем то, что ты ожидал получить, делая заказ. Правда, этому есть и объективные причины.

Сначала пару строк о качестве. Это ведь важно?

Suno генерирует, правильную, качественную, профессионально звучащую музыку, которую вы слушаете как-бы через некачественные колонки. Т.е. музыкальное качество высокое, а звуковое - не всегда, но ... Вот реакция Сергея Кокорина, руководителя и дирижера Биг-Бенда Сочи, на один из первых примеров Suno, который я ему показал: "... поразительно точно соблюдены все правила штрихов, нюансов, аранжировки... Удивительно верное инструментальное произношение свинга! У вокалистов чудесный порядок, и в сольном произношении, и аккордовом! Огромное количество подробностей учтено!!! Поразительная железяка, хорошо это слышно, но не верится...". И согласитесь, живой джаз - очень непростая музыка для имитации, это не клубный трек.

Кратко, без нюансов о процессе

  1. Регистрируетесь на сайте (по умолчанию бесплатный Basic Plan).

  2. Есть поле ввода текста (Lyrics) - вставляете свой текст.

  3. Есть поле для описания стиля (Style of Music) - задаете, например, "Бардовская песня, мужской голос"

  4. Есть поле для названия вашей песни (Title)

  5. Жмете кнопку "Create" и ...

... через секунд 30 система выдает 2 трека + ИИ картинку + видео с этой картинкой и вашими субтитрами. Можете прослушать, скачать, опубликовать, поделиться ссылкой, ... удалить.

Немного нарушу логику статьи, чтобы сэкономить время тем, для кого детали не очень важны. Можно прослушать короткие фрагменты в разных стилях из моей коллекции.

А можете посмотреть мою коллекцию версий от Suno. Особенность ее в том, что я намеренно использовал максимально широкое задание стиля для одного и того же текста. Там 18 композиций, для каждой из которых представлены от 4 до 18 версий, + комментарий, указание темпа и тональности.

А песни чьи?

Из условий сервиса кратко:

Бесплатный аккаунт (Free). Право собственности у Suno, а у нас право на использование песен в некоммерческих целях.

Платные аккаунты (Pro, Premier). У нас право собственности, т.е. и право на коммерческое использование.

В любом случае надо указывать, что автор - Suno. Иными словами - с вас $10/мес. и можете начинать продажи.

Продолжительность песен и их количество

В данный момент (23 апреля 2024) выполнение Suno одного вашего задания (текст и стиль заданы) приводит к генерации двух треков продолжительностью до 2-х минут. Треки могут быть и короче, если выбранный системой шаблон имеет меньшую длительность.

На бесплатном аккаунте (Free Plan) вы каждый день получается 50 кредитов (на следующий день они не переносятся, т.е. накопить нельзя). За одну генерацию спишется 10 кредитов, а вы получите 2 трека. Итого 2х5=10 треков в день - не важно, использовали вы разные задания или одно и то же.

Есть опция продолжения (доигрывания) песни - "Extend from Time" с тем же стилем, т.ч. в итоге песня может быть продолжительнее 2-х минут.

Начнем с очень емкого понятия стиль

Что такое музыкальный стиль в общем виде? В основе стиля лежит чаще всего ритмическая организация. Музыканты иногда проговаривают ритм последовательной серией низких и высоких звуков, например: "тум-там-ту-ту-там, тум-там-ту-ту-там" или "тум-та-та, тум-та-та, тум-та-та". Фактически на любом, а не только ударном музыкальном инструменте, можно изобразить ритмическую организацию, характерную для конкретного стиля - вальса, танго, регги (в английском правильнее говорить "для жанра" - Genre). На эту ритмическую основу накладываются, добавляются элементы - характерный набор инструментов (тембры), характерные гармонические последовательности, особенности музыкальной формы, исполнительские приемы отдельных инструментов, манеры пения и др. Все это вместе и определяет стиль.

В реальной жизни стили смешаны и музыканты, и критики могут долго вести споры о том, к какому стилю относить конкретный трек. К условно базовым (Generic), "систематизированным" стилям, ближе, видимо, образцы в ЭМИ с авто-аккомпанементом (Yamaha, Roland и др.) - они, кстати, заданы формальным способом - представлены в виде MIDI (или аналогичных) файлов. Ну, или композиции, ставшие такими Milestones, от законодателей моды, родоначальников того или иного стиля.

По факту мы не можем дать строгое описание стиля, перечисляя параметры - это не ТТХ автомобиля. Хорошо, допустим вы указали жанр и эпоху, перечислили инструменты, отметили манеру пения и гендер, но под подобное описание подойдут тысячи композиций, звучащих по-разному - у одной рок-группы могут быть очень разные песни, но все это рок. Как же получить то, что плохо описывается словами, какие есть выходы?

а) Правильно сыграть самому (на всем этом сразу),
б) создать образец в DAW, как это делает аранжировщик, или
в) найти подходящий прототип, например, "Wind of Change" / Scorpions.

Во всех этих случая на выходе саундтрек (почти материальный объект) и можно сказать: "Объяснять долго, хочу вот чтобы так звучала новая песня".

В Suno есть 2 способа задания стиля, но это не "от прототипа" и есть догадка почему! (Я, правда, не пробовал вбивать "Stairway To Heaven" / Led Zeppelin):

  1. Набор "одобренных" терминов.

  2. Произвольное описание.

Комбинации 1-го и 2-го тоже работают.

"Одобренные" термины

Детально термины представлены в suno.wiki и делятся на 3 раздела - Style, Genre, Types.

Именно в разделе Genre, в таких подгруппах, как Country, Dance и др., приведены конкретные (в смысле ритма) жанры, например, Bluegrass, Disco, Salsa и пр. Поэтому, использование одного из подобных терминов в задании, конкретизирует задачу для Suno.

Раздел Style включает термины, описывающие назначение, место, общий характер, настроение, доминирующую эмоцию, например, Atmospheric, Happy, Middle East и т.п.

Набор терминов раздела Types дополняет первые два (Style и Genre) и, помимо категорий, как, например, Hero Theme, Lullaby, Chaotic ... включает ряд музыкальных инструментов и исполнительских приемов, например, Fingerstyle Guitar, Electricbass, Spiccato violins, ... также разные манеры вокала и речи - Lounge Singer, Melismatic, Narration, Spoken Word и т.п.

В общем, если использовать эти термины, то задание стиля может выглядеть как:

Reggae, Male Voice, Minor key, glissando trombone, sad, Sultry singer

Намучившись с тем, что какие-то из одобренных терминов "работают" не всегда, я стал располагать наиболее важные ближе к началу и выработал правило: сначала Genre, затем Gender, затем мажор/минор, потом все остальное. Да, поле ввода имеет ограничение на длину текста.

Произвольное описание

Можно дать осмысленное описание в терминах, не проверяя, есть ли они в списке одобренных. Например, так - "Sad acoustic bossa-nova" - все эти слова есть в списке. А можно достаточно абстрактно: "Жаркое солнце, пляж, вставать с лежака лениво" - это тоже сработает, но понятно, что разброс в стилистике будет намного больше, чем в первом случае. Стоит помнить о что, "Electric bass" и "Electric, Bass" - разные задания. Для Suno одна команда - то, что между запятыми. Поэтому в первом случае (Electric bass) это один инструмент и жанр не задан, а во втором (Electric, Bass) - сначала жанр, потом инструмент, который не обязательно Electric.

Тональность, темп (BPM), размер задать нельзя.

  • Для тональности есть только вид лада - мажор/минор, без корневой ноты, как, например, Ab major или F# minor.

  • Для темпа: Fast, Slow, Mid-Tempo, правда система понимает и классические термины - Adagio, Moderato, Allegro, Vivo, ... .

  • Размер в большинстве случаев связан с жанром: Polka, Rumba - 2/4; Waltz - 3/4(6/8); Swing, Blues - 4/4; ... Но 100% гарантии нет, так как "внутри" 1/4-ой в 4/4 может быть триольная пульсация, что, по сути, означает 12/8.

Текст и его структура

Текст может быть любым, а не только стих с размером и рифмой. Почему - один из самых интересных моментов. Дело в том, что система по заданному стилю (а может и тексту) выбирает шаблон произведения, причем, за музыкальную и вокальную части отвечают разные алгоритмы. Шаблон, видимо, включает варианты мелодий, т.е. имеет предопределенную ритмическую структуру. В этот шаблон и вставляется ваш текст. Судя по поведению системы, она способна подгонять текст под шаблон, правда не всегда идеально.

Для разметки текста есть специальные команды: Verse, Chorus, Intro, Outro, Instrumental Solo и др. Но, как показала практика, если случается явное несоответствие текста шаблону (который, к слову, пользователю неизвестен), то расстановка команд не срабатывает.

Таким образом, в одном случае вы получите примерно то, что задумали. А в другом может оказаться, что в музыке припев будет начинаться раньше или, наоборот, позже, чем указано в разметке текста. Система может переставить куплет и припев местами или сыграет 1,5 минуты инструментальное соло, а вокал (часть текста) вставит только в конце. Очень часто обрезается начало вокала, поэтому следует прописать инструментальное выступление. Это случаи, когда Suno, в нашем понимании, с задачей не справилась. Но иногда такие "сбои" дают очень интересные результаты, которые ни композитор, ни поэт в здравом уме не получат, так как просто не делают таких ошибок.

Ну, а дополнительный бонус такого "небрежного" заполнения шаблона текстом в том, что любой текст (хоть инструкция к микроволновке) начинает звучать логично в музыкальном смысле, поскольку вложен в правильную музыкальную форму. См. пример "Фу, жуки!"

Ударения и другие How To, относящиеся к тексту

Да, иногда бывают ошибки в произношении и чаще всего они связаны с ударением. Можно помочь системе, но здесь тоже много нюансов.

Принудительно сделать ударение можно написав гласную заглАвной буквой - "широкополОсный" - в 90% это срабатывает. Правда, вот такое написание слова "ничегО" приведет к пропеванию "ничеГо", вместо разговорного "ничево". Другой, менее надежный способ сделать ударение, - удлинить гласную: "замооок". Этот способ подходит также в случае, когда вы хотите сделать исполнение более распевным, протяжным.

Таким же образом можно получить вокализ, задав "аааааааааааааа" или даже "аааааааооооооооуууууууууу", правда длительность ноты, как и во всех других случаях, будет определять система. Нужно помнить, что некоторый гласные, такие, как ё, я, ю, состоят из двух звуков и повторения типа "Юююююла" приведет к разрывам - система синтезирует "Ю,ю,ю,ю,юла", поэтому следует писать "Юуууула".

Иногда требуется пропеть, проговорить что-то по-слогам, сделать акцент или произнести по-буквам аббревиатуру. В этом случае используется восклицательный знак (!) или дефис (-). Так для "паровоз" нужно попробовать "Па! Ра! Воз!". Обратите внимание, на "Ра" вместо "ро" - это снова случай нарушения правил, которым обучена система. Соответственно "ФРГ" - "Эф! Эр! Гэ!"

Этот же подход пригодится, если вы захотите сделать Scat вокал - особая манера пропевания бессмысленных слогов в джазе (конечно, стиль должен быть соответствующим, - с Synthpop я это не проверял.). Выглядит это примерно так:

"ду-да-ду-да-ри-тэн-тиии!" или "тэ! та! ту! ти! тэ! ту! тааа!".

Стоит иметь ввиду, что такими приемами вы усложняете Suno задачу озвучивания текста согласно фонетическим правилам, на которых она натренирована. А в случае удлинения гласных - затрудняете, скорее всего, и правильное заполнение ритмического шаблона мелодии песни.

Все эти указания не дают 100% гарантии по многим причинам - конкретный шаблон, TTS алгоритм (или нейронная голосовая модель, уровень ее тренировки) и т.п.

Авторское право

О, тут много интересного и без Suno. Однако Suno и аналогичные сервисы, похоже, встряхнули эту сферу... Но, позвольте по-порядку.

Человек, не связанный с этой темой, возможно полагает, что после сочинения песни автор идет в какую-то организацию, показывает песню и там ему вручают "Свидетельство", что он теперь автор. Не совсем так - есть нюансы. Я получал подобные бумаги, был (а может и остался) членом РАО, работал с американцами... Так вот, в свидетельстве написано примерно следующее:

"гр. Такой-то (Ф.И.О.), утверждает, что сочинил песню "Песнь моя", такого-то числа." Подпись, печать. Все в конверт + CD или флэшка. Штамп почтовый на конверт (там официальная дата) и все это в сейф. Также копия автору. Первая такая бумага меня даже расстроила: "А где написано, что я автор?"...

Очень важным, иногда принципиальным моментом, является факт публикации (выступления), позволяющий верифицировать событие - подтвердить персону и дату. На практике, если возникнут претензии от другой стороны (др. автора), нужен суд. На суд пригласят экспертов из ближайшей консерватории (или "Союза композиторов"). Профессора и кандидаты искусствоведения послушают песни обоих авторов, посмотрят в ноты и скажут: "Ну,... молодые люди, по нашему мнению это все-таки если не Ф.Шопен, то В.А.Моцарт"... шучу, но. В общем, простого свидетельства из ООО "КопиПаст", какие-бы юристы там не работали, мало. Более надежную защиту дают публикация и заключения экспертов.

Кто-то первый применил эффект Wah-wah ("квакушку"), кто-то первый - сурдину с трубой, кто-то - "завернул" невероятный брейк на ударной установке, кто-то - применил Distortion с электроорганом или голосом ... Подобные исполнительские приемы, находки, мгновенно копировались и нередко становились признаками нового стиля и направления. Как появился Scat? По одной из версий, певец в процессе записи в студии, уронив бумагу с текстом, не остановился, а начал пропевать бессмысленные слоги, типа "Ту, ба, ду, ба ...". Он думал, что эту версию выбросят, а она оказалась выигрышной именно из-за такой накладки. Такие открытия несомненно новизна и ценность, но как они защищены авторским правом?

К подобной категории я бы отнес то, что называют фактурой, саундом композиции, определяемым характерными партиями, тембрами, эффектами, микшированием. Заказчик может сказать аранжировщику в студии: "Хочу вот точно такой же саунд, как у Depeche Mode в студийной "Enjoy The Silence". И аранжировщик будет искать такой же Bass, Drums и прочее (сэмплы), "снимать" партии инструментов (ноты), чтобы максимально приблизиться к прототипу.

Вот выпустили Eagles "Hotel California" и как только она стала популярной, повсюду появились песни-клоны. Немного другая гармония, форма, темп, мелодия, другой язык, на котором пели, но все слышат что-то очень, очень похожее на прототип. Таким образом, конкретный саунд - это ценность, признак, бренд, можно сказать. И действительно, ведь не только в мелодии музыкальная выразительность.

Меня всегда удивляло то, что под защиту попадает или мелодия (+ текст), традиционно - в виде партитуры, или произведение целиком. Не утверждая, что хорошо в этом разбираюсь, я задаюсь вопросом, можно ли зарегистрировать, заявить права на исполнительский прием или характерный саунд?

В одном моем контракте с американцами (12 стр. мелким шрифтом) было прописано все до мелочей, даже если человек сыграл всего 3 ноты (реально). Расписаны % всем, даже если это чуть больше 2%. Но там не было отдельных строк за исполнительский прием или саунд, чтобы потом можно было оспаривать авторство.

Вот после этой разминки, можно сказать несколько слов и о Suno. Мне попалась информацию, что всего несколько дней назад одним из членов Палаты представителей США было внесено предложение законопроекта, который должен обязывать Suno и подобные ей компании "раскрывать перечень музыкальных произведений", на которых обучаются их ИИ алгоритмы.

И действительно, как Suno удается генерировать не только Club, House, где 100% синтетика, а Dixieland Swing 1930-x, да так точно, как будто вы крутите пластинку из дедушкиной коллекций, привезенной из Европы в 1946 году? А ведь у всех этих произведений, хорошо известных или не очень, есть правообладатели - люди или студии звукозаписи. В одном из "моих" Suno треков мне слышится очень явно "All That She Wants" / Ace of Base. Появится свободное время - специально позанимаюсь сравнениями, в первую очередь сольных фрагментов. Хотя полагаю, ребята в Suno стараются избегать использования прототипов "с очень характерными, легко узнаваемыми элементами", например такими, как партии баса в "I Wish" / Stevie Wonder или в "World of Today" / Supermax.

Вот я вручную соберу со своим текстом песню на 100% аналогичную по саунду треку "Secret, Secret" / Stray Kids. Изменю слегка форму, гармонию, мелодию, спою на другом языке. Это будет моё или я что-то украл у Stray Kids? Не представляющее ценности не крадут, так что ответ очевиден (лет 30 назад один мой знакомый говорил: "Лёша, если то, что вы делаете, у вас не воруют - значит вы делаете фуфло"...).

Если по совести (странно звучит в разделе об авторском праве!), то Suno без разрешения использует то, что создали другие. Зарабатывает на этом деньги и пока не платит ни цента, тем кто 100 лет назад или вчера своим трудом создал материал для тренировки их ИИ. (Ну, или платит, но стороны договорились не разглашать информацию о сотрудничестве).

Сложно предположить, чем закончится эта история с Suno, тем более, что они сейчас под крылом Microsoft. Но я думаю, что впереди, в любом случае, очень серьезные изменения в музыкальной индустрии во всем мире. И дело не только в Suno, дело в тенденциях.

Как генерируется песня, что под капотом?

Обычного пользователя Suno это может не волнует, а для меня - самое интересное.

Генерация из партитуры (MIDI)?

Сгенерируйте инструметалку в Suno в стиле Swing Jazz, покажите очень хорошему аранжировщику, скажите: "Хочу также". Он ответит, что лучше нанять биг-бенд. Почему? Да, есть хорошие библиотеки, например, EastWest Sounds - любые инструменты, любые штрихи, приемы. Но озвучить партитуру из 20-30 акустических инструментов, довести до "живого" звучания - гигантский труд, без гарантии на успех.

Надо знать "поведение" каждого инструмента, хотя бы в общем виде, придется редактировать параметры каждой ноты. А что делать с ритмической сеткой? Это только на слух всё в одном темпе - в реальности в игре музыкантов есть не только существенные фразовые девиации, но громадное число микро-отклонений, которые далеко не всегда соответствую гауссовскому распределению. А ведь надо еще все этих "исполнителей" согласовать между собой и по времени, и по уровню, и по штрихам...

В общем, даже если этот аранжировщик играл не один год в биг-бенде, даже если дирижировал им, шансы на успех невелики. Живой музыкант не может нарушить законы физики, а в DAW это как-бы "так и задумано", соответственно, получить результат "как в жизни" почти нереально. Вы можете сказать: "У меня же ноты есть". Классно! Ноты - это почти программа, код, формальные данные, только в них из указаний, как сыграть, всего 10%, остальное - в навыках музыканта.

Пересборка фрагментов реального трека?

Поскольку у Suno на выходе backing track (вокал - отдельный разговор) с музыкальным качеством, которое получить из формального описания (партитуры, MIDI) почти невозможно1) , возникает предположение, что за основу берется готовый реальный трек, который подвергается модификации, "пересборке".

Сейчас, с ИИ алгоритмами разделения на отдельные инструменты, удаления шумов и реверберации, замены тембра, это делать намного проще. Получится, что-то вроде набора LEGO из которого можно собрать много похожих треков (Similarities).

Если так, то работа идет на более высоком уровне, когда элемент это не одна нота (как в MIDI), а, например, "один такт SynthPad, Am". Такой объект и сам может быть модифицирован, например по тону (получить Bm, Gm), спектру (спасибо Стефану Бернзее /S. Bernsee) - так что количество "кубиков" становится больше, соответственно, и вариантов треков. Но в таком подходе в чистом виде непонятно, что делать с инструментальными сольными партиями, которые насыщены исполнительскими приемами, штрихами - у духовых, смычковых, струнных, особенно если речь идет о Saxоphone, Trumpet, Violin и др. в джазе, Overdriven Guitar в роке и т.п.?

Чем больше Suno треков я прослушивал, тем больше утверждался в мысли, что все они реальные. Но был один особенный признак, аргумент - чем более древний стиль ты пробуешь, тем хуже по звуку фонограмма и тем натуральнее backing track. Правда, в ранних стилях почему-то многие вокальные партии если не хоровые, то ансамблевые. Но не могут 3 вокалистки так синхронно пропеть Scat, да и песню не могут!

1) У меня есть некоторый опыт в генерации музыки без ИИ (статья , примеры) - это работа с формальным представлением (MIDI), используя морфинг готовых MIDI-композиций (видео).

Все происходит в спектральной области? 2)

Я думаю, это вполне возможно, хотя и здесь без формальных параметров выполнить существенную трансформацию не получится. Нужны координаты, по Х - временная сетка с разбиением на такты и смены аккордов. Соответственно, по Y - музыкальная хроматическая шкала, root note, другие ступени текущего аккорда, гармоники от компонентов, имеющих значимую амплитуду. Далее двигаем участки спектра и слегка "чистим" нежелательные компоненты (в частности, "хвосты" от Delay, Reverb предыдущего аккорда). Ну, а если требуется лишь смещение тональности или разумное изменение темпа - то вообще никакой проблемы.

2) К сожалению, мой опыт в нейронных сетях минимальный - только обучение алгоритма распознавания тональности мелодии в формате MIDI на brain.js

Вокал - тут они молодцы, это не RVC, а TTS или TTS + RVC. Кстати, здесь тоже есть интересные вопросы по Copyright. Хотите арию в исполнении лучшего тенора? Легко! Берем голосовые материалы Пласидо Доминго, Хосе Каррераса и Лучано Паваротти, смешиваем в один dataset, тренируем нейронную голосовую модель (NVM) и ... Voilà, ваша песня будет исполнена усредненным тембром этих великих певцов. Какими голосами исполняет песни Suno? К слову, ради любопытства недавно ставил задачу и сделал пару женских песен "с нуля". Сочинил, спел, поднял на октаву, применил RVC. Хотел добиться нежного, "няшного" пения, для этого собрал вокал 3-х индийских певиц (поют обычно высоко и с головным резонатором) и сделал NVM. Вышло не очень "няшно" - тембр то поменялся, а манера осталась моя (с RVC всегда так).

Реакция на такие новации и прогнозы

Я не делал соц-опрос, но могу обобщить мнения, которые слышал:

  1. Люди, которые никак не связаны, с музыкой, просто слушатели, и не сочиняют стихи: "Компьютер сам? Только слова? А... ну, хорошо, конечно, это нормально - ИИ все может".

  2. Люди, которые пишут стихи: "Правда? Вот эта за 30 сек? А голосом, как в арии Мистера Х ... тоже можно? Ооо! Надо попробовать, у меня ведь столько написано, еще с молодости..."

  3. Люди, которые сочиняют музыку, делают аранжировки: "Ну, ... качество все-таки не студийное. Да, интересно, но ... " Один знакомый сказал: "Я думаю в итоге мы останемся без работы, надо менять профессию ... "

Конечно, многое, связанное с ИИ, вызывает опасения - это нормально, человек боится того, с чем не знаком. Я достаточно консервативен и далеко не все из новаций принимаю, но опыт подсказывает - мы или меняемся, встраиваемся в будущее или остаемся в прошлом.

Всегда говорил - ИИ не создает новые модели, стили, а эксплуатирует то, что нашел, испытал, отработал человек ... но, похоже, новые Art Objects ИИ теперь создает.

Suno берет ваш текст (один человек) и реальный музыкальный трек (другой человек или группа), генерирует мелодию (точнее, подгоняет ее под сопровождение) и голос (другой человек или группа), затем все объединяет. На выходе НОВЫЙ объект творчества, вызывающей те или иные чувства, мысли, эмоции, т.е. обладающий определенной художественной ценностью. Условно говоря, 50% в процессе восприятия - на стороне слушателя, для мозга человека все-равно, каким образом был создан объект.

Появится очень много качественной музыки (у Suno уже неплохо, а будет еще лучше) с разным качеством текстов от авторов-любителей. И среди этого, несомненно, будут очень хорошие песни и даже хиты, если автор приложит усилия, чтобы донести это до слушателей.

Появятся рекламные ролики-песни в магазинах о новых поступлениях, сделанные автоматически (текстовые данные для Suno будут браться из 1C бухгалтерии, складской ведомости и т.д.)

В салоне красоты и фитнес клубе заведующая с утра будет говорить умной колонке, что-то типа такого: "Давай сегодня целый день что-нибудь Lounge, Chillout, с таким глубоким мужским sexy голосом"... и это будет стоить для салона меньше $10 в месяц.

Пионеры в летнем лагере будут устраивать конкурс на лучшую песню 11-го отряда 2-го сезона 2025 года, а пионервожатые - конкурсы рэп-композиций ...

Комментарии (25)


  1. TommyG
    24.04.2024 15:28
    +2

    Сейчас последняя версия v3, интересно смотреть качество в динамике и v3 реально пробила некий порог когда это воспринималось как забавая, но не очень серьёзная игрушка, то сейчас вполне готовый продукт, особенно на английском. Интересно слушать варианты созданные на совершенно не предназначенных для этого текстах, типа инструкции для драйвера мыши или что-то подобное.

    Дальше будут двигать к студийному качеству, плюс добавят редактирование - типа не понравилась часть трека, сказал заменить и оценил получилось лучше или хуже предыдущей версии, тебе дали новый вариант с учётом пожеланий.

    Судя по скорости генерации, не так чтобы и ресурсоёмкий процесс, может кто и опенсоурс варианты выпустит.

    PS. Спасибо, очень крутая статья, не очень понятно почему через час после публикации, оценки всё ещё по нулям.


    1. sterr
      24.04.2024 15:28
      +1

      Самое хреновое, что нет запоминания итерации. Я например хочу что-то добавить в понравившейся мне стилистике, или сделать другую песню в таком же стиле. Но нет, каждый раз новое. И в последнее время качество генераций очень сильно упало. По тому же запросу выдается абсолютно разный, а иногда и очень кривой результат. Даже неделю назад мне нравились 50% генераций, а сейчас качественных 20%, но не то, что мне нужно, хотя запрос тот же.


      1. positroid
        24.04.2024 15:28
        +1

         >Даже неделю назад мне нравились 50% генераций, а сейчас качественных 20%, но не то, что мне нужно, хотя запрос тот же.

        Мне кажется тут есть еще фактор насмотренности (наслушанности), могу сказать то же, что и вы, но у меня это случилось месяц назад после оформления PRO и большого количества экспериментов - через пару дней начал критичнее относиться к оценке результатов генераций


      1. kasiopei
        24.04.2024 15:28

        Можно продолжить песню с другим текстом.

        Нагенерил 10 песен в похожем стиле. Через неделю снова его использовал и совсем другой результат.


  1. engine9
    24.04.2024 15:28
    +5

    Спасибо за подробный гайд, суно — диавольская песочница, позволяющая творить музыкальные эксперименты. Самый любимый пример Дабстеп в стиле 20-х.

    Загляните в плейлист, там есть "Lorem ipsum" исполненный хором и речь идущего к реке под драм-н-бэйс. Закидываю туда всякую дичь.


    1. iShrimp
      24.04.2024 15:28
      +1

      6 шагов загрузки Линукс - шедеврально! Так можно любой мануал или вообще любую книгу превратить в речитатив под музыку :)


      1. engine9
        24.04.2024 15:28

        Нейронка, к сожалению, иногда пропускает слова и даже фразы.


    1. vros
      24.04.2024 15:28
      +1

      Самый любимый пример Дабстеп в стиле 20-х.

      Супер. От 20х там примерно первая минута, с 1:20 что-то резко более современое, а где-то на 3:10 чистый Skrillex.


      1. engine9
        24.04.2024 15:28

        Ага, самый сок вначале, потом накал трека проседает.


  1. uhf
    24.04.2024 15:28
    +2

    Suno генерирует, правильную, качественную, профессионально звучащую музыку

    Ну как профессионально звучащую... как будто ее прогнали через GSM кодек =) И стереобазу выпилили, заменив на псевдостерео фазовращателем из 90-х ) И звучание инструментов тоже разнообразием не блещет. Чем больше треков слушаешь, тем больше напоминает предыдущие.
    Вау-эффект поначалу есть, но непонятно, что с такой музыкой делать. Генерировать одноразовые смешные песенки для свадеб и корпоративов? Да, это можно.
    Добавить в плэйлист? Нет, это вряд ли. Тут нейросети предстоит еще долго совершенствоваться. Искусство звукорежиссуры для меня выглядит одним из самых сложных и загадочных.


    1. rPman
      24.04.2024 15:28
      +5

      Генерировать фон для видеоблогеров, чтобы не агрился алгоритм правообладателей на youtube.


      1. uhf
        24.04.2024 15:28
        +2

        Да, уже видел на youtube. Заменитель музыки, идентичный натуральной.


        1. engine9
          24.04.2024 15:28
          +1

          Поёт нейронка, видеоряд с МКС. Не знаю как вам, а меня до мурашек.


    1. jurikobe
      24.04.2024 15:28

      Тут смотря о каких жанрах речь.. мой любимый ска панк просто неотличим от многоженства команд))


      1. uhf
        24.04.2024 15:28

        Вкусы у людей разные. Кто-то музыку на улице с телефона слушает ) Без наушников )) А кому-то обязательно HiFi система нужна.


  1. maxsaf
    24.04.2024 15:28
    +2

    Можно, как вариант, сгенерировать что-то интересное, в плане инструментала, потом перебить это в любимой DAW, используя нормальные семплы, подправить аранжировку, ну и для вокала нанять артиста или самому спеть. В общем, есть над чем подумать.


  1. rPman
    24.04.2024 15:28
    +1

    Как вы указали в lyric ударения?

    И еще, пользуйтесь тегами, типа [Break], очень помогает разделить предложения, которые их алгоритм связывает 'на одном дыхании'


  1. EugeneH
    24.04.2024 15:28
    +9

    Советую еше попробовать Udio. Некоторым больше нравится и на бесплатном плане доступно 600 генераций в месяц.

    У Суно под капотом диффузная модель, если я правильно понимаю. Никакого миди и пересборки треков там нет. Т. е. буквально модель типа Stable Diffusion, только обученная на мел-спектрограммах вместо картинок с котиками.

    На HF лежит их предыдущая разработка - Bark TTS. При обучении Bark они обнаружили, что помимо речи модель неплохо умеет генерировать музыку, хотя не предназначалась для этого. Тогда они создали новую модель - Chirp - специально заточенную под генерацию музыки. За её развитием мы сейчас и наблюдаем.

    Я сам долго использовал Bark в своих проектах. Подкупала простота локального запуска, естественный эмоциональный голос и возможность клонировать и "трансмутировать" голоса.

    Диффузный подход, правда, накладывает ограничения - можно сгенерировать только кусок аудио определенной длины, около 11 секунд. Ни длиннее, ни короче нельзя. Соответственно, велика задержка.

    Вторая проблема - модель не всегда следует промту и может выдавать белиберду.

    Для TTS диффузный подход оказался не лучшим, зато нашел своё применение в генерации музыки. Надеюсь открытые модели появятся в ближайшем будущем.


    1. AlexHanguery Автор
      24.04.2024 15:28
      +1

      Спасибо, становиться чуть понятнее! Вопросов много, только не могу сейчас этим заняться :-(, может через мес, другой


    1. Antra
      24.04.2024 15:28
      +2

      Ценная информация.

      И есть шанс получить а-ля локальный Chirp? Ну гонять у себя, как stable Diffusion и всякие LLM.


  1. GennPen
    24.04.2024 15:28
    +1

    Попользовал Suno и Udio.

    Udio лучше накладывает слова на мелодию. Голос и музыка качественней. Больше возможностей дополнять песню (вступление, конец, блоки спереди/сзади) Но иногда кажется что мелодию делает достаточно однообразную. Очень плохо смешивает различные жанры, особенно несочетаемые, получается мешанина. Но Suno в плане смешивания различных жанров в том числе несочетаемых очень хорош, иногда получается очень неплохие вещи.


  1. Dewey
    24.04.2024 15:28
    +5

    Как выяснилось, область применения Suno шире, чем можно было представить:

    Hidden text

    https://vk.com/wall-38946994_153129


  1. z-sis-z
    24.04.2024 15:28
    +3

    Я использую Suno как помощника, когда детям задают выучить стихотворение, делаю из него песню в стиле котором им нравиться. Учиться ли так быстрее не знаю, но точно веселее.


    1. rPman
      24.04.2024 15:28

      какие жанры лучше заходят детям именно чтобы выучить стих?


      1. z-sis-z
        24.04.2024 15:28
        +1

        Pop, различная электронная музыка и иногда gangsta-rap