“Человек создан для счастья, как птица для полета” В. Г. Короленко из его рассказа “Парадокс”

Здравствуйте, уважаемые читатели!

В этой статье я хотел бы продолжить тему появления субъязыка текстовых запросов к нейросетям, однако в этот раз речь пойдет об использовании ИИ в целях создания музыки.

Сразу скажу, я достаточно хорошо разбираюсь в процессе написания музыки в FL Studio (ПО типа цифровой звуковой рабочей станции и секвенсора для написания музыки, входит в топ-3 наиболее популярных программ), поэтому в данном случае я могу оценить процесс с обеих сторон, т.е. как написания музыки через ПО напрямую, так и с помощью нейросетевой генерации, чего я не могу сделать к примеру, в случае применения ИИ для написания программного кода.

Сегодняшняя статья будет состоять из двух частей:

  1. Практическая часть. Описание процесса генерации музыки “от А до Я”. Идеальный запрос - Как создать музыку, которую можно будет слушать месяцами?

  2. Серьезный вывод о текущем состоянии и перспективах развития отрасли и не только.

Итак, приступим!

Для тех, кого не интересуют технические подробности, переписка с ChatGPT, примечания/наблюдения в части процесса и т.д., я хотел бы сразу дать ссылку на короткий альбом из 4 полноценных треков, созданных на пересечении стилей lofi-trap, hip-hop и R&B, который получился у меня в ходе изучения возможностей двух музыкальных нейросетей, о которых сегодня пойдет речь, а именно: Suno AI и Udio AI.

Следует сделать Примечание (которые будут время от времени появляться в тексте этой статьи):

В качестве референса, т.е. примера для работы и вдохновения я использовал музыку рэпера Drake в целом и его трек Greece. Это не значит, что музыка в созданном мной альбоме, будет именно такой, как Drake – Greece. Но этот трек меня очень сильно вдохновлял. И не только меня ?

Давайте же начнём! На самом деле всё достаточно тривиально, однако, мне хотелось бы, как и обещал, осветить практическую сторону вопроса и представить полное описание, что называется “от А до Я”.

И раз уж речь в заголовке статьи идет об идеальном запросе/“строке бога”, то и я начал работу
по созданию вдохновляющей меня музыки с создания описания будущих треков, опираясь на референс, т.е. указанный выше Drake – Greece

You

Привет! Я собираюсь генерировать музыку с помощью двух нейросетевых инструментов, которые доступны на сайтах https://www.udio.com/ и https://suno.com/

Я очень хочу, чтобы сгенерированные треки были по стилистике и исполнению близки к песне Drake - Greece.

Тебе знаком данный трек?

Если да, то представь мне пожалуйста максимально подробный текстовый запрос для генерации музыки в стиле указанного выше трека.

В текстовом запросе помимо непосредственного описания следует указать:

 temp (bpm)

 key (к примеру, E minor)

 используемые инструменты и эффекты (к примеру, bass, hi-hats, snare и т.д.)

Все перечисленное выше и
текстовое описание трека должно быть очень подробным и позволять нейросетям
сгенерировать музыку, которая максимально похожа на трек Drake - Greece

Часть итераций переписки с ChatGPT я пропущу, чтобы не утомлять читателя техническими деталями. Кроме того, я немного ошибся, попросив нейросеть написать МАКСИМАЛЬНО ПОДРОБНОЕ описание, что, естественно, было воспринято ей буквально.

Итак, итоговый текст, выданный ChatGPT, который в дальнейшем с микроправками (типа male vocalist) послужил идеальным запросом для создания целевой музыки.

ChatGPT

Конечно! Вот более полное описание:

Генерируем трек на 122 bpm в тональности F# minor, используя глубокий синтезаторный бас с мягкими тонами, теплый и сглаженный кик, легкий реверберированный снэйр, и тонкие, закрытые хай-хэты. Добавим широкие атмосферные синтезаторные подложки и плавающую мелодию на синтезаторе с ревербом. Основной вокал обрабатываем автотюном с легким ревербом и эхом для создания гладкого звучания. Используем реверб и дилэй для атмосферности, а в переходах — нежные свипы и подъемы. Структура трека начинается с затяжного вступления, переходит в сдержанные куплеты и более яркий припев, создавая мечтательное и расслабленное настроение. Этот трек вызывает чувство умиротворенной элегантности и легкости, приглашая слушателя насладиться плавным и гармоничным звучанием.

Примечание:

Несмотря на обилие заимствований из английского языка (кик, снэйр, хай-хэты, реверб и дилэй) в ответе, использованная ChatGPT терминология мне, безусловно, знакома по FL Studio, а итоговый запрос к нейросети на генерацию музыки был переведен на английский язык во избежание ненужных сложностей с пониманием Suno AI и Udio AI указанных терминов и
содержания промта на русском.

Далее нужно было выбрать тематику музыкального трека, с чем я опять-таки обратился к ChatGPT.

You

Привет! Я хотел бы продолжить тему создания рэп музыки в стиле Drake. Предложи 5 вариантов тем для песен в стиле рэпера Drake.

ChatGPT

Привет! Вот пять тем для песен в стиле рэпера Drake, которые могут вдохновить на создание интересных треков:

  1. Восхождение к успеху – песня о пути к славе и трудностях, с которыми приходится сталкиваться на этом пути. Особенное внимание уделяется внутренней борьбе, жертвам, и моментам сомнений, которые испытывает каждый стремящийся к успеху артист.

  2. Доверие и предательство – трек о сложных отношениях и разочарованиях в близких людях, как в личной жизни, так и в бизнесе. Эмоциональное исследование того, как трудно построить доверие и как легко его потерять.

  3. Размышления о богатстве и одиночестве – история о том, как богатство и слава могут привести к одиночеству. Это раздумья о том, как деньги и известность изменяют отношения с окружающими и восприятие мира.

  4. Возвращение к корням – рассказ о возвращении в родной город, воссоединении с друзьями детства и семьей. Осмысление того, как прошлое формировало характер и жизненные ценности.

  5. Поиск истинной любви – песня о сложностях современных романтических отношений, в которой рассматриваются темы верности, преданности и жертв, которые люди готовы принести ради настоящей любви.


Каждую из этих тем можно развить с использованием типичных для Drake мелодичных хуков, глубоких битов и характерной эмоциональной достоверности.

Да, это всё действительно очень близко и показательно с точки зрения тем Drake. Необходимо отметить 100% попадание в цель, и каждая из перечисленных выше тем достойна внимания при генерации. Я выбрал вторую, Доверие и предательство. Это прям в самую точку. Наверное, ещё и потому, что тема в какой-то мере небезразлична мне самому.

Теперь перейдем к словам.

Вот вариант, созданный с помощью ChatGPT 3.5, и надо сказать он впечатлил меня практически до глубины души. Очень сильно, правда!

Кроме того, они максимально хорошо попали в выбранную выше тему Доверие и предательство,
и прямо затронули что-то в моей душе. Я не преувеличиваю.

ChatGPT

### Тема 2: Доверие и предательство

 

Verse 1 (Куплет 1)

I gave you the keys, thinking you'd defend it, 

But you opened doors, let strangers in it. 

Trust turns to dust, it's hard to mend it, 

Thought you were the cure, but you just bent it. 

Promises broke, left the truth unspoken, 

I was the punchline, but never got the joking. 

 

Chorus (Припев)

You were my fortress, but you let me fall, 

Told me "we rise", but instead I crawl. 

Why’s loyalty scarce when it’s needed most? 

Trust is a ghost in the hearts of the lost. 

Verse 2 (Куплет 2)

Now I’m building walls, higher than before, 

Not to keep them out, but to trust once more. 

Every handshake now feels like a gamble, 

Friendship's a book I’m afraid to unscramble. 

But lessons are learned, and scars are tokens, 

With eyes wide open, I’m no longer broken. 

 

Эти стихи отражают сложность и глубину чувств, которые часто исследует Drake в своем творчестве, от боли предательства до надежды найти истинную любовь.

В готовом треке после второго куплета я добавил припев, проигрыш и снова припев, но по сути это уже детали (ссылка выше в видео врезки медиафайла).

Давайте коротко пройдем по интерфейсам двух указанных нейросетей.

Естественно, по сути, тут всё элементарно.

Интерфейс ИИ-генератора музыки SUNO
Интерфейс ИИ-генератора музыки SUNO
Интерфейс ИИ-генератора музыки Udio
Интерфейс ИИ-генератора музыки Udio
Интерфейс ИИ-генератора музыки Udio (при переходе в меню трека через “View track”)
Интерфейс ИИ-генератора музыки Udio (при переходе в меню трека через “View track”)

Примечание:

Через некоторое время, скажем, пару недель продуктивной работы, в особенности в Udio, у вас накапливается такое количество материала, который естественно, вам очень нравится, (потому что вы сами его тщательно отобрали, а всё остальное уже было безжалостно удалено), что вы начинаете на автомате слушать его как плейлист и эта халявная ВК Музыка с рекламой по минуте через каждые два прослушанных трека уже уходит в небытие.

Если вы обратили внимание, то на скриншоте с интерфейсом SUNO AI под названием для каждой из песен был привязан один и тот же текстовый запрос. Это и есть найденная мной “строка бога” для SUNO. Она достаточно короткая в силу ограничения по длине запроса в диалоговом окне в 100 символов (без пробелов).

"Строка бога" в действии @SUNO AIТонна разнообразных, но при этом классных треков, сгенерированных на основании одного текстового запроса и с одним и тем же текстом. И еще примерно столько же было удалено, в принципе, в силу необходимости уменьшать количество материала (чтобы попросту не утонуть в его объёме) и по большей части надуманных и мелочных претензий, собственно, вытекающих из указанной ранее первопричины.
"Строка бога" в действии @SUNO AI
Тонна разнообразных, но при этом классных треков, сгенерированных на основании одного текстового запроса и с одним и тем же текстом. И еще примерно столько же было удалено, в принципе, в силу необходимости уменьшать количество материала (чтобы попросту не утонуть в его объёме) и по большей части надуманных и мелочных претензий, собственно, вытекающих из указанной ранее первопричины.

Текст идеального запроса в SUNO AI представлен ниже.

Drake style trap and hip-hop track at 120 bpm in C# minor key, deep synth bass, crisp and soft kick, reverberated snare

Более того, у меня появилась идея создания альбома, все песни в котором будут сгенерированы только на основании одного текстового запроса и одного варианта текста, и, поверьте мне, он всё равно будет ПРОСТО БОМБОЧКА!!!

Итоговый, немного переработанный после ChatGPT и достаточно длинный текст идеального запроса в Udio AI в силу отсутствия ограничения по количеству символов. Он также позволил сгенерировать очень большое количество материала, и я пока не собираюсь его менять.

Drake, Future and Post Malone styled trap, hip-hop and pop-rap track with male vocalist, 122 bpm in F# minor key, deep synth bass with soft tones, warm and smooth kick, light reverberated snare, and thin, closed hi-hats. Wide, atmospheric synth backing and a floating synth melody with reverb.

В итоге в результате недели взаимодействия с двумя нейросетями появился альбом “Electronic feelings”, который лично мне очень нравится.

[Track 1] DJ Miyagi & SUNO AI - True love | Electronic feelings

[Track 2] DJ Miyagi & Udio AI - All my days to you | Electronic feelings

[Track 3] DJ Miyagi & SUNO AI - Feelin' so alive | Electronic feelings

[Track 4] DJ Miyagi & Udio AI - Elegant Harmonies (Move) | Electronic feelings

На создание настолько качественных материалов в FL Studio у меня ушло бы примерно 6-8 недель, кроме того, бесконечный перебор вариантов сэмплов и синтезаторов в музыкальном ПО типа FL Studio очень утомляет, поэтому после написания 1-2 треков старым дедовским способом от процесса очень хочется отдохнуть. А вот нейросети позволяют не только экономить время, работая более продуктивно, но сразу получать результат, который при необходимости можно пропустить через этап мастеринга – финального доведения аудиотрека (-ов) до нужного уровня звучания.

Таким образом, при написании музыки через нейросети вы выступаете в качестве шеф-повара, который не обременен необходимостью чистить лук и картофель, разбирать и отбивать мясо, и т.д., поскольку все перечисленные операции делает заготовительный цех, а вы, как специалист высшей пробы, смешиваете готовые ингредиенты и добавляете специи “по вкусу”.

Теперь необходимо отдельно сказать о некоторых индивидуальных особенностях рассматриваемых ИИ-генераторов музыки, поскольку они напрямую влияют как на процесс работы с нейросетями, так и на полученный результат.

Сравнение некоторых функциональных возможностей Udio AI и SUNO AI
Сравнение некоторых функциональных возможностей Udio AI и SUNO AI

Примечание:

Неожиданной и непредсказуемой проблемой в процессе работы с указанными нейросетями стала необходимость жестокого удаления любых не самых удачных побочных “веток”, отходящих от базового варианта. Буквально за несколько дней работы на один трек вариантов стало настолько много, что уже было сложно разобраться какой кусок является началом, предпочтительным продолжением и завершенной работой, в особенности это касалось Udio AI, где на базовый вариант трека длиной 32 сек надстраиваются кусочки также по 32 сек (представители недавно анонсировали увеличение до минуты), а поскольку с каждым запросом генерируется по два варианта, то ты понемногу начинаешь тонуть во всём этом многообразии и именно поэтому все мало-мальски не устраивающее, даже в силу мельчайшего нюанса, лучше сразу удалять, оставляя только 1-2 основных ветки.

Кстати сказать, через некоторое время в Udio AI появилась функция Show Track History, показывающая иерархию дерева существующих вариантов (удаленные, естественно, не показываются), однако пока что данная функция реализована не очень удобно; см. скриншот ниже.

Udio AI, часть “дерева вариантов”
Udio AI, часть “дерева вариантов”

Также следует отметить еще одну весьма забавную деталь…

С помощью нейросетей (в особенности SUNO AI) в принципе можно создать альбом, в котором будет 7-8 треков, отличающихся стилистически, но при этом остающихся в общих границах заданного жанра, и, что самое главное, с одними и теми же словами, которые условно будут исполняться разными голосами, с разным посылом, интонацией, акцентами и энергетикой. Получается очень интересно.

 

А теперь давайте поговорим о серьезном

Каковы сейчас перспективы музыкальной отрасли?

Мне кажется уже сейчас они околонулевые.

Сложно спорить с тем, что в музыкальной отрасли у нейросетей есть колоссальные преимущества.

  • Посудите сами, пользуясь нейросетями я могу не ждать, когда исполнитель в перерывах между попойками, мировыми турне, квартиниками, лечением от зависимости и прочими, безусловно, крайне важными для него делами сподобится выпустить новый альбом. Хотя, конечно, это не будет творчеством исполнителя, прошедшим через его сознание. Необходимо признать, что будет суррогат.

  • Вот еще одна ситуация. Вы совершенно случайно слышите где-то песню, которая не выходит у вас из головы днями или даже неделями, есть меломаны типа меня, которые могут слушать один трек месяц, а то и больше. И вот наслушавшись вдоволь, вы идете в Google, смакуя мысль о том, что сейчас вы скачаете 3-4 альбомчика этого исполнителя и погрузитесь в его мелодии и настроения надолго, однако оказывается, что всё остальное его творчество… просто полный треш, качество которого просто невозможно сравнивать с первым услышанным произведением автора. У меня так было с песней Trippie Redd – Love Scars. Конечно, есть исполнители, практически каждый трек в альбоме которых всегда попадает в десятку (bullseye!!!), но их единицы на всю планету. С помощью нейросетей, при наличии времени и терпения, я смогу создать несколько альбомов в нужном мне стиле.

  • Также, моя проблема как создателя музыкального контента заключалась в том, что при широких, если не сказать безграничных, возможностях в части создания музыки, в силу дефектов речи, отсутствия дара к пению ртом и знакомых рэперов/певиц я не мог записать вокальную часть, а имеющиеся библиотеки голосовых сэмплов плохо решали проблему, даже при наличии специализированных плагинов.

  • Кроме того, существуют ситуации, когда исполнитель уже умер/погиб/был убит в перестрелке между бандами. В этом случае ИИ тоже может помочь. Я не раз и не два желал, чтобы талантливые исполнители продолжали творить, даже если они уже покинули наш мир. Пускай это и будет лишь суррогат.

Кстати сказать, здесь в качестве примера можно привести самого рэпера Drake, который неоднократно критиковал авторов нейросетевых треков с его синтезированным вокалом, и при этом 19 апреля сам опубликовал на своей странице в Х (*запрещена в Российской Федерации) трек “Taylor Made”. Соль ситуации в том, что в его песне прозвучали сгенерированные искусственным интеллектом синтетические версии голосов Snoop Dogg и 2Pac. Следует отметить, что 2Pac был застрелен в 1996 году.

Юристы, представляющие интересы семьи Тупака, написали, что семья «глубоко опечалена и разочарована» несанкционированным использованием голоса покойного рэпера в песне.

В судебном уведомлении содержится требование удалить песню с платформ потокового вещания, где она находится в открытом доступе.

В деталях об этой ситуации можно почитать здесь и здесь.

  • Кроме того, уж простите меня за мелочность, но я всё же считаю, что артисты (и в особенности продюсеры), покупающие 100-метровые яхты и особняки – это нонсенс. Лучше бы так жили шахтеры, которые каждый день идут с отбойным молотком в забой. Поэтому я предпочитаю создавать музыку, которая 100% попадет в мой личный топ-10 песен месяца или даже года, при этом, не находясь в зависимости от действий и решений исполнителя и его продюсера”, в том числе, связанными с региональными ограничениями.

А теперь максимум серьезности.

Почему в эпиграфе к данной статье написана фраза В. Г. Короленко “Человек создан для счастья, как птица для полета”?

Буквально на секунду обратимся к истории.

Декрет о 8-часовой продолжительности рабочего дня был принят 30 октября 1917 г. Несмотря на все имеющиеся технологии индустриализации, автоматизации, роботизации, кибернетизации, цифровизации, глобализации и прочих “ций”, почему мы продолжаем работать 5 (или больше) дней в неделю, по 8 часов в день? Ради чего люди пашут? Ради этих вот деятелей?

Фраза “Человек создан для счастья, как птица для полета” справедлива с моей точки зрения именно потому, что для полноценной реализации своего потенциала он просто обязан заниматься творчеством, которое у него отбирают заводы и рутина…

Нейросети – это инструмент, который может освободить людей от груза монотонных задач, позволяя им уделить больше времени творчеству в различных областях, таких как изобразительное искусство, музыка, дизайн и литература.

В заключение, можно сказать, что нейросети и искусственный интеллект открывают новые горизонты для музыкальной индустрии. Они могут помочь в создании новых произведений, вдохновленных стилем любимых исполнителей, и даже воссоздать голоса тех, кто уже не может делиться своим творчеством. Однако, как и любая технология, они требуют ответственного использования и уважения к правам и желаниям всех участников процесса. В то же время, они могут стать мощным инструментом для освобождения человеческого творчества от рутины и монотонности, позволяя людям заниматься тем, что они действительно любят.

Просто дайте людям площадку, куда они смогут бесплатно выкладывать свои песни и где будет 24/7 идти подкаст из представленных музыкальных работ по выбранным направлениям, а потом отойдите в сторону, не мешайте!

Лично я хочу дать каждому человеку возможности для творчества. Не знаю, как для вас, я для меня музыка значит колоссально много. И возможность создавать полноценные песни, которые раз за разом будут “цеплять”, пускай даже только одного слушателя – т.е. как минимум того, кто их создал, на мой взгляд, бесценна.

В конечном итоге, это может привести к тому, что наш мир станет немного ярче, теплее и разнообразнее.

Комментарии (11)


  1. TommyG
    09.05.2024 00:03
    +1

    Попробуйте вместо своей "строки бога" поставить какой нибудь лорем ипсум или вообще случайный набор слов. Результат будет точно таким же как и с вашей "строкой бога". А потом можно подумать, что нету никакого бога.


  1. darum12
    09.05.2024 00:03

    А точно кому-то нужны 100 похожих на какую-то песню произведений?


    1. Odin_Himself Автор
      09.05.2024 00:03

      Здравствуйте!
      Вы считаете, что это будет, грубо говоря, 100 копий одной песни, но в реальности я уже точно решил, что сделаю альбом в соответствии с указанным принципом и хочу продемонстрировать, что они будут разные.

      Да, они будут как грани одного бриллианта, но каждая из граней имеет своё уникальное расположение, своё место в общей структуре.

      Я уже точно сделаю такой альбом, надеюсь не забуду и пришлю его вам когда будет презентация.
      Но точно не очень скоро, потому, что я хочу сделать его чем-то особенным.

      Если напишете в личку почту или ТГ буду благодарен!


  1. starik-2005
    09.05.2024 00:03
    +1

    Даешь пятичасовую четырехдневную рабочую неделю! )))

    Мне понравилась статья несмотря ни на что.


    1. Odin_Himself Автор
      09.05.2024 00:03

      Даешь пятичасовую четырехдневную рабочую неделю! )))

      Я полностью за!

      Спасибо за ваш комментарий!


  1. keydach555
    09.05.2024 00:03
    +1

    UDIO в целом огонь конечно, но с русским вокалом беда, в 9 случаях из 10 генерирует белиберду полную. Измучишься, пока песню сделаешь


    1. Odin_Himself Автор
      09.05.2024 00:03

      Да я даже не пробую пока на русском.
      В целом конечно бывает по крупицам собираешь годный вариант, но иногда в тонне песка попадается золотая жила.

      Предлагаю вам попробовать следующую идею.
      Это просто безграничный полёт фантазии


    1. Odin_Himself Автор
      09.05.2024 00:03

      Кстати, в комментариях к одной из своих статей увидел вот это чудо нейронной мысли!!!! )))

      Рекомендую! (Хотя и не слушаю металл)


    1. qw1
      09.05.2024 00:03

      UDIO в целом огонь конечно, но с русским вокалом беда

      Зато Suno AI отлично дружит с русским. На youtube уже очень много треков. Ошибок исполнения я не слышу, разве что звук немного жёваный, как старый mp3 64kbps.


  1. Moog_Prodigy
    09.05.2024 00:03

    Я конечно может чего-то не понимаю, но как по мне генерирующие сервисы - это зло. Сегодня они есть, завтра нет, куча настроек под капотом, на которые никак нельзя повлиять. Есть нечто работающее на локальном компе, условно таком, на котором ворочаются распространенные нейронки типа SD или LLM, с неплохой видеокартой, кучей памяти и мощным ЦП?


    1. Odin_Himself Автор
      09.05.2024 00:03
      +1

      Конечно есть.Только суть вопроса в том, спрашиваете ли вы вообще любых генеративных ИИ с локальной клиентской частью или только о генераторах музыки?

      Что касается ИИ-генераторов изображений, то точно есть, однако сразу скажу, вам понадобится видеокарта минимум 8 Ггб, а лучше 12.

      Кроме того, есть Chat with RTX - нейронка от NVIDIA для карточек серии RTX.
      Я недавно купил 4060 ti. ставил себе эту нейронку, но она там что-то кроме себя еще докачивает, python вроде, еще что-то, короче так и не заработало, но с другой стороны я сильно и не разбирался, попробовал пару раз и забил.

      В принципе, могу написать статью про генеративные ИИ с клиентской частью, если будет серьезный интерес