Создание музыки в нейросети Udio, подробная инструкция с примерами от сообщества / forpes.ru

Главная
Создание музыки в нейросети Udio, подробная инструкция с примерами от сообщества

Создание музыки в нейросети Udio, подробная инструкция с примерами от сообщества

16.05.2024 08:01

timonin 8 4200 Источник

Друзья, всем привет! Меня зовут Илья, я основатель онлайн-нейросети для создания изображений ArtGeneration.me, техноблогер и нейро-евангелист. С самого детства я мечтал научиться играть на каком-нибудь музыкальном инструменте. Я делал много попыток: были две гитары (акустическая и электро), клавиши и даже электронные барабаны. Но мне всегда не хватало усидчивости, и я не чувствовал удовлетворения от освоения инструмента, поэтому забрасывал его. Пробовал также освоить Ableton и FL Studio, но они казались мне слишком сложными. В итоге, к 35 годам я научился играть только на варгане, хотя душа требовала большего — я очень люблю музыку и слушаю ее буквально 24/7.

Нейросети уже дали мне возможность создавать прекрасные изображения, и я думал, как было бы здорово, если бы можно было так же легко создавать музыку. И действительно, около 10 месяцев назад появились такие инструменты, как MusicGen и AudioCraft от Meta*.

Но эти модели генерировали всего 12 секунд, и качество их было очень низким, поэтому тогда я не увлекся этой темой. Вот как это звучало:

Позже появился Suno, генератор музыки, который успел наделать шума. Компания также сделала большой вклад в опенсорс, создав отличный голосовой движок Bark. Но мне по-прежнему не нравилось качество: музыка звучала как с автотюном, а голос был механическим. Но вот вышел Udio, и все изменилось. Я сам не мог поверить в то, что услышал. В буквальном смысле я залип на создание треков: за 5 дней сгенерировал 6 штук, на каждый из них ушли сотни попыток, но у меня получалось, и мне нравилось. А главное — нравилось и тем, кому я давал послушать свои треки.

Несмотря на существующие проблемы, такие как плавающая консистентность трека, невозможность скопировать сегмент и переиспользовать его, а также пока не запущенную загрузку собственных сэмплов, Udio все равно поражает, особенно учитывая, что это лишь начало. И сегодня мы с вами разберемся, как создать ваш первый трек и как здесь все работает. Поехали!

Технологическая основа Udio

Udio базируется на ранних моделях музыкальных нейросетей, таких как MusicLM и AudioGen. По сути, они работают по тому же принципу, что и популярные нейросети для генерации изображений, такие как Stable Diffusion или DALL-E. Основная идея заключается в том, чтобы представить музыку в виде последовательности дискретных токенов (своего рода "слов" в музыкальном языке), а затем обучить нейросеть предсказывать следующий токен на основе предыдущих и дополнительной информации, такой как текстовое описание желаемой музыки.

Процесс генерации музыки можно сравнить с тем, как Stable Diffusion создает изображения из случайного шума. Сначала нейросеть предсказывает общую структуру и характеристики музыки (аналог низкочастотных деталей изображения), а затем постепенно добавляет все более мелкие детали (высокочастотные компоненты). Однако, в отличие от двумерных изображений, музыка является одномерным сигналом, разворачивающимся во времени, поэтому для моделирования временных зависимостей используется многоуровневая архитектура Transformer.

Еще одно важное отличие — для управления генерацией музыки используется не только текстовое описание, но и информация о желаемой мелодии, которая может быть задана в виде образца (например, напеть мелодию). Это становится возможным благодаря отдельной модели, которая научилась находить общие паттерны между музыкой и соответствующими текстовыми описаниями и мелодиями.

В итоге, можно сказать, что MusicLM и AudioGen привносят идеи и подходы из генерации изображений в мир музыки, адаптируя их под особенности музыкальных данных. Они открывают новые возможности создания музыки на основе текстовых описаний и образцов мелодий, подобно тому как Stable Diffusion и DALL-E позволяют генерировать изображения по текстовым запросам.

Udio же пошел дальше своих предшественников, реализовав ряд усовершенствований и доработок:

Увеличена длительность генерируемых треков до 30 секунд вместо 12
Значительно улучшено качество звучания, устранен эффект "автотюна"
Добавлена возможность создания собственных текстов песен
Реализованы функции расширения треков и создания ремиксов

Благодаря этим улучшениям Udio стал гораздо более привлекательным и удобным инструментом для создания музыки, чем его предшественники. Далее мы подробно разберем, как работать с этой нейросетью и создавать свои музыкальные шедевры.

Основы работы с Udio

Создавать треки с помощью Udio очень просто. Просто введите описание того, что вы хотите создать, в поле prompt и нажмите Create. Например, введите "a jazz song about New York".

Если вы не знаете, что ввести, попробуйте нажать на иконку с игральной костью, чтобы заполнить поле prompt случайным примером.

Типичный prompt состоит из комбинации свободного текста и тегов. Например, в запросе "a song about summer rain, jazz, mellow, warm", "a song about summer rain" — это свободная часть, а "jazz", "mellow", "warm" — теги. Обратите внимание, что разные части prompt разделяются запятыми (,), точкой с запятой (;) или точкой (.). Prompt может содержать любое количество свободных частей и тегов в любом порядке.

Кроме того, prompt может содержать ссылку на стиль исполнителя, что упрощает описание музыки, которую вы хотите создать. Например, приведенный выше prompt можно расширить до:

"a song about summer rain, jazz, mellow, warm, in the style of Billie Holiday"

Обратите внимание, что Udio не генерирует песни с голосами исполнителей, а ссылка на стиль внутренне заменяется набором релевантных тегов.

Чтобы помочь вам с составлением prompt, под полем ввода текста вы найдете два типа предлагаемых тегов, на которые можно нажать, чтобы добавить их в prompt:

Автодополнения: Это предлагаемые дополнения тегов для текущего слова.

Предлагаемые теги (серый фон): Предлагаемые теги, которые дополняют текущий набор тегов, упорядоченные по релевантности. Предлагаемые теги — хороший инструмент для исследования, который может привести вас к интересным комбинациям, особенно если вы готовы пролистать их.

Как бы подробно ни были текстовые prompt, они не могут полностью определить реальное музыкальное произведение — один и тот же текст описывает бесконечное количество возможных аудиотреков. Поэтому, чтобы приблизиться к музыкальной идее, которая есть у вас в голове, вы можете создать несколько клипов с одинаковыми prompt (и другими настройками). По умолчанию Udio создает два варианта для каждого вводимого prompt.

Но даже этого часто недостаточно, поэтому состояние поля prompt не сбрасывается после нажатия Create. Это позволяет легко добавлять в очередь больше генераций с изменениями или без них.

Если вы не хотите продолжать работу с тем же prompt, нажмите Reset — поле prompt вернется в исходное пустое состояние. Хорошая возможность попробовать что-то новое и свежее!

Обратите внимание! Вы можете переместить курсор в любую часть prompt, и это изменит автодополнения соответствующим образом.

А еще Udio генерирует вот такие замечательные музыкальные видео которые удобно использовать в социальных сетях:

Советы по составлению prompt

Собственный текст песен и инструментальные партии

По умолчанию Udio автоматически выбирает подходящий текст для вашего prompt (это включает создание инструментальных треков, где это имеет смысл). Если вы хотите использовать свой собственный текст, выберите режим Custom в разделе текста prompt и введите свой текст в поле ввода, например:

Чтобы разнообразить свои творения, попробуйте добавить специальные дескрипторы, такие как [Verse], [Chorus], [Hook], [Guitar Solo] или [Drop]. Вы также можете указать бэк-вокал, используя скобки.

Совет: Не отчаивайтесь, если Udio не выдает именно то, что вы ищете, с первой попытки. Продолжайте нажимать Create — скорее всего, один из получившихся треков будет потрясающим.

Совет: Некоторые менее обычные комбинации тегов могут быть намного сложнее в реализации. Если повторная генерация не помогает, вы можете исследовать другие способы смешивания стилей — с помощью расширения трека или ремиксов.

Тексты песен не обязательно должны быть на английском языке. Вот некоторые из языков, которые распознает Udio: китайский, японский, русский, польский, немецкий, французский, итальянский. Попробуйте — это весело!

Если вы заметили, что модель неправильно произносит слово, вы можете разбить его на более простые фонемы. Еще одна проблема, с которой вы можете столкнуться — модель ставит ударение не на тот слог. Это можно исправить, выделив правильный слог непосредственно в тексте (например, в русском языке попробуйте написать "бетóномешалка" вместо "бетономешалка").

Чтобы принудительно сделать трек инструментальным, выберите режим Instrumental. Обратите внимание, что это не на 100% надежно, и иногда вы можете услышать звуки, напоминающие голос.

Расширение треков

Udio генерирует вашу музыку в разделах по 32 секунды. Таким образом, вы можете относительно быстро просмотреть несколько вариантов и решить, какой из них стоит расширить по длительности. Вы можете перейти в режим Extension, нажав кнопку Extend на странице трека или выбрав Extend Track в контекстном меню (щелчок правой кнопкой мыши по треку или нажатие на значок ...). В этом режиме поле prompt меняет свой внешний вид и предоставляет дополнительные элементы управления.

Одним из новых элементов, которые вы можете заметить, является область, отображающая исходный клип, который вы в настоящее время расширяете:

Помимо того, что это упрощает отслеживание того, над чем вы работаете, эта область также позволяет скопировать prompt, использованный для создания исходного клипа, нажав на значок копирования справа от трека. Обратите внимание, что по умолчанию основное поле ввода prompt предварительно заполнено исходным prompt. Это гарантирует, что расширение, которое вы собираетесь создать, соответствует по стилю оригиналу.

При этом вы можете изменить prompt на что угодно, и иногда это приводит к очень интересным результатам. Например, вы можете развить свой трек от спокойной акустической гитарной линии до ревущего гитарного соло, сопровождаемого тяжелыми искаженными пауэр-аккордами — этого легко добиться, используя различные теги жанров и инструментовки для разных разделов вашего трека.

Прежде чем расширять трек, вы можете выбрать конкретную часть, которую хотите использовать в качестве основы для расширения. Для этого нажмите на кнопку "Select Section" над формой трека. Затем выделите интересующий вас фрагмент, кликнув и перетащив маркеры начала и конца выделения. Выбранная часть будет подсвечена и станет отправной точкой для дальнейшего расширения трека.

Использование "Select Section" позволяет сосредоточиться на наиболее удачных или многообещающих элементах вашей композиции и развить их в полноценное музыкальное произведение. Это особенно полезно, если сгенерированный трек содержит как сильные, так и слабые части, и вы хотите построить свою композицию вокруг лучших фрагментов.
После выбора нужного фрагмента с помощью "Select Section" вы можете перейти к следующему шагу и указать направление расширения трека.

Вы можете выбрать направление расширения, нажав на один из вариантов в области Extension Placement:

Udio позволяет добавлять раздел либо до, либо после исходного клипа. Этот процесс можно повторять, чтобы построить цепочку до 10 разделов. Вы также можете добавить вступительный или заключительный раздел, что позволяет составлять полноценные треки.

Простейший рабочий процесс для создания законченной песни длительностью 1,5 минуты выглядит так:

Сгенерируйте среднюю (основную) часть, используя обычный режим создания. Это "мясо" вашего трека, самый захватывающий раздел.
Перейдите в режим Extension для только что созданного раздела.
Выберите опцию Add Intro в области Extension Placement и нажмите Extend. Это создаст нарастание к вашему основному разделу. Полученный двухсекционный трек теперь длится 1 минуту.
Перейдите в режим Extension для трека длительностью 1 минута.
Выберите Add Outro и нажмите Extend. Вот и все — теперь вы создали музыкальное произведение, имеющее правильное начало и завершение. И оно полностью ваше!

Примечание: Вы можете в любой момент выйти из режима Extension и вернуться в обычный режим создания, нажав Create New.

Создание ремиксов треков

Еще одна классная возможность Udio — создание ремиксов. Ремикс — это тонкая или не очень тонкая вариация существующего клипа. Чтобы создать ремикс, сначала выберите подходящий трек (пока вы можете делать ремиксы только 30-секундных треков) и нажмите Remix либо на странице трека, либо в контекстном меню.

По сравнению со стандартным режимом создания, в поле prompt есть одна новая область:

Левая часть идентична области исходного клипа в режиме Extension, а ползунок в правой части позволяет контролировать силу эффекта ремикширования (Variance). В самом слабом положении, когда ползунок полностью слева, ремикширование не меняет исходное аудио. По мере перемещения ползунка вправо (после установки положения ползунка нажимайте Remix) эффект становится более заметным — определенные аспекты клипа начинают меняться. Малые значения силы в основном влияют на мелкие детали, оставляя общую структуру и гармонию оригинала нетронутыми. Например, вы можете заметить, что тембры инструментов и голосов слегка меняются, или появляются небольшие вариации в рисунке перкуссии. Более высокие значения силы вносят более значительные изменения, а крайнее правое положение ползунка дает результаты, которые почти не имеют сходства с исходным клипом.

По умолчанию, аналогично режиму Extension, начальный текст prompt заимствуется из исходного трека. Это полезно, если вы хотите, чтобы ремикс был в стиле, похожем на оригинал. Но ремикширование становится по-настоящему интересным, когда вы пробуете либо подкорректировать prompt, либо написать совершенно новый. Таким образом вы можете, например, добавить новый инструмент или пойти вразнос и создать совершенно новое смешение жанров. Возможности безграничны.

Помимо изменения prompt, как и в других режимах создания, вы также можете изменить текст песни. Однако, чтобы это хорошо работало, вам может потребоваться использовать относительно высокое значение Variance, особенно если вы существенно меняете текст.

Совет: Ремикширование полезно для исправления небольших ошибок в произношении.

Совет: Попробуйте сгенерировать несколько ремиксов для одного и того же значения Variance. Каждый из них будет отличаться друг от друга, но иметь примерно одинаковую степень сходства с оригиналом.

Редактирование треков с помощью Inpainting

Udio недавно представил новую функцию под названием Audio Inpainting, которая позволяет редактировать отдельные части сгенерированных треков. Вы можете выбрать до 4 сегментов одновременно для повторной генерации с учетом окружающего контекста. Это дает возможность исправлять ошибки, улучшать вокальные партии или сглаживать переходы между частями трека.

Чтобы воспользоваться функцией Inpainting, сначала выделите нужный участок трека с помощью инструмента "Select Section". Затем нажмите кнопку "Add Section" под областью "Extension Placement". Выбранный сегмент будет перегенерирован с учетом окружающих частей, что позволит органично вписать его в общую композицию. Обратите внимание, что Audio Inpainting доступен только для платных подписчиков Udio.

Совет: Используйте Inpainting для исправления небольших дефектов, например, фальшивых нот или резких переходов, чтобы довести свой трек до совершенства.

Управление длиной контекста с помощью Advanced Control

В разделе "Lyrics" интерфейса Udio есть дополнительная опция под названием "Advanced Control". Она позволяет настроить длину контекста (Context Length), которую нейросеть учитывает при генерации output.

Длина контекста определяет, какую часть окружающего трека модель принимает во внимание при создании нового фрагмента. Более длинный контекст может улучшить согласованность output и сделать переходы между куплетами и припевами более плавными. Однако это также затрудняет смену жанров или стилей внутри трека.

Напротив, более короткая длина контекста дает больше гибкости и позволяет создавать более разнообразные композиции, но за счет потенциальной потери согласованности.

По умолчанию параметр Context Length установлен на максимум шкалы, обеспечивая высокую повторяемость трека. Вы можете настроить его в соответствии со своими предпочтениями и целями, перемещая ползунок влево для более короткого контекста или вправо для более длинного.

Совет: Если вы хотите создать трек с несколькими разными частями или жанрами, попробуйте уменьшить длину контекста. Для более целостных и последовательных композиций увеличьте значение Context Length.

Уровни подписки и ограничения

Udio предлагает три уровня подписки с разными возможностями и ограничениями:

Free: Бесплатный план с ограниченной дневной квотой на генерацию и базовыми функциями. Не требует кредитной карты.
- 10 кредитов в день с дополнительными 100 кредитами в месяц
- Стандартная очередь обработки
- До 2 одновременных генераций (4 трека)
- Создание ремиксов и расширение треков
Standard ($10/месяц): Вводный пакет с увеличенным лимитом генерации, доступом к дополнительным функциям и приоритетной обработкой.
- 1200 кредитов в месяц без дневного лимита
- Приоритетная очередь обработки
- До 3 одновременных генераций (6 треков)
- Inpainting, собственное оформление обложек и аватары пользователей
Pro ($30/месяц): Максимальный пакет с наибольшим количеством генераций, специальными функциями и ранним доступом.
- 4800 кредитов в месяц без дневного лимита
- Приоритетная очередь обработки
- До 4 одновременных генераций (8 треков)
- Все функции из стандартного плана

Дополнительные кредиты можно приобрести отдельно: 100 кредитов за $3 или 1000 кредитов за $25.

Примечание: Ежемесячные кредиты, предоставляемые в рамках платных планов, не накапливаются. Однако купленные отдельно кредиты являются частью вашего плана и остаются на балансе до тех пор, пока вы не израсходуете их.

Авторские права и коммерческое использование

Udio не претендует на право собственности на контент, который вы генерируете с помощью Udio в ответ на ваши запросы. Подробная информация о праве собственности на сгенерированный контент доступна в Условиях использования Udio.
Вы можете делиться контентом, созданным с помощью Udio, в социальных сетях, при условии, что контент не содержит защищенных авторским правом материалов, которыми вы не владеете или на использование которых у вас нет явного разрешения, а также при условии, что вы должным образом указываете, что контент был создан с помощью Udio.
Вы можете использовать контент, созданный с помощью Udio, в коммерческих целях (например, распространять сгенерированную музыку на стриминговых платформах, включать ее в монетизируемые видео на YouTube, лицензировать для использования в ТВ/фильмах/рекламе и т.д.), при соблюдении тех же условий, что и для некоммерческого использования.
Вы можете перезаписывать, семплировать или иным образом перерабатывать контент, созданный с помощью Udio, при соблюдении вышеуказанных условий.

Дополнительные советы и примеры от сообщества

Невербальные подсказки в текстах песен

Индикаторы структуры

Метки куплетов: [verse], [Verse 1], [verse 2]
Метки припевов: [pre-chorus], [chorus]
Другие метки разделов: [intro], [bridge], [outro], [breakdown], [Drop], [interlude], [buildup], [Refrain] (как сообщается, помогает с согласованностью), [sample], [Rhythmic flow with syncopation], [dance interlude], [interlude drop], [Chorus: Vocalist], [Verse: Vocalist]

Речь и описания голоса

Тег [spoken] для произнесенных строк, можно явно указывать разные голоса
Метки [voice 1, spoken], [voice 2, spoken] для разных спикеров (UDIO (Let The Groove Be Your Guide) [Full Track], Disco, Funk by BobbyB)
[Verse1:female] (https://www.udio.com/songs/bqkZ7Qgq8ZvDCBQp4V2seX)
Реальные имена для спикеров (Udio | The Expendables (The Musical) by Lunakris)
Описания тона и голоса (например, крик)
- [breakdown (screaming)] (I Hate You With All Your Heart by jakemarsh)
Другие примеры:
- [Emotional], [scream], [cry], [crowd]

Дополнительные описания

Теги инструментов: [guitar solo], [saxophone], [violin solo]
- "[guitar solo]" (Wow… I Didn't Know That [Full Track], Americana, Country)
- "[saxophone]" (UDIO (Let The Groove Be Your Guide) [Full Track], Disco, Funk by BobbyB)
- "[violin solo]" (Lorem Ipsum Dolor Sit Amet by SirBitesalot)
[Harmonica Break], [Harmonica Bridge] были замечены, сгенерированы ИИ, но, похоже, не оказали никакого влияния на песню
Описания музыкального стиля/тона/элемента
- "[high energy, upbeat, fast-paced Balkan brass instrumental, exciting and exhilarating]" (Balkanski Istraživač by Rajko)
- [record scratching], [vinyl scratching] и [dj scratching], похоже, работают, но непоследовательно
- Множество интересных примеров в этой песне (Cosmic Synapse by Hastag Rich)
Установка первой подсказки как: tempo xxx bpm, похоже, работает довольно стабильно
Использование [fade out] в разделе outro даст приятный эффект затухания, если есть место после любого текста
Повторите припев [Chorus - Repetition of the chorus to reinforce the song's themes - "Repeated chorus with an added echo for depth"] пример: Udio | Heart of Revelry by drinko

Произношение

Разбивка слов на фонемы/слоги

Utilization -> "Utili-zation" (Teraflop Titans by Rajko)
Petaflops -> "Peta-flops" (Teraflop Titans by Rajko)
Backpropagation -> "Back-propa-gation" (Micrograd Learning Adventure by Rajko)

Произношение по буквам аббревиатур, букв и чисел

"U-D-I-O" (You Dee Oh (I Dee Dance) by Slava)
AMD -> "ay-em-dee" (Teraflop Titans by Rajko)
991 FP16 TFlops dream
6 PCIe lanes, 64 gigs per sec, data strem
-->
"nine hundred ninety one Eff-pee-sixteen teraflops dream,
six pee-see-eye-E lanes, sixty four gigs per sec, data stream"
(Teraflop Titans by Rajko)

Невербальные слоги

Выразительные бессловесные слоги
- "Hmmmm Ohhh woah" (Wow… I Didn't Know That [Full Track], Americana, Country)
- "ahhhhhhhh", "ooooooohhhh" (Lorem Ipsum Dolor Sit Amet by SirBitesalot)

Примеры эффективных промптов и рабочих процессов

Вот несколько примеров эффективных промптов и подсказок для различных элементов песни:

[Verse] [Verse 1] [Verse 2]
[Verse 1: Voice One] [Verse 2: Voice Two]  
[Chorus] [Chorus 1] [Chorus 2] [Chorus: Both Male Vocalists]
[Spoken Verse 1: Male Voice] [Dialogue 1: Female Voice 1]
[Spoken Word: Male Voice] [Spoken Word: Female Voice]
[Build: Male Vocalist] [Build: Female Vocalist]
[Chorus: 2x]
[Bridge]
[Pre=Chorus]
[Pre-Drop]  
[Drop]
[Post-Drop]
[Verse 1: Male Vocalist] 
[Verse 2: Female Vocalist]
[All:]
[Hook]
[Intro: Sound of train chugging]
[Chorus: Gunshots in the distance]
[Verse 1: With street ambiance]
[Pre-Dialogue]
[Instrumental Break]
[Build: Male Vocalist] 
[Whispers in the dark]
[Chorus: All, Detective (Male), Siren (Female), (Chorus)]
[Dialogue Bridge]
[DETECTIVE (spoken)] [FEMALE SUSPECT (spoken)]
[Instrumental Streak]
[Whispers]  
[Instrumental Break]
[Dialogue Interlude]

Вот несколько более развернутых примеров:

Пример 1:

[DETECTIVE]
Dim lit streets and secrets untold 
[MOLL]
In shadows lies the heart that's so cold
[FEMME FATALE]  
A dame in distress or a spy, who's to say?
[DETECTIVE]
Every clue leaves a trail, every whisper's a lead
[MOLL] 
But the truth's in the eyes, in the lies that they feed
[FEMME FATALE]
Darling, trust isn't cheap in the games that we play

Пример 2:

[Spoken Word: Male Vocalist]
November the 3rd, 1955: This is Detective Harlan from the 8th Precinct, the case has taken a darker turn
Mysterious notes left at the crime scene, a cipher that no mind can discern. It's all leading back to one enigmatic dame. Could she be the spider weaving this web of lies?

[Spoken Word: Female Vocalist]  
November the 3rd, 1955: This is Miss Loretta, singing at The Blue Moon the night in question. Sure, I saw the gent with the guilty eyes, trailing shadows longer than the night is young. But a lady keeps her secrets, unless the right question is sung.

[Background Music]
A haunting melody of a lone saxophone, strings swelling like the tide, a piano's tune that dances with the shadows on the wall, the pulse of the city at midnight in musical form.

Пример 3:

[Scene Dialogue]
MALE DETECTIVE:
We're gonna get close, gonna track leads 
Through the twists and turns that this case needs
FEMALE PARTNER:
Gonna ask 'round, take some notes
Follow the trail where the shadow floats

Вот пример рабочего процесса от пользователя Reddit под ником Cordova:

Обычно у меня есть хотя бы зародыш идеи для текста, в зависимости от того, первый ли это куплет, припев или что-то еще.
В тегах я выбираю жанр и любые конкретные теги, определяющие предпочтения по инструментовке или вокалу. Например:
outlaw country & honky tonk, male vocalist, female vocalist, acoustic guitar, close harmonies

Затем я ввожу свои подсказки в поле **Custom** write your own lyrics. Текст в скобках обычно будет петься гармоническим голосом. Например:

(Intro)
   [Instrumental Break]
   He's an outlaw by nature, (a rebel by choice.)    
   With the wind in his hair, (and the dust on his boots.)
   Singing songs of freedom, (with his raspy voice.)
   He's an outlaw forever, (playing his roots.)

Затем нажимаю generate. Если мне нравится одна из двух сгенерированных песен, я переименовываю этот файл и даю ему обложку, чтобы он выделялся в моем списке. Позже очищаю, удаляя все без обложки.
Это упрощает расширение, потому что теперь я знаю течение песни и могу создавать свой текст в соответствии с подсказками для [Verse], [Pre Chorus], [Chorus] и [Bridge] и получать согласованный результат, соответствующий настроению песни.
Я обнаружил, что лучше всего генерировать по 6-8 строк на раздел (в зависимости от количества слогов и течения), и там, где в итоге не хватает текста, я вставляю [Instrumental Break], [Guitar Solo] или [Interlude], чтобы заполнить пространство чем-то интересным для слуха.

Чтобы лучше направлять ИИ, старайтесь использовать не только дескриптор вроде [verse], но и добавляйте максимум 2 слова для описания, например [harmonic male verse]. Не забывайте про скобки ( и ), которые часто генерируют приятное эхо.

Если ваш собственный текст — это средний куплет или припев, но его не хватит на полные 32 секунды, попробуйте добавить [Instrumental Break] или [Interlude] до или после текста, чтобы расширить раздел и не дать ИИ вставить импровизации или лирические артефакты.

Udio открывает безграничные возможности для создания музыки с помощью нейросетей. Даже без музыкального образования вы можете создавать полноценные композиции в несколько кликов. Простой интерфейс, генерация музыки по текстовому описанию, а также функции расширения треков и создания ремиксов делают Udio незаменимым инструментом для музыкантов, продюсеров и энтузиастов.

В будущем мы можем ожидать появления еще более продвинутых моделей, способных создавать более сложную и эмоционально насыщенную музыку. Но пока нейросети остаются мощным инструментом для воплощения наших творческих идей. Так что не бойтесь экспериментировать, пробовать новые подходы и делиться своими творениями с миром. В мире музыкальных нейросетей есть бесконечное пространство для творчества и самовыражения.

На этом у меня все. Искренне верю, что кто-то найдет в Udio свою творческую отдушину, как это удалось мне. Будем следить за развитием этих технологий. Если создадите что-нибудь классное, приглашаю запостить в наше сообщество Нейро-Музыка на Пикабу.

Я рассказываю больше о нейросетях у себя на YouTube, в Telegram и на Boosty. Буду рад вашей подписке и поддержке. Всех обнял. Удачных генераций!

*Организация Meta, а также ее продукты Instagram и Facebook, признаны экстремистскими и запрещены на территории РФ.

Возможно, захочется почитать и это:

Новости, обзоры продуктов и конкурсы от команды Timeweb.Cloud — в нашем Telegram-канале ↩

Комментарии (8)

OtshelnikFm
16.05.2024 15:55
#26831421
+1
Спасибо за последний блок рекомендаций - отдельно!

Стоит дополнить, что русский тест (на текущий момент) она плохо понимает. Выпустить хорошую песню с современным звучанием и вокалом на русском затруднительно.

Если получится - то это будут "хиты" 70-х-80х. Типа Егор Летова, Высоцкого, Пугачевой. Миража.

Современные жвнры так же редко получаются и на английском. Дитер Болен, Сандра, и подобные - да. Это если музыка и там есть текст.

Сдается что нейросетку обучали на старом материале.

Ждем когда она обучится и на современном.
1. RikkiMongoose
  16.05.2024 15:55
  #26832987
  Я так сгенерировал исполнение Высоцким великой песни "Напас-Лавандос"
1. kainby
  16.05.2024 15:55
  #26834383
  акцент присутствует, но в этой нейронке (suno) мне кажется русский куда лучше :
  
  Hidden text
  1. timonin Автор
    16.05.2024 15:55
    #26834389
    Нет, у суно качество в разы хуже.

saege5b
16.05.2024 15:55
#26832095
+2
Довольно интересно.

С десятка генераций на русском, в паре случаев был момент, что конец трека переносился в самое начало, буквально менее секунды. Оба раза, когда текст сильно короче 32 секунд.
1. RikkiMongoose
  16.05.2024 15:55
  #26832983
  Пару недель назад она иногда вместо текста вставляла какой то невнятный сгенерированный мамбл. Этого нет в платной версии или уже в бесплатной тоже устранили?
  1. saege5b
    16.05.2024 15:55
    #26833167
    Я в бесплатной палочкой тыкаю. Но, как-то оно не получается подружиться :( Сам не встречал такого.
    
    timonin Автор
    16.05.2024 15:55
    #26833273
    К ней надо немного привыкнуть, почувствовать как работает, понять ритм отрезков, но честно сказать и у меня на трек уходит сотня попыток.