Сгенерировано в Kandinsky.
Сгенерировано в Kandinsky.

На протяжении всего 2023 года искусственный интеллект на слуху у всех: дизайнеров, копирайтеров, программистов, теперь у артистов, музыкантов и композиторов. Музыка — целая вселенная, сложнее текстов и картинок. В ней множество разных стилей и направлений: блюз, джаз, кантри, рок и т.д. Тем не менее уже сейчас мы видим, что ИИ научился генерировать музыкальные композиции. В интернете представлены разные нейросети, которые сочиняют мелодии. Есть как платные, так и с открытым исходным кодом.

Например, GigaChat скоро научится генерировать музыкальные треки по текстовым запросам пользователей. В то же время Google тестирует новые функции генеративного искусственного интеллекта для YouTube, которые помогут людям сочинять мелодии по текстовым описаниям и простому напеву в микрофон.

В статье расскажем, как искусственный интеллект создает музыку, какие использует алгоритмы, где прослушать сгенерированные произведения и в каких сервисах можно самим протестировать нейросеть.

Может ли робот написать мелодию?

Нейросеть обучается на большом количестве разных аудиофайлов. Разработчики собирают композиции в общую базу и передают ИИ. Как правило, первые сгенерированные мелодии звучат неестественно для слуха людей. Чем дольше программа обучается, тем больше музыка становится похожей на человеческую.

Когда нейросеть запоминает структуру разных музыкальных произведений, она может писать подобные мелодии. Конечно, все зависит от шаблонов, которые ИИ предоставили. Если обучить программу на произведениях группы Битлз, то и генерировать она сможет только подобную музыку.

Генерация нот

Искусственный интеллект создает композицию в виде расстановки звуков, нот и аккордов по порядку. В музыке такой подход называется партитурой. Другими словами, программа генерирует информацию через символы, по которым произведение можно прослушать.

Такой подход OpenAI применила в MuseNet. Программу обучали на произведениях разных жанров: от классики до металла. Поэтому нейросеть сочиняет композиции и сочетать разные стили. Например, может исполнить Лебединое Озеро Чайковского в стиле Киркорова.

Этот подход не идеален. Программа создает только ноты, но не может выразить разную тональность, применить средства выразительности или распознать тонкости звука.

Генерация аудиосигнала

Этот способ работает без ограничений. Программы могут создавать любой звук — вокал, музыкальные эффекты и переходы, а не только партитуру. Такие алгоритмы требуют больших вычислительных мощностей, чтобы обучить нейросеть.

Разработчики не стремились делать ИИ, который напишет композицию с нуля. Дело в том, что музыка состоит из десятка миллионов последовательных значений. Поэтому они использовали алгоритмы машинного обучения, чтобы проанализировать и интерпретировать существующие песни.

С таким подходом нейросети учатся понимать структуру песен и сочинять собственные композиции на основе изученных данных.

Какие алгоритмы использует нейросеть для написания музыки

Искусственный интеллект использует в основе алгоритмов два метода: автокодировщик и генеративно-состязательные нейросети.

ИИ-автокодировщик сжимает входные данные, выбирает важную информацию и отбрасывает ненужную. Затем воссоздает исходные данные, тем самым генерирует новые мелодии.

Генеративно-состязательные нейросети создают музыку на основе песен, которые загрузили в базу и пытаются распознать исходные примеры от сгенерированных.

В методе задействованы две модели — генеративная и дискриминативная. Первая создает музыкальное произведение, а вторая сравнивает сгенерированный звук с оригиналом. Так, две модели обучают друг друга, чтобы генеративная модель могла создавать треки, похожие на человеческие.

Алгоритмы, которые нейросеть использует для генерации музыки, еще тестируются. Их нужно дальше исследовать и улучшать, чтобы достигнуть инновационных результатов.

Как сейчас ИИ генерирует музыку

В начале 2023 года команда из Google показала искусственный интеллект MusicLM, который сочиняет аудиофайлы длительностью пять минут.

Главная функция MusicLM — создавать композиции по тексту. Программа научилась генерировать мелодии по короткому запросу, к примеру, «расслабляющий джаз» или «гитарное соло» и по целому промту текстового описания.

Например, MusicLM сгенерировала музыку по тексту: «Восходящий синтезатор играет арпеджио с большим количеством ревербераций. Его поддерживают пэды, суббасовая линия и мягкие ударные. Эта песня полна звуков синтезатора, которые создают успокаивающую и приключенческую атмосферу. Она может играть на концертах в течение двух песен, чтобы создать эффект нарастания».

Прослушать композицию может любой пользователь на сайте проекта MusicLM.

Воспользоваться сервисом самостоятельно не получится

Google не будет давать доступ к сервису MusicLM из-за проблем с авторскими правами. Дело в том, что ИИ обучали на композициях, которые принадлежат реальным исполнителям.

Нейросеть умеет создавать аудио по промту. Например, разработчики сгенерировали мелодию, которая начинается как «джаз», мягко переходит в «поп», плавно перетекает в «рок» и «дэд-металл», а заканчивается «шотландской народной песней на традиционных инструментах». Так можно написать какую-нибудь историю, а ИИ вставит переходы в нужных тайм-кодах.

Создавать аудио по голосу может нейросеть SingSong. Компания Google разработала его на базе MusicLM. Работает это так: человек, который умеет петь, записывает голос, а ИИ генерирует музыку с разными инструментами и под разные жанры. Самостоятельно попробовать составить звук нельзя, но можно послушать готовые примеры.

AudioLDM — ещё одна нейросеть, которая умеет генерировать звуки. Искусственный интеллект создала команда из Суррейского Университета Великобритании.

ИИ нельзя попробовать самим, но разработчики предоставили примеры сгенерированных звуков. Например, AudioLDM создала звуки паровой машины, голоса человека в разных комнатах, мяуканье кошки, лепета, вздоха и извержения вулкана.

Какие сервисы можно попробовать самостоятельно

Большинство нейросетей не умеют создавать музыку по тексту. Google и AudioLDM не открывают доступ к разработкам, а OpenAI загрузили программу на GitHub, которой могут воспользоваться только программисты.

Для тех, кто умеет писать коды

JukeBox. Разработчики OpenAI создали ИИ, который сочиняет музыку, текст и генерирует целые песни. Для его работы нужно скачать на ПК пакет Conda, указать папку с загруженными песнями и составить промт.

Mousai. Программа с открытым исходным кодом, которая генерирует звуки студийного качества по текстовому описанию. Программы объединяет общий недостаток. Нужна большая вычислительная мощность компьютера, чтобы работать с ИИ-моделями.

Сервисы, у которых есть удобный интерфейс

Avia.AI. Нейросеть генерирует мелодию по тональности, жанрам или по загруженным песням. Можно усилить бас, увеличить или уменьшить скорость воспроизведения, поменять инструменты или добавить новые. Но для этого придется скачать программу на ПК и желательно подтянуть английский — русского языка нет. На бесплатном тарифе скачаете только три трека в месяц. В платной версии программы сгенерируете до 200 треков, которые можно использовать в играх, фильмах или на Ютуб-канале.

Riffusion. Создает музыку по сонограмме. Работает она так: вы пишите текст песни и указываете разные жанры: от хип-хопа и кей-попа до регги и диско. Программа переводит данные в спектрограмму, а уже по ней генерируется песня. Трек можно скачать на компьютер, поделиться в социальных сетях и использовать для видео в «Тик Ток» (сеть приостановила деятельность в РФ из-за закона о «фейках»). ИИ понимает только английский язык, а длина песни всего 12 секунд. Поэтому сгенерировать полноценный трек не получится, зато можно сочинить кучу всего интересного.

Magenta. Проект от компании Google, в котором есть набор разных мини-игр. Например, DrumBot генерирует звуки на барабанах, которые пользователь записал с помощью клавиатуры, а MidiMe сочиняет похожую мелодию из загруженного трека. Есть и интересные игры: в Runn уровни создаются из играющей музыки, в Sornting нужно слушать аудио и определять правильный порядок звуков, а в Piano Genie можно поиграть на пианино с клавиатуры. На практике такой сервис невозможно применить, он лишь демонстрируют возможности искусственного интеллекта.

Mubert. Сервис умеет генерировать музыку по загруженной картинке, описанному настроению, жанру или виду деятельности. Может написать фоновую мелодию для короткого видеоролика на YouTube. Сервисом можно пользоваться после регистрации и создавать до 25 треков в месяц. Если добавить ссылку на канал, где мелодии будут использоваться, то аудио можно будет скачать на компьютер.

Soundraw. Простая программа, которая генерирует треки. Достаточно выбрать жанр, тематику и инструменты. Есть встроенный редактор, в котором можно изменить темп, ритм и тональность мелодии.

Сервис работает только по заготовленным промтам, поэтому написать свой текст или загрузить картинку нельзя. Создавать и слушать музыку можно бесплатно, но скачивать только за деньги.

Заключение

Генерировать музыку — сложный процесс, но мы уже можем наблюдать, как искусственный интеллект совершил скачок в этом направлении. Пока что в качестве помощника для музыкантов и композиторов. Вероятно, в будущем технологии разовьются настолько, что ИИ сам будет создавать новые полноценные мелодии.

Комментарии (3)


  1. Vicielle
    26.12.2023 05:32

    Выходит что робот уже может сочинить симфонию...


  1. vasan
    26.12.2023 05:32

    Лично, как программист и композитор-экспериментатор в одном лице, хочу сказать - что будущее в данном направлении не за нейронными сетями. Ибо получится как в той смешной картинке про DAW будущего, представляющую собой окно с единственной кнопкой "создать музон".

    Тут следует явно понимать, что музыкальный прогресс начинает идти по тупиковой ветви развития. Уже не для кого не секрет, что становится не интересными те музыкальные темы, которые сто миллионов раз сыграны и переиграны. И все эти нейросети собственно и будут в итоге приклеены к данной парадигме. По сему моё личное мнение - я против использования нейросетей для генерации музыки. Можно и нужно развивать музыкальный прогресс поиском новых звуковых форм и гармоний. И тут открывается огромное непаханое поле для как для новаторов - музыкантов и композиторов, так и для программистов, желающих двигать музыкальный прогресс вперёд. Ведь музыка это прежде всего гармония, со своими скрытыми законами. И зная их можно внести в наш мир потрясающие музыкальные произведения, основанные на законах высшей математики. Например, можно бесконечно любоваться неповторимыми сказочными мирами фракталов. Так почему же не использовать эти же законы фрактальной геометрии для создания звуков? И это далеко не единственный пример, Вселенная нам предоставляет для этой цели огромное множество различных средств. Но некоторые, упёртые индивидуумы всё сводят к нейронным сетям, как панацеей абсолютно ко всему. Это ложный путь эволюции, тем более в таком прекрасном творческом направлении как музыка.


    1. vasan
      26.12.2023 05:32

      Даже порой обыкновенная рандомизация тональностей в MIDI сообщениях позволяет получить новые музыкальные текстуры. И где в рандоме искусственный интеллект?

      P.S. Желающие могут поэкспериментировать с рандомизацией посредством бесплатной программы Crazy Music.