Музыка — это универсальный язык, для которого нет границ. Стремительный прогресс больших языковых моделей (Large Language Model, LLM) привёл к тому, что нейроучёные продемонстрировали острый интерес к исследованию представления музыки в человеческом мозгу.

Команда учёных из Google, Осакского университета, NICT и Araya Inc., движимая этим интересом, провела исследование, результаты которого изложены в публикации «Brain2Music: Reconstructing Music from Human Brain Activity». В исследовании используется конвейер обработки данных, названный Brain2Music, в состав которого входит модель MusicLM, реконструирующая музыку, которую слышит человек, на основе его мозговой активности. Система генерирует композиции, которые напоминают исходные музыкальные раздражители. Этот новый метод даёт ценные сведения о взаимоотношениях мозговой активности с когнитивным и чувственным опытом людей.

Учёные сделали следующие основные выводы:

  1. Мы восстановили музыкальные произведения из результатов фМРТ‑сканирования путём прогнозирования высокоуровневых семантически структурированных музыкальных эмбеддингов и используя глубокую нейронную сеть для генерирования музыки на основе этих признаков.

  2. Мы выяснили, что различные компоненты нашей модели для генерирования музыки позволяют прогнозировать активность в слуховой коре мозга человека.

  3. Мы предлагаем новые выкладки, согласно которым в слуховой коре мозга имеется значительное совпадение вокселей, состояние которых можно спрогнозировать на основе (a) исключительно текстового описания музыки, и (b) на основе самой музыки.

Сначала учёные подвергли предварительной обработке набор данных, состоящий из музыкальных произведений различных жанров. В частности, этот набор содержал композиции 10 жанров, в число которых входят блюз, классика, кантри, диско, хип‑хоп, джаз, метал, поп, регги и рок. Музыку дополнили текстовыми описаниями на английском языке, содержащими сведения о жанре, инструментовке, ритме и настроении записей.

Конвейер обработки данных Brain2Music
Конвейер обработки данных Brain2Music

Работа конвейера Brain2Music начинается со сворачивания высокоразмерных данных фМРТ‑сканирования в семантические данные, 128-мерные музыкальные эмбеддинги MuLan, посредством линейной регрессии. Далее применяется MusicLM — модель для генерирования музыки, которая реконструирует музыкальные произведения, представляющие исходные звуковые раздражители.

Схема MusicLM в контексте декодирования данных фМРТ-сканирования
Схема MusicLM в контексте декодирования данных фМРТ-сканирования

В MusicLM применяется двухступенчатый процесс генерирования музыки. На первом шаге работы модель учится мэппингу эмбеддингов MuLan на низкоуровневое представление токенов w2v‑BERT с темпоральной информацией. А на втором шаге сгенерированные токены конвертируются в звуковые данные с использованием декодера SoundStream.

Основные количественные результаты декодирования — реконструкции музыки
Основные количественные результаты декодирования — реконструкции музыки
Сравнение точности идентификации музыкальных произведений различными моделями
Сравнение точности идентификации музыкальных произведений различными моделями

В своём эмпирическом исследовании команда оценила схожесть реконструированных и исходных музыкальных произведений, имея в виду точность идентификации произведений и совпадение топ‑n классов AudioSet. Полученные результаты подтверждают то, что предложенный подход обладает возможностью извлечения музыкальной информации из результатов фМРТ‑сканирования, а так же то, что он отличается высокой точностью реконструкции исходных произведений. Более того, Brain2Music демонстрирует хорошие результаты при реконструкции музыки, относящейся к жанрам, работе с которыми система ранее не обучалась.

В целом можно сказать, что эта работа — лишь первый шаг в сфере реконструкции музыки из результатов фМРТ‑сканирования. Описанная здесь система Brain2Music способна генерировать музыку, напоминающую исходную на семантическом уровне. В будущем вполне могут появиться другие исследования, развивающие то, что было сделано здесь. В них, в частности, может быть сделана попытка улучшить соответствие временных характеристик реконструированной и исходной музыки, а так же — попытка генерировать музыку на основе чистого воображения.

О, а приходите к нам работать? ???? ????

Мы в wunderfund.io занимаемся высокочастотной алготорговлей с 2014 года. Высокочастотная торговля — это непрерывное соревнование лучших программистов и математиков всего мира. Присоединившись к нам, вы станете частью этой увлекательной схватки.

Мы предлагаем интересные и сложные задачи по анализу данных и low latency разработке для увлеченных исследователей и программистов. Гибкий график и никакой бюрократии, решения быстро принимаются и воплощаются в жизнь.

Сейчас мы ищем плюсовиков, питонистов, дата-инженеров и мл-рисерчеров.

Присоединяйтесь к нашей команде

Комментарии (1)


  1. KhodeN
    08.08.2023 05:43
    +2

    Без живых примеров статья неполная:

    https://google-research.github.io/seanet/brain2music/