![image](https://habrastorage.org/webt/0s/nf/p9/0snfp9h1slsqqfxsyccewbc1vue.png)
Исследователи Nvidia совместно с Калифорнийским университетом представили модель машинного обучения, которая поможет создать танцевальное видео. Нейросеть предлагает набор танцевальных движений, которые разнообразны, согласованы по стилю и соответствуют ритму музыки.
«Это сложная, но интересная генеративная задача с потенциалом для создания контента в искусстве и спорте, например в сфере театральных представлений, художественной гимнастики и фигурного катания», — заявили авторы исследования.
Модель сначала учится двигаться, а затем сочинять движения. Команда использовала MM-GAN (Generative Adversarial Network for Multi-Modal Distribution). Исследователи брали стиль и ритмы музыки и синтезировали последовательность танцевальных движений рекуррентным образом. Для обучения нейросети они использовали видео трех танцевальных категорий, включая балет, зумбу и хип-хоп. В итоге было синтезировано более 361 000 клипов или около 71 часа танцевального видео.
Для обработки движений применили OpenPose, разработанную Университетом Карнеги-Меллона. Нейросеть превращает исходное видео движения в упрощенную модель человеческого тела, состоящую из ключевых точек, которые соединяются линиями. Затем движения исходника передаются на целевую модель. Работа проводилась с использованием PyTorch и графических процессоров NVIDIA V100.
![image](https://habrastorage.org/webt/li/yk/eg/liykegz9zdj5rrdhptxifpkgvmm.png)
![image](https://habrastorage.org/getpro/habr/post_images/ddd/2cb/259/ddd2cb2597cd47d9a7471d4d6732ef5a.png)
Теперь команда планирует добавить больше танцевальных стилей, таких как поп и партнерский танец. «Качественные и количественные оценки показывают, что синтезированные танцы по предлагаемому методу не только реалистичны и разнообразны, но также соответствуют стилю и ритму», — отметили исследователи.
Исходный код модели опубликовали на GitHub.
Ранее Nvidia представила AI-систему DIB-R, которая построена на основе ML-фреймворка PyTorch и способна преобразовывать двухмерные изображения в трехмерные объекты. Она обрабатывает картинку, а затем преобразует ее в высокоточную 3D-модель с учетом формы, текстуры, цвета и освещения объекта. Задействована архитектура кодера-декодера, которая преобразует входные данные в вектор, используемый для прогнозирования конкретной информации. Вся работа занимает менее чем 100 миллисекунд.
gpyra
Каких нейросетей Nvidia еще не показала?