Три исследователя Samsung AI Center в Сколково разработали нейросеть, способную воспроизводить фотореалистичные сцены из видео с нового угла зрения.
Система использует набор точек, которые представляют собой геометрический аналог сцены из видео. Сеть обрабатывает облако точек так, чтобы в итоге получилось изображение с другой точки обзора. Такой подход можно использовать для моделирования изображений из видео без построения сетки.

Как сообщил Дмитрий Ульянов, один из авторов разработки, в комментарии The Next Web, «идея состоит в том, чтобы научиться визуализировать сцену с любой точки зрения».

В настоящее время сеть может обрабатывать небольшие сдвиги в перспективе, имитируя масштабирование или перемещение «камеры». Обычно этот вид рендеринга выполняется с использованием сеток — наложений, которые определяют геометрию объектов в пространстве. Однако такой метод занимает много времени. Система, основанная на нейронной сети, создает результаты за относительно короткое время при сравнительно небольшом количестве ресурсов.

«Традиционные методы фотореалистичного рендеринга, такие как трассировка лучей, на самом деле требуют огромного количества вычислений. Те, кто работает в таких программах, как Blender, 3DS Max и т.д, иногда часами ждут рендеринга. И во многих случаях их задача — воспроизвести реальную сцену. Поэтому они сначала тратят время на моделирование, а затем ждут, пока программа отрендерит каждый кадр. А с такими методами, как наш, вам нужно всего лишь подождать 10 минут, пока сеть изучит сцену. Когда сцена изучена, рендеринг занимает 20 мс на кадр».

Разработка, по словам авторов, пока не завершена. По словам Ульянова, сеть пока может только воспроизвести сцену, не внося в нее каких-либо изменений.

В мае российские разработчики из Samsung AI Center представили нейросеть, которая заставляет изображения человека реалистично двигаться. Сеть Fewshot learning, созданная Егором Захаровым, Егором Бурковым, Виктором Лемпицким и Александром Шишеем, может имитировать движения головы по нескольким фотографиям. Для наиболее реалистичного эффекта необходимо 32 снимка, однако система способна имитировать движения и на основе одного изображения.

Комментарии (1)


  1. HardWrMan
    01.08.2019 06:00
    +1

    Так вот что за технологии в фильмах про шпионов и ЦРУ, когда у агентов в техническом отделе бесконечный идеальный зум с любого исходного изображения, даже если там картинка 100х100 пикселей.