Некоторые результаты применения метода VRN — Guided на изображениях из набора AFLW2000-3D

В интернете есть ряд стартапов, в том числе российские, которые занимаются восстановлением 3D-структуры лица по фотографиям. Например, VisionLabs со своим приложением Face.DJ умеет выполнять 3D-реконструкцию по единственной фотографии. Такая трансформация (3D-моделирование по фото) имеет практический смысл. После создания модели появляется возможность, например, изменить причёску, примерить очки, отрастить бороду и т. д. Технология может использоваться в системах проверки и распознавания лиц.

Но теперь бизнес подобных стартапов под угрозой: их работу легко выполняет новая нейросеть VRN (Volumetric Regression Network), которую выложили в открытый доступ на GitHub. Прямо на сайт вы можете загрузить свою или любую другую фотографию — и нейросеть осуществит преобразование в онлайне за несколько секунд (демо).

3D-реконструкция по 2D-фотографии считается одной из фундаментальных проблем машинного зрения в силу своей чрезвычайно сложности. Большинство нынешних систем требует для работы наличия множества фотографий одного лица с разных ракурсов. По словам авторов новой научной работы, существующие модели в целом используют сложный и неэффективный конвейер обработки данных для построения модели и подгонки результата. Как выяснилось, свёрточная нейросеть выполняет работу гораздо проще и эффективнее, чем разработанные человеком модели и алгоритмы.

На иллюстрациях показано, что нейросеть VRN справляется с обработкой различных выражений лиц под произвольным углом по отношению к объективу камеры — и работает по единственной фотографии. Ей не мешают и посторонние объекты на фоне лица (очки, чупа-чупс).

Авторы этой разработки под руководством Аарона Джексона (Aaron Jackson) из Ноттингемского университета (Великобритания) применили очень простой подход к вокселизации изображений. Он лишён многих недостатков, присущих другим методам 3D-реконструкции (в том числе 3D Morphable Model — 3DMM). В общем виде суть нового метода VRN изображена на иллюстрации ниже.


(а) Предлагаемая Volumetric Regression Network (VRN) принимает в качестве входящих данных RGB-изображение и напрямую возвращает 3D-объёмные выходные данные, полностью пропуская подгонку 3DMM. Каждый прямоугольник — это остаточный модуль из 256 признаков. (b) Предлагаемая архитектура VRN - Guided сначала определяет 2D-проекцию по 3D-ориентирам и стыкует её с оригинальным изображением. Этот стек отправляется в сеть реконструкции, которая напрямую возвращает объём. (с) Предлагаемая архитектура VRN - Multitask возвращает и объёмное 3D-изображение лица, и набор разреженных 3D-ориентиров.

Авторы исследования доказали, что свёрточная нейросеть (CNN) способна успешно генерировать 3D-модели из фотографий после обучения на наборе данных, который содержит фотографии и соответствующие им 3D-модели. В данном случае обучение проводили на 60 000 двумерных фотографиях лиц из базы 300W и соответствующих им 3D-сетках, полученных с помощью 3DMM.

Как выяснилось, для выдачи удовлетворительного результата нейросеть не нуждается в использовании модели 3DMM и успешно выполняет прямое преобразование из 2D в 3D.

Дееспособность модели доказана на большом количестве произвольных фотографий, которые пользователи загружают через интернет (демо). Судя по всему, метод VRN превосходит любые другие системы 3D-реконструкции по единственной фотографии. К настоящему моменту демо-версия обработала уже более 400 000 произвольных фотографий из интернета.

Нейросеть можно запустить и локально на собственном компьютере. Код программы опубликован на GitHub. Для работы требуется установленный фреймворк для научных вычислений Torch7, более-менее производительный графический процессор Nvidia с поддержкой CUDA. Программа тестировалась в операционной системе Linux и автор понятия не имеет, как она работает под Windows. Понадобятся ещё MATLAB, bash, ImageMagick, GNU awk, Python 2.7 (+ visvis, imageio, numpy).

Научная статья с описанием нейросети опубликована 22 марта 2017 года (arXiv:1703.07834, pdf).

Комментарии (10)


  1. YMA
    28.09.2017 14:53
    +3

    Нейросеть VRN восстанавливает лицо по фотографии, 3d-принтер FDN печатает модель в виде тонкой латексной маски, а потом сотрудник FBI берет iPhone X и разблокирует.


    1. A1exXx
      28.09.2017 15:24
      +2

      Тише, тише, это в новой серии про Борна будет, что за спойлер раньше анонса.


      1. n1nj4p0w3r
        29.09.2017 04:08

        Это было еще в «Миссия невыполнима» 1996 года


    1. SLY_G
      28.09.2017 16:25

      *FDM


    1. Landgraph
      29.09.2017 14:24

      Видимо самым популярным аксессуаром для ипхон х будет наклейка на камеру фасе ид, ну или набор для аппаратного высверливания, чтобы наверняка.


  1. G1lgamesh
    28.09.2017 15:24

    допилить и совместить с arxiv.org/pdf/1612.00523v1.pdf Чую, при правильном использовании, у одной всеми любимой области откроется второе дыхание.


  1. DEM_dwg
    28.09.2017 16:06

  1. SLY_G
    28.09.2017 16:24

    Прекрасно распознала. Круто.


  1. Tremere
    29.09.2017 04:08

    нейросеть не сгенерировала горбинку на носу у меня


  1. joker2k1
    29.09.2017 23:08

    Ждем нейросеть, которая будет восстанавливать 3д-модель лица человека из днк.