Исследователи компании Google Джонн Флинн, Айван Нюландер, Джеймс Филбин и Ной Снейвли создали алгоритм, который способен комбинировать снимки из сервиса обзора панорамных видов улиц Street View в гладкие видеоролики с едва заметными артефактами. Алгоритм получил название DeepStereo, пример его работы представлен выше. Вероятное использование созданной технологии включает создание простых анимаций, обработку изображений, кино и виртуальную реальность.

Не всегда возможно адекватно оценить некоторое место только по картам или цифровым снимкам. Посмотреть на улицу с высоты чуть выше человеческого роста помогают сервисы по типу Google Street View. Но это склеенные в панораму фотографии, а не видеоролики.

Если нужно создать анимацию движения вперёд из отдельных снимков, то решение просто проиграть последовательность изображений не подойдёт — оно получится слишком быстрым, поскольку картинки будут меняться с частотой как минимум 24 кадра в секунду. В случае проезда по широкой ровной дороге или шоссе можно создать неплохую анимацию в стиле замедленной съёмки. Но в Google Street View есть панорамы музеев и витиеватых улочек — таймлапс из быстрой смены кадров здесь не получится. Нужны недостающие изображения между снимками. Этим и занимается созданный алгоритм.

Команда исследователей использовала обширные знания компании в обучении алгоритма. На входе имеется набор изображений с некоторых точек, а целью является создание новых кадров с других точек. Точное решение этой задачи требует построения 3D-модели окружения, что чаще всего невозможно из-за преград. Задача не нова. Некоторые предыдущие методы обладают проблемами, которые приводят к появлению разрывов возле барьеров, алиасингу и размытию. Особенные сложности вызывают деревья и другие объекты, отдельные элементы которых могут закрывать вид.



Новый метод команды Флинна использует обучение алгоритма компьютерного зрения для того, чтобы он мог понять, какие объекты должны быть в недостающих кадрах. Для обучения использовались наборы изображений с двигающегося автомобиля. Исследователи заявляют, что объем базы для обучения составил 100 тысяч наборов изображений.

Затем проводилось тестирование с использованием последовательностей из трёх снимков из Google Street View. Алгоритм заставляли обработать два крайних изображения и представить вариант промежуточного. Сравнение с оригиналом позволяло оценить работу.

Конечный результат DeepStereo команда называет правдоподобным. С первого взгляда его не так легко отличить от реальной фотографии. Заметные артефакты включают лёгкую потерю разрешения и пропадание тонких структур на переднем плане. Объекты со сложной структурой, которая перекрывает свои собственные детали, могут появляться в размытом виде. Алгоритм также не в состоянии создать поверхности, которых нет в оригинальных снимках. Перемещающиеся объекты (пешеходы, машины) намеренно размыты, чтобы создать эффект движения.

Для рендеринга требуется внушительная вычислительная мощь. Для создания лишь одного изображения разрешением 512?512 пикселей требуется примерно 12 минут работы многоядерной системы с неназванными техническими характеристиками. Создание изображений большего разрешения требует слишком много оперативной памяти. Исследователи выражают надежды по оптимизации алгоритма с возможностью сокращения времени рендеринга до нескольких минут или даже секунд при использовании процессоров видеокарт. В перспективе при значительной доработке функционирование алгоритма на GPU возможно даже в реальном времени.

По материалам текста исследования и MIT Technology Review. arXiv:1506.06825 [cs.CV]

Комментарии (5)


  1. macik_spb
    16.07.2015 18:42

    Интересное направление.
    Перекликается с темой создания нейосетями произведений исскуства.


  1. DjOnline
    16.07.2015 22:50
    +2

    В комментах на ютубе есть ссылка на похожую технологию от Microsoft photosynth.net/preview/view/8474f279-0e22-49d0-9c15-049490717fc5


  1. imater
    17.07.2015 09:58
    +2

    Вот бы объединить этот алгоритм с беговой дорожкой, чтобы можно было пробежаться по Парижу и другим интересным местам.


  1. gro
    17.07.2015 12:10
    +1

    Почему в конце видоса тачка едет, а пешеходы застыли?


    1. leemuar
      20.07.2015 15:41
      +1

      «Застыли» только пешеходы у перехода. Но может быть они просто не особо двигались, ожидая зеленого на светофоре? Потому что движение пешеходов, не стоящих у перехода, хорошо видно (левая улица)