Генерация 3D-моделей из текстового описания и видеозаписей, сделанных на обыкновенный смартфон, конкурент DALL-E, ускоренная GAN-инверсия и многое другое в подборке материалов за декабрь, а также небольшие новости о будущем дайджеста.

GLIDE

Доступность: статья / репозиторий  

OpenAI выложили исходный код GLIDE для генерации высококачественных синтетических изображений из текстовых описаний. Это модель-конкурент их собственной DALL-E, но она построена не на генеративно-состязательных сетях, а имеет в основе диффузионный подход, о котором подробнее писали в июльской подборке. Это отличие позволяет модели быть более производительной, при этом имея в три раза меньше параметров (3.5 млрд параметров против 12 млрд). Архитектура состоит из двух моделей — первая генерирует изображение с разрешением 64×64, а вторая улучшает разрешение до 256×256 пикселей.

HyperStyle 

Доступность: страница проекта / статья / репозиторий / колаб

Реконструкция исходного изображения — важная задача для GAN-моделей. Для того, чтобы манипулировать сгенерированными изображениями, нужно получить код скрытого пространства, который соответствует входному фото. Обычно для этого используют градиентый спуск и без изменения тренировочных параметров итеративно меняют код до тех пор, пока сгенерированное изображение не станет похожим на исходное. Это медленный процесс, который пытаются ускорить различными подходами, в результате чего, как правило, страдает точность.  

Исследователи из Тель-Авивского университета предложили использовать гиперсеть, которая обучается модулировать веса StyleGAN, чтобы точно воссоздавать заданное изображение в редактируемых областях скрытого пространства. Этот подход в десятки раз быстрее и точнее существующих.

GANGealing 

Доступность: страница проекта / публикация в блоге / статья / репозиторий / колаб   

Исследователи из Adobe, MIT и Беркли предложили новый способ решения задачи плотного визуального выравнивания. Алгоритм с помощью пространственного преобразователя обертывает случайные выборки из GAN, обученной на повернутых изображениях, в совместном целевом режиме. 

С помощью этого фреймворка пользователь сможет переместить маску на неровное изображение без необходимости ручного выравнивания, и этот результат покадрово применится к целому видео. Такой подход открывает массу новых возможностей в AR.

PoE-GAN 

Доступность: страница проекта / статья

Не прошло и месяца с релиза интерактивного онлайн-демо для Gaugan2 от NVIDIA, как компания представила новую более производительную генеративную модель для решения той же задачи — создания фотореалистичных пейзажей из текстового описания, набросков и карт сегментации. Подход позволяет синтезировать изображения, обусловленные множественными входными модальностями или любым их подмножеством, даже пустым набором.

Animated Drawings

Доступность: онлайн-демо / публикация в блоге 

Детские рисунки часто выглядят абстрактно и причудливо, что даже человеку не всегда легко понять, где у изображенной фигуры руки и ноги. Для современных моделей, которые превосходно справляются с обнаружением объектов на фотографиях и картинах, это задача остается очень сложной. Исследователи Meta AI представили первый в своем роде способ автоматической анимации нарисованных детьми людей и человекоподобных персонажей.

EG3D

Доступность: страница проекта / статья / репозиторий   

Генерация высококачественных трехмерных объектов с использованием только наборов двухмерных изображений как правило либо требует больших вычислений, либо приближает значения, что сказывается на точности 3D. Данный подход  разделяет генерацию функций и нейронный рендеринг, позволяя использовать самые современные GAN-модели, и имеет гибридную сетевую архитектуру для синтеза изображений высокого разрешения, а также высококачественной трехмерной геометрии. 

BANMo 

Доступность: страница проекта / статья

Обычно при реконструкции артикулируемых 3D-объектов опираются на специализированные датчики (например, синхронизированные многокамерные системы) или предварительно созданные 3D-модели. Эти подходы не позволяет быстро подстраиваться под разнообразие форм. Данный подход позволяет создавать анимированные 3D-модели по наборам видео, снятым на обычную камеру смартфона. 

Dream Field

Доступность: страница проекта / статья 

кресло в форме __________ ; кресло, иммитирующее _________
кресло в форме __________ ; кресло, иммитирующее _________

Подход объединяет мультимодальные представления и нейронный рендеринг для генерации 3D-моделей исключительно из текстовых описаний. В основе модели совмещены NeRF и CLIP архитектуры, что позволяет не опираться на обучающие данные, ограниченные наборами категорий, которые есть в существующих датасетах типа ShapeNet.  


Это был 24-й выпуск дайджеста. Обычно в заключении мы прощаемся с вами до следующей встречи через месяц, но на этот раз традицию придется нарушить. 

На протяжении двух лет мы старались сделать подборку интересным источником знаний о том, что происходит в ML-индустрии. Вскоре мы столкнулись с тем, что задач, которые активно пытаются решить исследователи, не так много, публичных кейсов применения алгоритмов в продакшене еще меньше. Технологии устаревают быстро, а различия между подходами столь тонкие, что донести их в одном абзаце невозможно.    

Мы решили переработать формат нейродайджеста и перейти на квартальный график — следующий выпуск планируется в апреле. Спасибо, что были с нами, не прощаемся!       

Комментарии (6)


  1. TiesP
    18.01.2022 19:13

    Animated Drawings — это что-то необыкновенное! Спасибо за дайджест.


    1. worksolutions Автор
      19.01.2022 09:23

      Еще около года назад было нечто похожее, тоже можно поиграться — http://doodle-rig.glitch.me


  1. dimnsk
    18.01.2022 19:20

    Спасибо
    но почему TF в тегах статьи?


    1. worksolutions Автор
      19.01.2022 09:30

      Так исторически сложилось — во-первых, среди источников блог TensorFlow и Google AI; во-вторых, нередко в репозиториях лежат имплементации на TF или PyTorch (но для PyTorch нет тега).


  1. NewTechAudit
    19.01.2022 06:23

    Спасибо за интересный дайджест! очень полезно.


    1. worksolutions Автор
      19.01.2022 09:31

      Спасибо, надеемся, что в новом формате станет еще интереснее!