Привет! Меня зовут Александр Устюжанин, и я разработчик в команде YandexART. Недавно я побывал в Милане на одной из крупнейших международных конференций по компьютерному зрению — ECCV (European Conference on Computer Vision). В этом году она проходила уже в 18-й раз, и от Яндекса я приехал не один, а в составе целой делегации специалистов по CV из разных команд. Ребята помогли собрать материалы для этой статьи, и по ходу повествования я всех обязательно представлю.
Конференция проходила с 29 сентября по 4 октября. Исследователи подали на ECCV 8585 (!) статей, а прошли отбор 2395 — получается, чуть меньше 30%. Такие масштабные конференции всегда привлекают внимание людей как из академии, так и из индустрии: от больших компаний до стартапов — люди приезжают за новой информацией, нетворкингом и атмосферой большой научной тусовки.
Программа была насыщенной, но при этом комфортной — начинали в 9 утра, заканчивали в 18 — оставалось достаточно времени на активности вне расписания. Конечно, невозможно ознакомиться с тысячами докладов, поэтому мы сверялись с расписанием и заранее решали, кто куда хочет сходить. В статье я поделюсь как своими находками, так и отзывами коллег — благодаря этому, как кажется, обзор получился разнообразным и даёт неплохое представление о том, что происходит в мире CV прямо сейчас. Поехали!
Общие впечатления и атмосфера
Для начала хочется отметить, что Милан — красивый город и конференция здесь — это тоже красиво. ECCV 2024 проходила в футуристичном MiCo Milano. Совсем немного полюбуемся видами:)
…и прогуляемся по нулевому этажу, где расположились стенды компаний.
Например, здесь демо с приложением AI3D Sculpt для Apple Vision Pro, а корги — объект, который моделируют. Он стал настоящей звездой конференции, но и звёздам нужен отдых.
Ну и конечно, в 2024 году ни одна уважающая себя конференция в сфере высоких технологий не обходится без роботов.
Среди посетителей был замечен Ринон Гал (на фото справа) — очень известный исследователь в кругах адептов персонализации.
В общем, мне скучать не приходилось. Очень понравилось общаться с коллегами со всего мира на постер‑сессиях, задавать вопросы, обмениваться опытом и делиться знаниями — это очень ценный опыт. Форматы были стандартными для конференций такого уровня:
кейноуты;
устные презентации (т. н. оралы) с избранными статьями;
постер‑сессии, где одновременно много авторов представляют свои работы на стендах, а мы ходим вокруг и задаём вопросы;
воркшопы для любителей погрузиться в узкую тему;
туториалы, в которых подробностей ещё больше.
А теперь — к хардкору. Обсудим тренды в сфере компьютерного зрения и статьи, которые нам понравились.
Популярные темы и тренды
Сначала расскажу о самых популярных направлениях по моему мнению, а дополнить раздел трендами мне помог Сергей Кастрюлин — коллега из Yandex Research.
Neural 3D Reconstruction and Rendering
Наверное, самое популярное направление на ECCV 2024! Задача заключается в трёхмерном моделировании сложных сцен и объектов с последующей генерацией плоской картинки. Подобные нейронные сети способны по одной входной фотографии синтезировать фотореалистичные генерации объекта, но с другого ракурса (Novel View Synthesis). Например, Stability AI представили работу SV3D, в которой они адаптируют консистентность генераций своей диффузионной видеомодели под 3D‑задачу. Возможность нарисовать текстуру для 3D‑модели или воссоздать физическое освещение сцены упрощает жизнь 3D‑дизайнеров, сокращает финансовые затраты на покупку 3D‑ассетов и позволяет быстро прототипировать идеи.
В работе художника поможет технология FlashTex, которая посредством классического подхода Score Distillation Sampling (SDS) для 2D‑диффузии с поправкой на параметризацию освещения позволяет реалистично текстурировать 3D‑модели. Также интересна работа LGM, которая поднимает проблему неэффективности NeRF представления сцены и SDS‑based‑оптимизации для 2D‑диффузии и предлагает напрямую предсказывать нейросетью 3D‑гауссианы (из 3D Gaussian Splatting), которые бы при дифференцируемом рендеринге воспроизводили multi‑view‑генерации предобученной диффузионной модели.
Эти технологии находят применение в дополненной реальности, CGI для кинематографа и рекламы, видеоиграх. Очевидно, что будущее не ограничивается плоскостью: переход в трёхмерное пространство — естественный шаг в сторону развития технологий компьютерного зрения, такой же, как и добавление временной составляющей (видео, анимации). Кажется, что основная сложность заключается как раз в совмещении объёма и времени. Пример подхода к проблеме — работа Generative Camera Dolly, решающая задачу Novel View Synthesis для видеоряда.
Однако одна из проблем neural (volume) rendering — непрактичность внутреннего представления 3D‑сцены: приходится прибегать к классическим алгоритмам вроде Marching Cubes, чтобы оценить полигональную сетку 3D‑модели. Amazon в своей работе DPA‑Net задаёт тренд будущего развития 3D и предлагает перевести внимание сообщества от neural rendering в сторону neural modeling — более практичного направления для индустриальных задач в 3D.
Dense visual SLAM
SLAM (Simultaneous Localization and Mapping) направлен на динамическое построение карты неизвестного окружения, получение оценки положения и ориентации агента в нём. Этот процесс играет ключевую роль в сферах робототехники, автономного транспорта, дополненной и виртуальной реальности. Простыми словами — нейросети синтезируют окружение с различных сенсоров для получения стратегии навигации и возможности взаимодействовать с окружением.
Общий тренд в этой области обусловлен адаптацией нашумевшей технологии 3D Gaussian Splatting для задачи SLAM, с чем успешно справляются GS‑ICP SLAM и CG‑SLAM. Современные самоуправляемые автомобили, складские роботы, очки виртуальной реальности — это инструменты, которые материализуют и другие похожие современные технологии. Например, для задачи Autonomous Driving используется VLM для улучшения работы планировщика, а в сфере робототехники и технологий дополненной реальности исследователи из Цюрихского университета представили любопытную работу Reinforcement Learning Meets Visual Odometry, связывающую RL и Visual Odometry — подзадачу SLAM. Исторически компьютеры помогают людям в виртуальном, информационном мире, сейчас же технологический прогресс позволяет им осваивать и задачи реального физического мира, а для этого нужно учить компьютер ориентироваться в пространстве.
Video Manipulation and Understanding
Непреодолимое желание генерировать видео захватило всех сразу же после ошеломительного успеха диффузионных моделей в задаче генерации изображений. Поначалу получались короткие анимации, затем прогресс дошёл и до генерации полноценных и консистентных коротких видео. Это могут делать Sora от OpenAI, Lumiere от Google и Movie Gen от Meta*, публично представленная в день окончания ECCV, но не участвовавшая в конференции.
Однако эти модели проприетарны, а обучать собственные может себе позволить далеко не каждый. Пока что не стоит ожидать частых пополнений среди генеративных моделей, особенно в открытом доступе, поэтому логично сфокусироваться на модификации и анализе существующих решений.
Meta* представила модель Emu Video Edit (EVE) для редактирования видео. Она основана на обучении адаптеров по редактированию каждого отдельного кадра и сохранению консистентности кадров между собой. Она дистиллирована с их же модели Emu Video. Занимательной оказалась работа по image‑to‑video‑генерации PhysGen, в которой источником динамики является самая настоящая физическая симуляция отсегментированных с изображения объектов.
Чтобы понять, что происходит на видео, исследователи прибегают к мультимодальности. Так, для ответа на вопросы по видео (VQA) Google обучает свой аналог BLIP2. Похожим образом решают задачу и в работе LongVLM, акцентируя внимание на иерархической локализации внутренних представлений кадров видео во времени.
Multimodality in Vision
Конечно, не остались без внимания технологии на стыке визуального домена с другими — всё, что объединяет разные модальности, вызывает у исследователей живой интерес. Самое популярное сочетание, конечно же, Vision‑Language Models (VLMs). Заявили о себе Ai2 с работой MOLMO — семейство VLM в открытом доступе, флагман которого, Molmo 72B, догоняет гиганта GPT-4o и обходит Gemini 1.5 Pro и Claude 3.5 Sonnet по ELO (Human Preference Evaluations).
Интересна также BRAVE — работа от Google о методе агрегации картиночных кодировщиков VLM в рамках одной модели, превосходящей по качеству исходные компоненты. Интересное исследование было сделано и в области video‑audio в работе Action2Sound. Она посвящена генерации аудиодорожки для входного видео с фокусом на корректной озвучке физических действий участников ролика, которые явно выделяются на фоне окружающего звука (ambient sound).
Ещё немного о трендах
По наблюдениям Сергея, генеративные модели пока составляют небольшой процент статей на конференции — примерно десятую часть. И это несмотря на то, что хайп в медиапространстве очень большой. Тем не менее, приезжая на ECCV, участники видят множество работ совсем по другим темам: сегментация, формирование и обработка сигналов и подобные «вещи в себе».
VLM становятся всё популярнее, что и я тоже заметил. При этом происходит своеобразная передача опыта из домена в домен. Есть популярнейшая область больших языковых моделей, и, поскольку там сосредоточено огромное количество исследований, люди заимствуют и переиспользуют то, что уже сделано в сфере LLM. Например, это касается исследования особенностей больших моделей: изучают, как модели умеют рассуждать, что они понимают про реальный мир, какие у них есть bias и т. д.
Ещё одна важная и популярная история — удаление концептов. Современные модели настолько мощные, что выучивают вообще всё, что видят. И некоторые вещи оказываются неприемлемыми и опасными — их нужно убирать. Получается такой Machine Unlearning, когда исследователи заставляют модель забыть то, что она знала.
SSL‑модели также были на конференции, но в очень небольших количествах, хотя совсем недавно это направление тоже было на пике хайпа. А text‑to‑image‑генерацию теснят уже упоминавшиеся видео и 3D — на эти темы много постеров и оралов. Нельзя сказать, что проблема генерации изображений решена и может считаться закрытой, тем не менее в этом направлении сделано уже очень много, и внимание исследователей начинает перетекать в другие области. Что касается вспомогательных модальностей — их всё чаще добавляют в генеративные модели, например генерируют не просто изображение, а нечто похожее по структуре на карту глубины или представляют объекты на нём в виде сегментационной маски.
Совсем немного сожалений
Мы с Сергеем сошлись на том, что на ECCV 2024 не хватало новых общих подходов. Было очень много частностей, локальных улучшений, совершенствования уже существующих технологий. Авторы статей совершенствуют архитектуры, пытаются выжать как можно больше из диффузионок и других популярных решений, но чего‑то прорывного, за чем многие и едут на такие большие конференции, мы не увидели.
С другой стороны, падает интерес к очень узким нишевым топикам. Например, был всего один постер о IQA/IAA, и, что удивило, совсем не было новых датасетов и бенчмарков, а ведь исследования в этой сфере тоже двигают отрасль в целом вперёд.
Добавлю, что мне не хватило работ по персонализации. Адаптация под конкретный объект совершенно необходима для целого ряда практических применений нейросетевых технологий. Пока что они упираются в неизбежный компромисс между скоростью адаптации модели и визуальным соответствием заданному объекту. Получается, что свежие исследования уже направлены в сторону сложных модальностей вроде видео и 3D, оставляя в стороне вопросы продуктовой применимости.
Обзоры интересных статей
В подготовке этой части, самой интересной и технически насыщенной, мне помогали коллеги: Алиса Родионова, Дарья Виноградова и Сергей Кастрюлин.
3D
DPA‑Net: Structured 3D Abstraction from Sparse Views via Differentiable Primitive Assembly
Современные text‑to-3D и image‑to-3D‑модели не очень хорошо понимают физику — они рисуют неправильные тени и формы объектов. Исследователи предлагают разные подходы к решению этой проблемы: например, использование диффузии и технологий neural rendering вроде NeRF или 3D Gaussian Splatting. Автор же представленной работы утверждает, что для понимания физики требуется строить сетку с 3D‑представлением сцены через примитивы.
FlashTex: Fast Relightable Mesh Texturing with Light ControlNet
Работа посвящена генерации text‑to‑texture для трёх моделей. Они фиксируют регулярные параметры освещения и позы камеры, а также три типа материалов. Затем рендерят мэш входного объекта при вышеописанных условиях для каждого материала, подают в ControlNet в качестве кондишена и учат текстурировать мэш в 2D. Затем авторы представляют материал в виде multi‑resolution hash grid и проводят оптимизацию материала с классическими лоссами: реконструкция по выходам ControlNet Light для регулярных параметров света и камеры и SDS — как у DreamFusion — для непрерывных параметров.
Для консистентности multi‑view‑генерации авторы подают в ControlNet коллаж сразу с несколькими параметрами камеры. Параметризация ControlNet по свету позволяет отделить материал модели от освещения для генерации более реалистичной текстуры.
Stability AI предлагает модель image‑to-3D. Они используют image‑to‑video‑модель Stable Video и файнтюнят её на задачу генерации видео с вращением виртуальной камеры вокруг заданного на изображении объекта. Подобно ControlNet Light подходу, здесь добавляют в сам unet сферические параметры камеры в качестве кондишена, а также clip embedding входной картинки. Далее модель обучают на регулярной сетке азимутов и постоянном значении элевации, а только на следующем этапе переходят на непрерывную параметризацию с произвольными значениями. Праеры из Stable Video позволяют получать консистентные novel views.
Чтобы приблизиться к получению 3D‑мэша, авторы предлагают двухэтапный пайплайн: сначала обучить NeRF на задачу реконструкции (без SDS) поверх выходов зафайнтьюненной SV под орбитальную съёмку на регулярных позах камеры. Затем, уже на втором этапе, используется Masked SDS на непрерывных позах. Причём маскирование происходит по не наблюдаемым с регулярных ракурсов частям мэша. Это важно, чтобы не произошла деградация (блюр) наблюдаемых частей.
Авторы также говорят о проблемах baked‑in lighting. Чтобы их решить, простую illumination‑модель обучают на «распутывание» цвета и освещения. Авторы сравнивают multiview‑генерации с Zero 1-to-3 и уверенно их побеждают.
Synthetic to Authentic: Transferring Realism to 3D Face Renderings for Boosting Face Recognition
Авторы предлагают «механизм реалистичности», который позволяет сократить доменный сдвиг между реальными и синтетическими изображениями людей. В итоге — более высокие результаты на исходной задаче по сравнению с обучением на синтетике и без преобразований. На некоторых бенчмарках использование такого механизма сравнимо даже с обучением на реальных данных.
Neural Representation
Рассказ по мотивам воркшопа Knowledge in Generative Models
Авторы задаются вопросом: как в сети кодируются знания о каком‑либо визуальном образе? Классический способ — сегментировать объект на изображении, а потом посмотреть активации нейронов, которые ведут к пикселям внутри маски. Однако этот способ обнаруживает далеко не всю информацию, которой обладает модель.
Предлагается взять множество «картиночных» моделей: генеративную StyleGAN2, дискриминативные DINO VIT, ResNet и так далее, — а затем посмотреть на одних картинках схожесть в послойных активациях. Для этого генерируем картинку через StyleGAN2, а затем прогоняем через дискриминативные модели. Все найденные пары — и есть искомые знания в модели. Далее эти Rosetta‑нейроны можно использовать в инверсии и редактировании. Но это для ганов.
Для диффузии эта штука не работает, потому что активации нейронов меняются со временем. Поэтому в качестве постоянной компоненты предлагают использовать веса модели. Следует файнтюнить модель на разные концепты, потом рассматривать полученные веса как точку в пространстве весов. Здесь можно найти интересную линейную делимость по некоторым признакам, а также получается непрерывно сэмплить (близкие точки семантически похожи) картинки.
Investigating Style Similarity in Diffusion Models
Авторы стремятся понять, умеет ли модель воспроизводить стили художников из реально написанных ими картин. Классические SSL‑методы вроде CLIP кодируют семантическую информацию и, соответственно, для такого анализа не подходят. Поэтому авторы сначала обучают модельку для выделения стилистических эмбедов и даже выкладывают её.
Дальше они берут LAION‑aesthetics, выделяют оттуда сабсет на 12 миллионов пар с эстетическим скором более шести и парсят так, чтобы выделить информацию о стилях (на основе кепшенов). Например, если в кепшене есть что‑то вроде «in a style of van Goth», то они кладут семпл в класс «Винсент ван Гог». Разметка получается шумная, тем не менее полученный сабсет называют LAION styles.
Следом авторы берут стили из этого датасета и смотрят, насколько стилевые эмбеды картинок в датасете похожи на стилевые эмбеды генераций. Пробегая по большому количеству классов, используют это как оценку умения моделей генерировать изображения и подражать разным стилям.
В результате модель выдаёт лучшие показатели и в оценке соответствия длинных текстов изображению, и в качестве текстового энкодера для text2image‑диффузии.
Long‑CLIP: Unlocking the Long‑Text Capability of CLIP
Сначала авторы определяют, что эффективная длина последовательности в клипе составляет порядка 20 токенов. Этого очень мало для некоторых приложений — например, для ретривала или определения схожести картинки с длинными текстами. А ещё клипы часто используются в качестве текстовых энкодеров для text‑conditional генеративных моделей, где такая длина последовательности тоже недостаточна.
Авторы статьи пробуют дообучить модель на более длинных последовательностях, но главный минус такого подхода — сложности с выделением важного. Модель начинает воспринимать все атрибуты как равнозначимые и реагирует на мельчайшие изменения в каждом из них. Чтобы решить эту проблему, авторы предлагают двухэтапный тюнинг:
тюнинг на длинных кепшенах (fine‑grained tuning);
извлечение главных компонентов изображений и текстов с помощью PCA и элайнмент их между собой обычным контрастив‑лоссом (coarse‑grained tuning).
Text-to-image Diffusion Models
TurboEdit: Text-Based Image Editing Using Few-Step Diffusion Models
Статья о редактировании реальных изображений при помощи text2image‑диффузионных моделей. В основе работы лежат два наблюдения:
При равных сидах редактирование длинных текстовых промптов заметно меньше влияет на изменение общей композиции генерации, в отличие от манипуляций с короткими промптами. Это объясняется меньшей магнитудой изменения в cross‑attention‑слоях.
Одношаговые генеративные модели вроде SDXL Turbo не сталкиваются с трудностями в оптимизационной задаче инверсии, а также позволяют проводить манипуляции с attention‑картами для редактирования изображения.
Совмещение этих идей даёт оптимизационный процесс, который учит инвертирующую модель. С её помощью получается начальный шум, для которого запускается процедура расшумления исходной моделью с редактированным промптом, чтобы получить редактированную генерацию.
Для улучшения реконструкции предлагается два подхода. Вместо одношаговой модели обучать многошаговую refiner‑модель в стиле ReStyle. Либо можно маскировать attention‑карты для локализации изменений.
EDICT: Exact Diffusion Inversion via Coupled Transformations
Авторы предлагают новый семплер для редактирования картинок на основе текстовой инверсии. Суть в том, что для интегрирования используют результаты предыдущего и следующего шагов. При этом не добавляют вычислительного оверхеда, потому что результаты и так получаются естественным образом. В сравнении с DDIM‑инверсией такой подход даёт почти идеальное восстановление.
Be Yourself: Bounded Attention for Multi‑Subject Text‑to‑Image Generation
Работа о multi‑subject grounded генерации. Поднимается всем известная проблема «запутанности» семантически похожих концептов, происходящей в аttention‑блоках. Авторы предлагают использовать пространственную информацию карт внимания не только для маскирования «соседних» конкурирующих токенов, но и для guidance во время инференса модели. А кроме того — смещать диффузионную траекторию по направлению, максимизирующему концентрацию attention в заданном bounding box для соответствующего объекта в промпте.
ReGround: Improving Textual and Spatial Grounding at No Cost
Статья, в основе которой архитектурный анализ сети. В качестве базовой авторы рассматривают очень популярную в своё время модель GLIGEN — она позволяет добавлять дополнительное условие на пространственное расположение объектов на генерации посредством bounding box.
Исследователи обратили внимание на последовательный характер внедрённого в сеть блока gated self‑attention, который отвечает за grounding‑токены. Подобный архитектурный выбор нарушает ожидаемое распределение входа в cross‑attention‑модуль и тем самым нарушает текстовую составляющую условной генерации.
Простая перестановка с последовательного соединения на параллельное решает проблему и позволяет найти компромисс для соответствия обоим условиям.
ReGround улучшает архитектуру модели GLIGEN, которая, в свою очередь, является частью других, более сложных моделей. Поэтому если улучшить GLIGEN, то автоматически улучшатся и все существующие работы, использующие его в качестве составляющей.
В статье рассматривается метод ускорения генераций с прицелом на продакшн и способом, основанном на кешировании некоторых x_t‑генераций отдельных концептов. Суть в том, чтобы брать комплексные длинные промпты, разбивать их на концепты, отфильтровывать невизуальные, а потом делать частичную генерацию до шага t и помещать результат в базу.
Для генерации картинки по полному промпту нужные частичные генерации складывают, а остаток траектории — генерируют отдельно. Авторы заявляют, что ускорение составляет в среднем 30% без сильной потери в качестве.
Video Understanding
VideoAgent: A Memory-augmented Multimodal Agent for Video Understanding
Авторы предлагают использовать мультимодальный агент для анализа длинных видео. Они наделяют его памятью нескольких типов.
Во‑первых, это текстовые описания каждого двухсекундного клипа (здесь используют модель LaViLa). Во‑вторых, это описания на уровне эмбеддингов: самого клипа (тут берут ViCLIP) и полученного текстового кепшна (text‑embedding-3-large от OpenAI). И память о конкретных затреканных объектах: их эмбеддинги для реидентификации (из CLIP) и моменты появления в видео (отслеживаются ByteTrack) складываются в SQL‑базу.
Используя такую память, агент может:
описывать двухсекундные фрагменты видео;
искать клип по текстовому запросу с описанием происходящего — используются текстовые и видеофичи клипов, чтобы определить сходство с текстовым запросом;
отвечать на вопрос по видео — выделяется наиболее релевантный фрагмент и запускается Video‑LLaVA;
рассказывать о качествах конкретных объектов — например, их количестве. Здесь происходит поиск по фичам в трекинговой базе и отправка соответствующего SQL‑запроса.
Агент сам выбирает наиболее подходящее действие с помощью дополнительной LLM. Система выглядит тяжёлой, учитывая то, сколько моделей для неё нужно. Однако она позволяет побить на известных QA‑видео‑датасетах крутые модели вроде Video‑LLaVA, LaViLa и InternVideo.
ECCV 2024 Best Paper Award
Minimalist Vision with Freeform Pixels
По‑настоящему low‑level‑решение предложили в статье, которая получила награду Best Paper Award. Авторы создали прототип полностью автономной по электропитанию камеры.
Вместо обычных матриц в камере используются 24 фотодиода. Перед каждым из них установлена маска‑фильтр, которая выступает первым слоем нейросети. Оптическая передаточная функция маски зависит от задачи, под которую обучена камера.
По сути первый слой обеспечивает произвольную форму для каждого пикселя — против фиксированной квадратной у традиционных камер. А последующие слои выводят результат задачи. Так авторы демонстрируют возможность мониторинга рабочего пространства и оценки дорожного трафика при помощи всего лишь 8 пикселей из 24.
Кроме того, камера хорошо показала себя в задаче оценки освещённости помещения. Используя те же 8 пикселей, она сумела определить, какие из источников света были включены в каждый конкретный момент. При этом ни один из источников не был виден камере напрямую — она собирала информацию исходя из состояния помещения.
Помимо низкого энергопотребления, такой подход позволяет обеспечивать конфиденциальность людей в кадре, так как записываемой оптической информации недостаточно для восстановления деталей изображения. Прототип камеры оснащён микроконтроллером с Bluetooth. А с четырёх сторон расположены солнечные панели для получения электроэнергии.
Вместо заключения
Такой нам запомнилась ECCV 2024 — огромная конференция, тысячи докладов и ресёрчеров, живое комьюнити, в котором, пусть порой сложно и долго, но рождаются новые подходы и решения. Прогресс не остановить! И здорово быть его частью. Видеть, что мы в Яндексе занимаемся актуальными задачами. Будет интересно вернуться на конференцию в 2025 году и посмотреть, изменится ли технологический ландшафт. Появятся ли новые архитектуры? Какие хайповые темы уйдут в тень, а что, наоборот, наберёт популярность? Приедет ли на ECCV корги или организаторы решат привезти целую ламу? Увидим!
*Компания Meta признана экстремистской организацией, а её продукты, Facebook и Instagram, запрещены на территории РФ