Если вы когда‑нибудь пытались «примерить» очки или галстук на своё фото с помощью приложения, вы знаете главный подвох: системе нужно руками подсказать область замены — нарисовать маску или рамку. Для сотен типов предметов это неудобно и плохо масштабируется. OmniTry решает эту проблему иначе: модель сама находит место, куда логично «надеть» объект, и делает это без масок и без лишних подсказок. И главное — работает не только с одеждой, но и с украшениями, сумками, шляпами, очками и даже редкими предметами.

Результаты виртуальной примерки различных носимых предметов, сгенерированные OmniTry, которая поддерживает изображения объектов на белом или естественном фоне и даже результаты примерки в качестве входных данных.:
Результаты виртуальной примерки различных носимых предметов, сгенерированные OmniTry, которая поддерживает изображения объектов на белом или естественном фоне и даже результаты примерки в качестве входных данных.:

Почему это было сложно

Классические VTON‑системы опираются на большие парные датасеты: есть фото человека «до» и корректная примерка «после». Для одежды такие наборы собрать ещё можно, а вот для серёжек, ремней или галстуков в реальных позах — почти нет. Плюс пользователь не обязан быть ретушёром: просить его рисовать маски — путь в тупик. OmniTry задуман как универсальный «anything try‑on»: модель видит фото человека и фото товара, сама решает, где и как разместить объект, и сохраняет всё остальное на снимке.

Как это устроено изнутри

Основная идея — двухшаговое обучение на диффузионном трансформере (DiT). На первом шаге модель учится «чувству локализации»: куда и в каком масштабе логично добавлять предмет. Для этого берут большие непарные портреты «из жизни» и автоматически создают учебные тройки: исходник, версия с «стертым» объектом и короткое описание предмета. Здесь используют перепрофилированную модель инпейнтинга: ей подают нулевую маску, и она, по сути, учится добавлять объект, не зная заранее контуров. Локальные изменения получаются естественными, а остальная часть лица и сцены остаётся нетронутой.

Двухэтапный пайплайн обучения OmniTry: 1) портреты «в дикой среде» — добавление носимого объекта без масок; 2) парные магазинные изображения — контроль согласованности внешнего вида объекта.:
Двухэтапный пайплайн обучения OmniTry: 1) портреты «в дикой среде» — добавление носимого объекта без масок; 2) парные магазинные изображения — контроль согласованности внешнего вида объекта.:

Чтобы модель не «жульничала»

При наивном «стирании» объекта остаются невидимые следы, по которым сеть угадывает место и форму — и перестаёт обобщать. В OmniTry вводят «стирание без следов»: после инпейнтинга картинку слегка перерисовывают в режиме image‑to‑image и мягко смешивают с оригиналом за пределами области. Следы исчезают — модель вынуждена реально учиться локализации по контексту, а не по невольным подсказкам.

Исследование «стирания без следов». (a) При наивном стирании модель учится «коротким путям» и восстанавливает ту же форму и позицию, что и в эталоне. (b) Конвейер стирания без следов: добавляется модель image-to-image, чтобы нарушить следы (отмечено красными рамками).:
Исследование «стирания без следов». (a) При наивном стирании модель учится «коротким путям» и восстанавливает ту же форму и позицию, что и в эталоне. (b) Конвейер стирания без следов: добавляется модель image-to-image, чтобы нарушить следы (отмечено красными рамками).:

Как модель запоминает конкретный товар

Второй шаг посвящён «узнаваемости» вещи: чтобы очки на человеке были именно теми самыми очками с витрины. Здесь добавляют немного парных данных и новую схему внимания. Токены изображения товара подаются в трансформер рядом с токенами человека, но с «защитой» от притоков лишней информации: поток от результата примерки к объекту блокируется, чтобы детали товара не размывались. Для гибкости есть два адаптера LoRA: «локационный» (из первого шага) и «идентичности» (для переноса внешности объекта). Вместе это даёт быстрое дообучение даже при нескольких десятках пар на редкий класс.

Где это проверяли

Команда собрала OmniTry‑Bench — единый бенчмарк из 12 типов объектов: от топов и платьев до обуви, серёг, колец, сумок, ремней, очков, шляп и галстуков. Есть кадры на белом и естественном фоне, товарные фото и даже уже примеренные изображения в качестве входа — всего 360 тщательно подобранных пар. Оценка идёт тремя группами метрик: согласованность объекта (DINO и CLIP), сохранение человека (LPIPS, SSIM) и корректная локализация (детектор + текстовая проверка описаний от мультимодальной LLM).

Визуализация структуры OmniTry-Bench:
Визуализация структуры OmniTry-Bench:

Что получилось на практике

На полном наборе OmniTry достигает M‑DINO 0.6160 и M‑CLIP‑I 0.8327 при очень хорошем сохранении человека (LPIPS 0.0542, SSIM 0.9333) и почти безошибочной локализации (G‑Acc. 0.9972). Это лучше как маск‑фри генераторов, так и многих методов, которым маски рисовали вручную. На подмножестве одежды показатели ещё выше (например, M‑DINO 0.6995), при этом система устойчива к «дикими» фонам и разным форматам входа. Важная находка — эффект few‑shot: благодаря первой стадии достаточно буквально единиц пар на редкий класс, чтобы быстро подтянуть «узнаваемость».

Качественное сравнение OmniTry с существующими методами на нескольких объектах.:
Качественное сравнение OmniTry с существующими методами на нескольких объектах.:

Почему это важно

  • Для онлайн‑ритейла: меньше ручной разметки и быстрее запуск новых категорий.

  • Для креаторов и брендов: естественные примерки на реальных позах без студийных сессий.

  • Для AR/VR: единый фреймворк на одежду, украшения и аксессуары, без зависания на парсерах человека.

  • Для устойчивости к редким классам: «стирание без следов» и двухэтапное обучение помогают обобщению.

Ограничения и взгляд вперёд

OmniTry всё ещё может ошибаться при сильных перекрытиях (например, сложные позы рук с украшениями), с очень мелкими объектами и в экстремальных ракурсах. Длинный «хвост» редких товаров требует активного дообучения, а физика контактов (мятые ткани, тени от серёжек) — более явных 3D‑подсказок. В будущем полезны улучшенные мультимодальные подсказки (промт), учёт материалов и освещения, а также оценка честности и отсутствия предвзятости на разных типах внешности. Код, веса и бенчмарк доступны: https://omnitry.github.io/.

Результаты виртуальной примерки OmniTry, дообученного на необычные классы носимых или удерживаемых в руках предметов.:
Результаты виртуальной примерки OmniTry, дообученного на необычные классы носимых или удерживаемых в руках предметов.:

Как это связано с текущими трендами ИИ

OmniTry опирается на диффузионные трансформеры c позиционными кодировками (RoPE) и rectified flow, комбинирует инпейнтинг с полным вниманием к объекту и аккуратно использует мультимодальные подсказки от MLLM (мультимодальная большая языковая модель) для описаний. Такой «унифицированный» подход хорошо сочетается с мультиагентными системами, где один агент готовит данные и тексты, а другой собирает итоговую примерку. Это пример того, как аккуратная инженерия данных и архитектуры может заменить громоздкие маски и ручные контуры — и сделать виртуальную примерку по‑настоящему универсальной

? Оригинальная статья

***

Если вам интересна тема ИИ, подписывайтесь на мой Telegram-канал - там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.

Комментарии (1)


  1. JBFW
    24.08.2025 07:24

    Почему я не верю в успех всего этого: модель не "примеряет" одежду на человеке, а создаёт "свое представление о том как оно должно сидеть".

    Для понимания разницы можно посмотреть на вон ту картинку, с кучей фото, а конкретно на нижний ряд, где примеряют шорты на фото мужчины: в реальности в зависимости от выбранного размера шорт, особенностей их кроя, и особенностей телосложения они могут выглядеть очень по разному, при этом восприниматься будут в сочетании с остальным прикидом, от обуви до аксессуаров типа рюкзака - и оно должно одно к другому всё подходить.

    А модель просто натянула шорты как на образце на чела в совершенно другой обстановке, и получилось стрёмно, как плавки с галстуком или кеды с костюмом.

    То есть, представления о том, как оно будет выглядеть, с точки зрения "покупаем или нет", она не даёт.

    Тут нужно что-то более навороченное, типа AI-стилист, но этого и люди толком не умеют...