
Если вы когда‑нибудь пытались «примерить» очки или галстук на своё фото с помощью приложения, вы знаете главный подвох: системе нужно руками подсказать область замены — нарисовать маску или рамку. Для сотен типов предметов это неудобно и плохо масштабируется. OmniTry решает эту проблему иначе: модель сама находит место, куда логично «надеть» объект, и делает это без масок и без лишних подсказок. И главное — работает не только с одеждой, но и с украшениями, сумками, шляпами, очками и даже редкими предметами.

Почему это было сложно
Классические VTON‑системы опираются на большие парные датасеты: есть фото человека «до» и корректная примерка «после». Для одежды такие наборы собрать ещё можно, а вот для серёжек, ремней или галстуков в реальных позах — почти нет. Плюс пользователь не обязан быть ретушёром: просить его рисовать маски — путь в тупик. OmniTry задуман как универсальный «anything try‑on»: модель видит фото человека и фото товара, сама решает, где и как разместить объект, и сохраняет всё остальное на снимке.
Как это устроено изнутри
Основная идея — двухшаговое обучение на диффузионном трансформере (DiT). На первом шаге модель учится «чувству локализации»: куда и в каком масштабе логично добавлять предмет. Для этого берут большие непарные портреты «из жизни» и автоматически создают учебные тройки: исходник, версия с «стертым» объектом и короткое описание предмета. Здесь используют перепрофилированную модель инпейнтинга: ей подают нулевую маску, и она, по сути, учится добавлять объект, не зная заранее контуров. Локальные изменения получаются естественными, а остальная часть лица и сцены остаётся нетронутой.

Чтобы модель не «жульничала»
При наивном «стирании» объекта остаются невидимые следы, по которым сеть угадывает место и форму — и перестаёт обобщать. В OmniTry вводят «стирание без следов»: после инпейнтинга картинку слегка перерисовывают в режиме image‑to‑image и мягко смешивают с оригиналом за пределами области. Следы исчезают — модель вынуждена реально учиться локализации по контексту, а не по невольным подсказкам.

Как модель запоминает конкретный товар
Второй шаг посвящён «узнаваемости» вещи: чтобы очки на человеке были именно теми самыми очками с витрины. Здесь добавляют немного парных данных и новую схему внимания. Токены изображения товара подаются в трансформер рядом с токенами человека, но с «защитой» от притоков лишней информации: поток от результата примерки к объекту блокируется, чтобы детали товара не размывались. Для гибкости есть два адаптера LoRA: «локационный» (из первого шага) и «идентичности» (для переноса внешности объекта). Вместе это даёт быстрое дообучение даже при нескольких десятках пар на редкий класс.
Где это проверяли
Команда собрала OmniTry‑Bench — единый бенчмарк из 12 типов объектов: от топов и платьев до обуви, серёг, колец, сумок, ремней, очков, шляп и галстуков. Есть кадры на белом и естественном фоне, товарные фото и даже уже примеренные изображения в качестве входа — всего 360 тщательно подобранных пар. Оценка идёт тремя группами метрик: согласованность объекта (DINO и CLIP), сохранение человека (LPIPS, SSIM) и корректная локализация (детектор + текстовая проверка описаний от мультимодальной LLM).

Что получилось на практике
На полном наборе OmniTry достигает M‑DINO 0.6160 и M‑CLIP‑I 0.8327 при очень хорошем сохранении человека (LPIPS 0.0542, SSIM 0.9333) и почти безошибочной локализации (G‑Acc. 0.9972). Это лучше как маск‑фри генераторов, так и многих методов, которым маски рисовали вручную. На подмножестве одежды показатели ещё выше (например, M‑DINO 0.6995), при этом система устойчива к «дикими» фонам и разным форматам входа. Важная находка — эффект few‑shot: благодаря первой стадии достаточно буквально единиц пар на редкий класс, чтобы быстро подтянуть «узнаваемость».

Почему это важно
Для онлайн‑ритейла: меньше ручной разметки и быстрее запуск новых категорий.
Для креаторов и брендов: естественные примерки на реальных позах без студийных сессий.
Для AR/VR: единый фреймворк на одежду, украшения и аксессуары, без зависания на парсерах человека.
Для устойчивости к редким классам: «стирание без следов» и двухэтапное обучение помогают обобщению.
Ограничения и взгляд вперёд
OmniTry всё ещё может ошибаться при сильных перекрытиях (например, сложные позы рук с украшениями), с очень мелкими объектами и в экстремальных ракурсах. Длинный «хвост» редких товаров требует активного дообучения, а физика контактов (мятые ткани, тени от серёжек) — более явных 3D‑подсказок. В будущем полезны улучшенные мультимодальные подсказки (промт), учёт материалов и освещения, а также оценка честности и отсутствия предвзятости на разных типах внешности. Код, веса и бенчмарк доступны: https://omnitry.github.io/.

Как это связано с текущими трендами ИИ
OmniTry опирается на диффузионные трансформеры c позиционными кодировками (RoPE) и rectified flow, комбинирует инпейнтинг с полным вниманием к объекту и аккуратно использует мультимодальные подсказки от MLLM (мультимодальная большая языковая модель) для описаний. Такой «унифицированный» подход хорошо сочетается с мультиагентными системами, где один агент готовит данные и тексты, а другой собирает итоговую примерку. Это пример того, как аккуратная инженерия данных и архитектуры может заменить громоздкие маски и ручные контуры — и сделать виртуальную примерку по‑настоящему универсальной
***
Если вам интересна тема ИИ, подписывайтесь на мой Telegram-канал - там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.
JBFW
Почему я не верю в успех всего этого: модель не "примеряет" одежду на человеке, а создаёт "свое представление о том как оно должно сидеть".
Для понимания разницы можно посмотреть на вон ту картинку, с кучей фото, а конкретно на нижний ряд, где примеряют шорты на фото мужчины: в реальности в зависимости от выбранного размера шорт, особенностей их кроя, и особенностей телосложения они могут выглядеть очень по разному, при этом восприниматься будут в сочетании с остальным прикидом, от обуви до аксессуаров типа рюкзака - и оно должно одно к другому всё подходить.
А модель просто натянула шорты как на образце на чела в совершенно другой обстановке, и получилось стрёмно, как плавки с галстуком или кеды с костюмом.
То есть, представления о том, как оно будет выглядеть, с точки зрения "покупаем или нет", она не даёт.
Тут нужно что-то более навороченное, типа AI-стилист, но этого и люди толком не умеют...