
Эпоха умного редактирования изображений наступила: ChatGPT, Gemini и Grok — крупнейшие игроки мировой AI-арены — один за другим представили инструментарий «умного фотошопа». Достаточно прикрепить картинку, попросить что-нибудь на ней изменить — и желание будет исполнено! Или не будет?
Проблема в том, что не каждый редактор изображений способен сохранять детали оригинала: изменяются люди, искажаются уникальные объекты, композиция, детали, ракурс и многое другое. Нередко хочется получить результат как от мастера фотошопа: чтобы менялись только требуемые участки, а остальное сохранялось неизменным. Например, удалить людей на заднем фоне фото из отпуска, оставив только безбрежное море за спиной. Вот бы можно было, валяясь на пляже, безо всяких сложностей отправить фотографию в удобный сервис на смартфоне, написать пару слов (что отредактировать), а результат просто репостнуть!
Наша команда загорелась этой задачей довольно давно — и сегодня, пройдя долгий путь проб и ошибок, мы с гордостью представляем вам проект с рабочим названием MALVINA (Multimodal Artificial Language VIsion Neural Assistant). Malvina уже стал частью сервиса GigaChat и доступна всем желающим! Более того: и по метрикам, и по мнению пользователей, наша модель обходит в редактировании изображений даже GPT-4o, Gemini и Grok!
Мы вас заинтриговали? Тогда приятного прочтения!
Мы расскажем вам:
как устроено редактирование изображений в современных моделях;
как ассистента для редактирования изображений собирали и обучали мы;
насколько наша модель эффективна по сравнению с аналогами.
И, конечно, поделимся множеством примеров работы.
А если не терпится попробовать нашего ассистента на деле, то добро пожаловать: [GigaChat телеграм-бот].
Задача редактирования
Решение любой задачи начинается с постановки. В контексте моделей машинного обучения редактирование изображений может выглядеть очень по-разному:
редактирование изображения на основе задаваемых пользователем ключевых точек или масок (inpaint-подходы);
перегенерирование с сохранением только структуры (например, ControlNet);
попиксельные изменения с сохранением всех не затрагиваемых участков;
«перерисовывание по мотивам»;
и ещё много других способов.
В нашем случае редактирование изображений — это сложные, осмысленные изменения в структуре, стиле, семантике изображения, задаваемые текстовым промптом пользователя, при максимальном попиксельном сохранении оригинала. Нас интересует только этот, самый захватывающий способ — инструкции в естественных формулировках. Например, вот так:

Ничего больше. Никаких точек, масок, карт глубин или зон интереса — только оригинальное изображение и запрос на естественном языке.
Задача на самом деле очень сложная. Чтобы справляться с произвольными запросами редактирования, модель должна обладать глубокими познаниями о самых разных аспектах нашего мира, и уметь этими знаниями пользоваться.
Но речь, конечно, не только о добавлении объектов. От моделей-редакторов ожидается выполнение:
семантических изменений: добавление, удаление, замена объекта или фона, смена выражения лица;
стилистических изменений: замена цвета или текстуры объекта, общая смена стиля;
структурных изменений: перемещение объекта, смена размера и формы, замена действия или позы, смена ракурса.

Ещё раз обратим внимание, что нас интересует именно pixel-perfect редактирование:

GPT, хоть и нарисовал красиво, полностью изменил и крокодила, и мир вокруг.
Ремарка: здесь и далее мы называем такой способ редактирования попиксельным (pixel-perfect) на уровне визуального восприятия. Фактически же это не совсем так. Диффузионная модель по своей шумовой природе всё-таки искажает значения всех пикселей изображения, но на совершенно незначительные величины. Мы успешно боремся с этим явлением, и оно в большинстве случаев не заметно человеческому глазу.
Теперь, когда мы понимаем общую постановку задачи, давайте посмотрим, как с ней справляются лучшие современные модели.
Как гиганты картинки редактируют
Существует множество способов построения пайплайна редактирования изображений. В центре внимания большинства успешных решений — использование мощных предварительно обученных моделей, обладающих обобщёнными знаниями о визуальном мире. Эти модели могут быть как специализированными генеративными (например, диффузионные модели вроде Stable Diffusion), так и универсальными мультимодальными системами с авторегрессионной архитектурой (например, GPT-4o, Gemini 2, Grok).
Редактирующие возможности могут достигаться с помощью:
дообучения или адаптации существующих весов (возможно, с частичной заморозкой);
интеграции дополнительных модулей (например, контроллеров, адаптеров или визуальных промптов);
либо — в случае мультимодальных моделей — через обучение на специально подобранных парах «инструкция — результат редактирования» в авторегрессионной парадигме.
В общем, исследователи пытаются любыми способами воспользоваться «знаниями» базовой модели для решения задачи редактирования.
Что касается метрик, то в оценке качества редактирования полная свобода для творчества: можно придумывать свои метрики, можно обучать reward-модель, привлекать людей (SBS).
Всё чаще применяется дообучение моделей с учётом предпочтений человека (DPO, RLHF), что позволяет улучшать субъективное качество и управляемость редактирования.
Мы, по многим причинам (в том числе из-за нацеленности на попиксельное редактирование), выбрали для себя подход с использованием диффузионных моделей. Но существует множество альтернативных подходов. Один из самых многообещающих и красивых — авторегрессия (AR).
Заметим, что здесь довольно сложно провести чёткую границу между диффузией и авторегрессией: AR тоже может использовать диффузионные модели, например при детокенизации или для финального улучшения детализации. И эмбеддинги для диффузии могут генерироваться авторегрессионно. Поэтому в этой статье мы условно разделяем подходы в зависимости от того, как выполняется основная (вычислительно) часть генерации изображения.
Давайте разберёмся, чем отличается диффузионный подход от авторегрессионного, и почему мы, в отличие от OpenAI, Google и X, взяли за основу первый (хотя активно экспериментируем и с AR).
Диффузия или авторегрессия?
Классическая авторегрессия на трансформере смотрит на изображение как на последовательность элементов: пикселей, патчей или токенов (например, полученных из VQ-VAE). Модель предсказывает их по одному — так же, как LLM предсказывают текстовые токены. Это позволяет ей «рассуждать» на высоком уровне: AR-модели легко добавляют в сцену новые предметы, перестраивают композицию, комбинируют стили (например, DALL-E, Parti).
Обратная сторона такого подхода — хрупкость деталей. Любая небольшая ошибка в раннем токене растёт лавинообразно и становится сильно заметной на конечном изображении. Поэтому методы редактирования изображений, основанные на AR, зачастую «рисуют по мотивам», а не редактируют. Впрочем, во многих других случаях это едва заметно для пользователя.
Диффузия идёт от обратного: она не достраивает картинку, а постепенно очищает её от шума за 10-100 последовательных шагов.
Существуют даже дистиллированные варианты, способные делать это в 1-4 шага (например, FLUX.1-dev).
Главное достоинство диффузии в том, что все пиксели присутствуют на каждом шаге, поэтому модель видит целое изображение и с лёгкостью может внести локальное изменение, не затронув остальное. Многие проблемы AR-подходов диффузии просто не знакомы — хотя глобальные преобразования ей, действительно, даются значительно тяжелее.
Немного спекуляции
Теперь, когда мы разобрались в разнице подходов, давайте попробуем предположить, что находится под капотом у самых мощных на данный момент методов, позволяющих (в той или иной мере) редактировать изображения.
GPT-4o
Нельзя знать наверняка, но, судя по публичным демонстрациям, GPT-4o от OpenAI — это гибрид: VAR (Visual Autoregressive Modeling), который генерирует изображение по уровням разрешения, пока не достигнет целевого размера, плюс лёгкая пост-диффузия для сглаживания артефактов. Предположение основано на том, как GPT-4o реагирует на запрос редактирования:
сначала нам показывают размытое изображение;
затем, на последнем шаге, изображение генерируется построчно и заметно медленно;
после завершения генерации изображение «моргает», прибавляя в деталях.
Подобный гибридный подход хорошо работает для сложных и глобальных преобразований (поэтому так «выстрелил» Ghibli-стиль), но пока не даёт гарантированной попиксельной точности.
Gemini 2.0 Flash Experimental
Подробностей немного. Однако по описанию и работе очевидно, что также применяется авторегрессия при помощи единой мультимодальной модели.
Grok
Модель компании X использует Aurora — чисто авторегрессионную Mixture-of-Experts модель.
Наше решение
Мы же пошли вглубь диффузионного стека, усиленного лучшими достижениями в VLM — и получили Malvina, которая правит кадр так же аккуратно, как ретушёр-профессионал, а не рисуя «картинку по мотивам».
Как мы обучались
Итак, мы объяснили, почему остановились на диффузионном подходе. Давайте вкратце посвятим вас в архитектуру и процесс обучения Malvina.
Архитектура
«Мозг» нашего пайплайна — VLM-модель.
Есть несколько устоявшихся аббревиатур для мультимодальных и визуальных крупных моделей: VLM, LVM, VLLM (Visual Large Language Model), MLLM (Multimodal Large Language Model). Используемые нами далее модели технически являются MLLM, однако мы пользуемся только визуальной и текстовой модальностями, поэтому здесь и далее будем называть их VLM.
Откуда взялась VLM, если мы говорили, что используем диффузионный подход? Дело в том, что подаваемые на вход диффузии картинку и текстовый запрос нужно как-то связать. Ранее для этого чаще всего использовали текстовые энкодеры (как правило, из CLIP). Однако исследователи заметили, что таким энкодерам недостаёт мощности, предложив вместо них использовать VLM-модели (см. SmartEdit). Более того, сильный ризонинг и глубокие знания таких моделей можно попытаться извлечь и использовать в задаче редактирования. Без этих характеристик решение поставленной задачи не было бы возможным.
Таким образом, вот общая архитектура Malvina:

Мы пробовали множество вариантов диффузионной базовой модели: Stable Diffusion, Kandinsky, FLUX… Пока мы остановились на сильном решении с 6 млрд параметров, но продолжаем пробовать — такой простор для исследований достоин отдельной статьи.
На роль VLM же отлично подошёл GigaChat Vision — наше собственное, проприетарное решение.
Таким образом, на схеме мы видим следующий пайплайн:
оригинальное изображение и текстовый запрос на редактирование подаются в GigaChat Vision;
GigaChat Vision извлекает необходимые эмбеддинги, также формируя экспрессивную инструкцию (см. MGIE);
полученные эмбеддинги и экспрессивная инструкция поступают в блок Mixture-of Experts — такое решение хорошо адаптируется под различные задачи редактирования;
оригинальное изображение подаётся на вход диффузии, процесс обуславливается выходными данными MoE-адаптера.
Давайте разберём подробнее каждый шаг. Существует два основных способа получения текстового условия из VLM:
Авторегрессионная генерация дополнительных IMG-токенов, которые передают инструкцию диффузионной модели. В этом случае словарь VLM расширяется небольшим количеством дополнительных токенов — следовательно, размораживаются слой эмбеддингов и голова LLM. Далее модель обучается предсказывать IMG-токены в ответ на запрос пользователя.
Использование обучаемых токенов без разморозки VLM. Здесь на вход модели подаются N обучаемых токенов, которые в процессе прохождения через сеть обогащаются контекстом запроса и референс-изображения. Количество токенов N ограничено максимальной ёмкостью текстового энкодера диффузии. Этот подход менее инвазивен: параметры VLM остаются неизменными, а авторегрессионная генерация отсутствует.
Выбор метода извлечения текстового условия напрямую влияет на архитектуру используемого коннектора:
При авторегрессионной генерации обычно используется Q-Former, где количество queries соответствует количеству токенов текстового энкодера диффузии. А сгенерированные токены передают информацию в queries через блоки cross attention.
При использовании обучаемых токенов применяется стек трансформер-энкодеров, через который проходят токены, обогащённые контекстом.
В обоих случаях задача коннектора — донести сформированный VLM-запрос до этапа диффузии. Наши эксперименты показали, что вне зависимости от выбранного варианта коннектора, добавление в FFN-слои DeepSeek-подобного варианта Mixture-of-Experts значительно расширяет возможности модели в задачах редактирования изображений. Мы предполагаем, что это связано со специализацией отдельных экспертов под различные типы операций редактирования, что позволяет сети эффективнее адаптироваться к разнообразным пользовательским запросам.
Выходы из коннектора передаются в диффузию в виде текстового условия. Вторым условием выступает оригинальное изображение пользователя, благодаря которому модель может сохранять попиксельные детали при генерации.
Добавить это условие в диффузию можно следующими способами:
Универсальный вариант — конкатенация латентов шума и оригинальной картинки с последующей подачей в расширенный проектор-слой диффузии. Этот способ подходит как для U-Net-подобных архитектур, так и для DiT-образных моделей.
Специфичный для трансформеров вариант — латенты шума и оригинальной картинки проецируются сначала в две последовательности токенов, после чего токены объединяются в одну последовательность, которая проходит через диффузионный трансформер. Перед декодером лишние токены исходного изображения отбрасываются, и модель возвращает готовое изображение. Этот подход более органично подходит для попиксельного редактирования, так как на каждом слое диффузии доступны токены исходной картинки.
Сама модель диффузии может остаться неизменной, либо же можно использовать вариант на основе ControlNet.
Данные
Каждый день мы находим новые источники данных, но вот основные на текущий момент:
Открытые наборы данных — очевидное решение. Многие исследователи этой задачи выкладывают в открытый доступ наборы данных по редактированию: UltraEdit, Seed-PS, и т. д. Мы тщательно курируем их, очищаем их, фильтруем — и кладём в нашу общую корзинку данных.
Данные из смежных задач. Например, из многих видеонаборов, или данных для обучения роботов, или наборов для детекции, сегментации, ризонинга… Мы пишем сложные скрипты для извлечения нужных нам пар картинок, дополнительно обрабатывая и размечая их.
Прямой ручной сбор данных. Сложные и высококачественные примеры бывает полезно отдать на автоматизированный или ручной сбор людьми: можно пользоваться уже имеющимися инструментами inpainting’а, использовать графический редактор, или вообще взять фотокамеру со штативом и снимать сцены в виде «до-после». Тут опять простор для воображения.
Malvina Self-data. За множество экспериментов мы по метрикам и вручную отбираем лучшие результаты работы нашей модели, и можем использовать их в дальнейших экспериментах.
При этом мы старательно отбираем данные для каждой задачи редактирования наилучшими для неё способами:
Для добавления и удаления объектов мы используем видео и inpaint-данные. Добавление и удаление взаимно обратимы, то есть одну пару картинок можно использовать для обеих операций. Хотя в случае с добавлением требуется более точная инструкция: получаем её либо по координатам и названию объекта, либо напрямую VLM-моделью.
Для замены объектов мы делаем текстовый inpaint через диффузию.
Для стилизации изображений и смены сезонов используем диффузию с ControlNet.
Для замены одежды — специализированные модели виртуальной примерочной.
Чтобы люди выглядели реалистично, вырезаем их силуэты из изображений и накладываем на фоны с гармонизацией.
Данные для многих важных операций мы синтезируем программным путём (размытие, сепия, зашумление, смена яркости, смена контрастности). Более того, подобные примеры можно инвертировать для обучения более сложным операциям: колоризация, восстановление размытия, шумоподавление…
В результате, в последней ревизии датасета у нас набралось более 1,5 млн примеров.
Метрики
Вы можете сказать: «Пусть стандартные метрики оценки близости изображений (PSNR, SSIM) контролируют низкоуровневое качество, а нейросетевые (LPIPS, CLIP-score, DINO-score) — смысловую корректность. Должно же быть этого достаточно?» Давайте посмотрим:

Редактирование выполнено ужасно:
вокруг тела остался «ореол» из оригинальной картинки;
участки между локтями и туловищем вообще не изменились;
горную местность будто отрезали детскими ножницами и приклеили размытую картинку озера (с совершенно другим масштабом и ракурсом).
При этом вышеперечисленные метрики показывают высокое качество редактирования. Конечно, даже модели вроде CLIP не могут во всей полноте оценить эстетическую ценность, соблюдение логики и физических законов. Но вспомним: мы уже сталкивались с ограниченностью CLIP, и замена его на VLM значительно улучшила ситуацию. Так почему бы и здесь не воспользоваться мощью какой-нибудь VLM-модели, слегка дообученной под оценку качества?
Мы настроили мощную VLM так: на вход поступает исходное изображение, текстовый запрос редактирования и результирующее изображение, и модель должна оценить качество редактирования по двум критериям (от 1 до 5 каждый): эстетичность и следование инструкции. Среднее геометрическое этих двух оценок мы назвали VLM-score.
Эта метрика значительно точнее и полнее оценивает качество редактирования, но работа VLM обходится довольно дорого по времени и вычислительным ресурсам. Поэтому для замера между чекпоинтами и валидации во время обучения мы используем грубую аппроксимацию VLM-score. Эта аппроксимация представляет собой агрегацию большого набора признаков, которые можно условно разделить на три категории:
признаки типа задачи редактирования;
высокоуровневые признаки, основанные на моделях оценки качества генерации (PickScore, HPSv2);
некоторые признаки на уровне пикселей изображения.
Поверх мы обучили Random Forest. Подобный инжиниринг позволил довольно простой модели давать оценки, сопоставимые по точности с VLM-score.
Мы вкратце рассказали про нашу модель. Теперь покажем, какова Malvina на деле, и сравним её с конкурентами.
Абсолютная мощь
Сначала сравним Malvina с прямыми конкурентами по VLM-score:

Malvina показывает великолепный результат: на голову выше open-source конкурентов, значительно лучше Grok и немного сильнее Gemini.
С GPT-4o здесь мы не сравниваем: это потрясающая, невероятно мощная модель, с очень высокой исполнительностью и качеством, но с ней очень сложно сравниться напрямую из-за отсутствия сохранения попиксельной идентичности в значительной части случаев.
Другими словами, Malvina и GPT-4o просто решают разные задачи. Даже при SBS-сравнении (Side-by-Side) результат целиком бы зависел от того, как мы сформулируем задание асессорам и как они его интерпретируют.
Так мы поняли, что наш основной конкурент это Gemini от Google. Но как бы хорошо ни работал VLM-score, он всё же довольно плохо улавливает мелкие погрешности, особенно искажения лиц. Поэтому целиком доверять в этой задаче можно только SBS-сравнению с участием людей. Мы собрали примерно 1100 высококачественных профессиональных фотографий, а запросы на редактирование написали вручную.

По мнению реальных пользователей мы значительно обошли Gemini по качеству! Напомним, что в SBS-сравнении изображения произвольно перемешиваются и выбор происходит «вслепую».
Рассмотрим оценки по категориям:

Gemini чуть-чуть обходит Malvina лишь в двух операциях: добавление объекта (очень сложная задача) и раскрашивание фотографии (очень неоднозначная задача, оценка асессора зависит от личных предпочтений).
Рассмотрим некоторые примеры из этого сравнения (сейчас мы их упорядочили и пометили для вашего удобства, асессоры же оценивали без меток и с ответами в произвольном порядке).
Во-первых, наш ассистент отлично справляется с реставрацией объектов, порой даже со сложными повреждениями:


Во-вторых, Malvina способна на сложнейшие задачи удаления:





В том числе, удаление текста:


Также модель отлично работает с фонами, удаляет и заменяет их:


Да и не только фон! Наш ассистент силён в замене любых, даже довольно сложных участков:




Ассистент также способен на стилизацию, зачастую очень достойную:



Сюда же можно отнести реставрацию и колоризацию фотографии:


Malvina умеет работать и с людьми: менять эмоции, аксессуары (очки, бороды), заниматься бьюти-блогингом (макияж, украшения), и многое другое:









Вы, конечно, можете подумать, что мы просто отобрали лучшие примеры из SBS, а остальное никому не покажем — но нет! Чтобы вы могли самостоятельно сравнить и оценить генерации, мы выложили все данные в открытый доступ! Более 1100 коллажей, некоторые из которых мы показали вам выше, доступны здесь.
Давайте теперь подробно сравним Malvina со всеми ключевыми конкурентами, а не только с Gemini:

Malvina полностью справилась с заданием.
Gemini решил просто написать инструкцию поверх фото.
Grok убрал столики лишь частично.
GPT-4o не только не убрал все столики, но и полностью перерисовал всё изображение: другая девушка, сумка, камера, шляпка, фон и ракурс.

Malvina корректно и лаконично вписала реалистичный замок.
Gemini нарисовал нереалистично упрощённый, некорректно освещённый замок.
Grok изобразил красивый замок — но не там, где требовалось.
GPT-4o получил замечательный замок, но опять перерисовал всё изображение: изменил цвет волос девушки, цвет её кофты, позицию, ракурс, скалу под ней — и даже облака в небе.

Malvina полностью удалила с пляжа и людей, и их принадлежности, сохранив структуру пляжа неизменной.
Gemini перерисовал нижнюю часть картинки: новый пляж, нет травы.
Grok хорошо постарался, но всё равно не смог полностью очистить пляж.
GPT-4o опять изменил всё фото.

Malvina справилась без проблем.
Gemini тоже хорошо справился, но не без проблем: эмблема на кофте совершенно другая.
Grok переделал вообще всё.
GPT-4o тоже изменил слишком многое, включая лицо, куртку, эмблему.

Malvina полностью выполнила инструкцию.
Gemini постарался сгладить кожу, но не особо преуспел.
Grok вообще ничего не изменил.
GPT-4o нарисовал совершенно другую женщину.

Malvina справилась с задачей.
Gemini убрал книгу из рук.
Grok лишь немного исказил лицо и мусор.
GPT-4o изменил всё: и полы, и девушку, и руку с книгой, и белый плед.

Malvina отлично справилась, сохранив текстуру двери и тени на ней.
Gemini вместе с граффити удалил замок и ручку, также исказив тени.
Grok не справился.
GPT-4o опять всё перерисовал: новый рельеф двери, теней нет, стена другая, справа висит какая-то картина.

Malvina отлично справилась, удалила только текст.
Gemini удалил и символ, хотя просили только текст.
Grok вообще ещё и текстуру поменял.
GPT-4o как Gemini.

Malvina очень естественно разукрасила фото.
Gemini постарался, но не докрасил крыши на фоне, и изменил надпись на вывеске слева.
Grok почти ничего не сделал.
GPT-4o колоризовал слишком однотонно, при этом опять всё изменив.

Malvina убрала провода.
Gemini наоборот сделал провода потолще.
Grok почти идеально справился, хотя небольшой обрывок слева остался.
GPT-4o снова изменил всю картинку.

Malvina справилась с заданием.
Gemini не справился.
Grok справился с заданием.
GPT-4o всё максимально переделал.

Malvina корректно сменила текстуру.
Gemini также справился.
Grok тоже сумел выполнить задачу.
GPT-4o даже на такой простой картинке всё переделал: и тарелки, и полотенце, и мандарин.

Malvina хорошо справилась.
Gemini решил заменить трещины на свои.
Grok тоже отлично справился.
GPT-4o перерисовала, хотя здесь получилось очень даже хорошо.

Malvina выполнила задачу.
Gemini тоже корректно надел джинсы, даже более классические.
Grok ничего не сделал.
GPT-4o всё изменил.

Malvina достаточно хорошо справилась, но изменила радиатор.
Gemini также хорош, хоть и оставил радиатор искорёженным.
Grok очень хорош, хотя есть огрехи: другой радиатор, красная фара, стена сзади осветлилась.
GPT-4o опять нарисовал красиво, но «по мотивам».
Итого:
Malvina очень исполнительна, выполняет широкий спектр сложных задач, меняя строго только требуемые участки. А самое главное — удобный и свободный доступ, безлимитные запросы!
Gemini весьма неплох, хотя иногда не справляется с запросами и частенько переделывает лишнее. Более того, на момент написания статьи Google убрал доступ к функции редактирования — теперь достучаться можно только через API, что неудобно. Кстати, количество запросов ограничено, и потребуется VPN.
Grok зачастую вообще ничего не делает, хотя бывает силён в единичных случаях. Также нужен VPN для доступа.
GPT-4o генерирует великолепные, эстетичные изображения, но решает совершенно другую задачу. Не умеет попиксельно редактировать, умеет только «рисовать по мотивам». Опять же, без VPN недоступен, очень маленькие лимиты.
К вашим услугам
Таким образом, мы с гордостью представляем вам Malvina — сильную pixel-perfect модель-редактор изображений.
Для нас главное — оставить неизменным всё, что пользователь не просил трогать. Поэтому мы и выбрали опирающийся на диффузию подход. Наш ассистент максимально общего назначения и не ограничен никакими рамками, но мы очень хотим, чтобы вы, например, могли:
убрать людей с заднего фона на отпускной фотографии;
нанести макияж, примерить новую причёску или цвет волос;
убрать случайно попавшую в кадр кошку на фотографии для объявления о продаже квартиры;
восстановить и сделать цветной старую фотографию;
реставрировать потрёпаные вещи, потрескавшиеся стены, грязную майку, дырявые носки или даже проржавевший автомобиль;
очистить красивое фото города от проводов, а комнату — от мусора;
узнать, как бы выглядела любимая чашка, будь она деревянной, а мраморная статуя — бронзовой;
да и просто подшутить над друзьями!
Для всего этого важно сохранить идентичность людей и объектов, «душу» снимка, не делая его пластиковым и ненастоящим.
Ну и напоследок, ещё несколько примеров работы нашей модели:







GPT-4o, кстати, с подобным удалением справляется не каждый раз:

Malvina не только фотографии редактировать умеет:

Страшная тайна
Под конец статьи мы хотим вам признаться, что скрывали страшную тайну. Помните результаты сравнения с нашим главным конкурентом — Gemini? Так вот, на самом деле этот график выглядит так:

Иногда, по мнению асессоров, обе модели справлялись хорошо. Но важно обратить внимание на красный столбец. Да, где-то в трети случаев асессоры посчитали, что обе модели не справились с заданием. Это глобальная проблема: вы, наверное, и сами замечали, что иногда генеративные модели нужно просить несколько раз подряд, чтобы получить что-то хорошее. На это есть следующие причины:
Генеративные модели носят статистический, вероятностный характер: на одинаковый запрос ответ каждый раз будет отличаться (если, конечно, не зафиксировать seed). Это глобальная проблема любого современного AI, текущий потолок развития технологий.
Задача произвольного редактирования изображения очень сложна. Для согласованного, полного, корректного выполнения запросов любого вида и сложности модель должна обладать очень глубокой и широкой «моделью мира», при этом умея полноценно и корректно этими знаниями пользоваться. Этим не может похвастаться ни одна из сильнейших моделей в мире. И, наверное, идеальным редактором изображений будет только AGI.
Особенно сильно проблема проявляется именно в задаче попиксельного редактирования. Если в авторегрессионной «перерисовке по мотивам» у модели есть простор для творчества и определённая степень свободы, то в pixel-perfect случае перед нейросетью стоит намного более узкая задача: корректно и эстетично изменить только требуемую часть, сохранив всё остальное абсолютно неизменным.
Эти проблемы носят глобальный характер. На сегодня нам неизвестна модель или пайплайн с метриками выше наших, так что мы можем смело констатировать, что Malvina — передний край науки в области попиксельного редактирования.
Заходите и пробуйте прямо сейчас: [GigaChat телеграм-бот].
Главное правило — пробовать и экспериментировать. Если первый результат вас не устроил, пожалуйста, попробуйте ещё несколько раз, может быть с немного другими запросами — и всё обязательно получится!
Планы на будущее
Задача редактирования изображений находится «на острие науки». Это добавляет множество проблем и неопределённостей — но в то же время даёт безграничные возможности для будущего развития. Конечно, мы собираемся ещё долго совершенствовать и развивать Malvina:
продолжаем ежедневную работу по улучшению качества уже существующих операций;
стремимся дополнять модель новыми востребованными навыками: так, надеемся до конца года интегрировать поддержку добавления русских и английских текстов на изображения;
работаем над возможностью подачи множества изображений на вход: для референс-объектов, материалов, стилей и так далее.
Благодарности, полезные ссылки
Спасибо, что дочитали до конца!
Над Malvina трудилось огромное количество людей — и работа каждого была так важна, что без неё проект просто не случился бы.
Поэтому мы хотим сказать огромное спасибо:
командам GigaChat, SberDevices, AIRI, SberAI;
руководству, коллегам и партнёрам: @oulenspiegel @hukenovs @elejke @kuznetsoff87 @aibrain (и не только — отметили тех, кто есть на Хабре).
Ну и, конечно, мы — команда The Layer. Если статья понравилась — да и в целом вам интересны качественные разборы научных работ, без воды, флуда и рекламы, — то подписывайтесь на наш Телеграм-канал!
Если интересна история задачи редактирования изображений в целом, то рекомендуем первую работу из нашего цикла статей про эту задачу: «Как мы коня в пальто одевали. Neural Image Editing: Часть 1 — от инпейнтинга до DDIM Inversion». В ней мы рассмотрели тривиальные попытки редактирования (фиксирование random seed, inpainting, зашумление-расшумление), разобрали методы DDIM Inversion и Null-Text Inversion. Расписали всё подробно и с красивыми картинками, но в то же время максимально понятно, без сложных формул.
nin-jin
georfed Автор
Нажмите, пожалуйста, на кнопку "редактировать изображение" снизу
Похоже, вы просто не были в режиме редактирования, внизу есть кнопка "отредактировать изображение" - и сам Гигачат тоже такое предлагает, а у вас на скриншоте почему-то такого не вижу
У меня получилось сделать вашу картинку реалистичной с первого раза:
nin-jin
Разумеется я нажал на "редактировать", хотя это ни на что и не влияет. А вот вы похоже давно не выходили на улицу, раз совсем забыли, как выглядят реальные люди. В целом от вашего ответа осталось такое противное чувство зловещей долины, словно со службой поддержки пообщался. Не надо так.