До появления новых инструментов работа с изображениями через ИИ была… честно говоря, тяжёлой. Даже если нужно было просто добавить в кадр какой-то объект — телефон, часы, бутылку на столе — это превращалось в мини-проект.
Первый шаг — установить интерфейс (например, Automatic1111), скачать и проверить модель, скачать аддоны, заново проставить зависимости из-за возникшего конфликта в аддонах. Без опыта всё это можно проделать в лучшем случае за день, и то при помощи ЛЛМ. Причём основная работа так и не будет начата.
По итогу картинка часто получалась с артефактами: размытые границы, неестественные тени, обрезанный объект. Часто было видно, что «что-то не то».

Также модель может не уметь рисовать нужный объект, если его не было в датасете для обучения. Например, в наборе из нескольких тысяч фотографий не оказалось ни одного футбольного мяча. И ты можешь как угодно менять промпты, но модель всё равно не нарисует объект как нужно.
Самое болезненное — обратная связь. Если клиент просил «сместить объект» или «заменить на другой» — всё приходилось делать заново. Это могло отнимать несколько часов, даже если правка визуально казалась «мелкой».

Такая генерация могла выполняться только вручную. Да, она могла иногда выдавать очень качественный результат, но по итогу получалось примерно сопоставимо по времязатратам с работой живого иллюстратора/дизайнера/фотошопера.
Теперь генерация доступна каждому
За последний год генерация изображений через ИИ прошла трансформацию. То, что раньше требовало технической команды и отдельного продакшна, теперь можно сделать за 5 минут — буквально из текста и картинки. Причина — появление новых инструментов, которые сильно упростили процесс: Flux Kontext и GPT-Image,
Эти два инструмента позволяют добавлять, менять и трансформировать объекты прямо на изображении — без масок, сложных моделей и ручной работы.
Также отмечу Outpaint, который позволил добавлять новые элементы, органично встраивающиеся в текущую картинку за счёт расширения её границ.
Flux vs GPT: какой инструмент когда использовать
Оба инструмента — Flux Context и GPT-4 Image — отлично справляются с генерацией и редактированием изображений. Но у каждого есть свои особенности, и от правильного выбора зависит, насколько быстро и качественно вы решите задачу.
Flux Kontext — когда нужно аккуратно и дёшево
Flux работает по принципу минимального вмешательства. Он старается изменить как можно меньшую область изображения и не трогать то, что не просили. Это делает его идеальным инструментом, если:
нужно точечно изменить объект или деталь (добавить в руку предмет, заменить фон, изменить мимику);
важно сохранить исходное изображение почти полностью;
требуется много картинок за минимальный бюджет;
вы можете развернуть Flux локально — тогда стоимость генерации будет буквально несколько центов за сотню изображений.
отлично справляется с реализмом
Минусы:
хуже «понимает» текст: если написать слишком абстрактный промпт, может не справиться;
не знает, как выглядят конкретные объекты и локации (например, Кремль или логотип бренда);
не «догадается», что вы имели в виду — нужно быть очень точным в формулировках.
GPT-4 Image — дорого и конкретно/точно
GPT работает иначе. Он сначала анализирует изображение, потом обрабатывает и дописывает промпт при помощи LLM, и только после этого передаёт результат в генератор. Это делает его мощным инструментом для задач, где:
нужно переместить человека в другую локацию, изменить атмосферу, одежду, фон;
требуется визуализировать сложную идею — например, концепт, метафору или эмоциональную сцену;
важна гарантированная точность в понимании запроса: он подскажет сам, если что-то недосказано;
вы работаете с известными объектами: логотипами, локациями, архитектурой.
отлично умеет писать на картинках английский текст, иногда справляется и с русским
Минусы:
работает дороже: от 7 до 15 центов за изображение;
перерисовывает всё изображение, даже если нужно изменить только часть (хотя новые версии учатся делать это аккуратнее);
есть ограничения по содержанию: нельзя использовать для генерации фейков, лиц и других чувствительных данных.
может отказаться работать с изображениями людей, например, откажется перенести вас в другую локацию. Замена модели с 4о на 4.1 или о4-mini-high зачастую решает эту проблему
не умеет делать реалистичные изображения, получается пластиково, похоже на 3д рендер
Кейс: как мы «перенесли» людей из Пекина в Москву за один вечер
Контекст
К нам пришёл клиент с задачей: на международной выставке в Пекине сделали фотографии посетителей стенда. Нужно было быстро адаптировать эти снимки под российские реалии — как будто те же люди побывали на аналогичных мероприятиях в Москве.

Нам нужно было вырезать людей с оригинального фона, переместить» их в узнаваемые московские локации (Большой театр, ВДНХ, парк Горького и т.д.), переодеть персонажей в соответствии со стилистикой каждой локации, сохранить лица, позы, атмосферу.

В итоге мы на выставке поставили стенд с экраном, камерой и доступом в интернет, подобные терминалы можно увидеть на разных выставках. Человек выбирал локацию и тут же фоткался на веб-камеру, получал qr-код и по нему забирал своё фото.
«Полгода назад такой проект мы бы не взяли. Даже если бы взяли — довести его до нужной точности стоило бы дороже, чем разработка новой модели. Слишком много ручной работы: вырезать, маскировать, подгонять под тени, под освещение, вручную собирать сцены. Сейчас же подобная задача решается при помощи 2-3 готовых инструментов».
Как мы делаем это сейчас
-
Фотографии загружаем в GPT Image
Каждое фото проходит через промпт вида:«{Описание человека от CV модуля} на фоне Кремля (вид с Красной площади). Если на изображении есть мужчины, одень их белые кеды, синие штаны, светло-голубой свитер. Если на изображении есть женщины, одень их в белые широкие штаны, белые кеды, светло-голубую рубашку в белую полоску, и серый свитер на плечах».
«Перемести человека на изображении в такую-то локацию в Москве. Если это женщина — переодень в вечернее платье, если мужчина — в костюм. Фон: Большой театр, вечер, мягкий свет».
-
GPT понимает контекст сам:
считывает позу, лицо, пропорции;
выбирает подходящий ракурс фона;
дорисовывает одежду;
«перестраивает» композицию, чтобы всё выглядело натурально.
Автоматическая генерация сцен
GPT хорошо справился с переносом человека в новую локацию и переодеванием, не потребовалось много итераций.При необходимости — дообработка
Лицо отдельно корректировали в Stable Diffusion. Так как модель может плохо генерить логотипы и тексты, то мы вручную добавляем их с помощью кода.

GPT не любит рисовать лица и делать дипфейки из-за потенциальных юридических последствий.

А даже когда и рисует, то делает это плохо и теряет черты лица.

Поэтому мы сначала собираем сцену и образ героя при помощи gpt, а лицо прорисовываем с помощью Stable Diffusion. При необходимости добавляем логотип, текст и другие элементы бренда поверх готового изображения.
«Мы пробовали сделать это через Flux — не получилось. Он не знал, что такое московские локации. Вместо Кремля — рандомный замок из красного кирпича, вместо Большого — непонятный дворец. Этих мест просто не было в его датасете. GPT в этом плане сильнее: даже если не видел — он может при помощи ЛЛМ сам себе объяснить, что нужно нарисовать, и передать это в генератор.»
В результате мы обеспечили клиенту повышенное внимание на ивенте и получили повторный заказ.
Кейс: как мы делали раскадровку видео при помощи нейросетей
Контекст
Мы участвовали в тендере на видеопродакшн. Нужно было подготовить презентацию, в которой визуально показано, как будет выглядеть будущее видео: сцены, ракурсы, атмосфера. Съёмок ещё не было, так как нужно было сначала выиграть тендер.
Дизайнеры сделали костяк презентации, которую дальше мы решили анимировать по методу img2vid: написали текстовый промпт для генератора видео.
A chaotic wave of white and light pink balls trembles violently across the textured soft surface, gradually stabilizing into calm orderly patterns as soft blue light permeates the irregular protrusions, the camera stationary while warm hues transition to cool tones.
Анимацию сделали для каждого слайда с концептами. Так клиент увидел не просто текстовое описание идеи, но и пример будущей визуализации сцены, как она будет выглядеть в нашем исполнении.
Клиенту стало проще прикинуть, как будет выглядеть ролик, чтобы они могли принять решение. Так мы стали на голову выше по вау-эффекту относительно других участников тендера.
Как генерация меняет продакшн
Раньше проджект собирал бриф, дизайнер верстал, копирайтер доносил смысл через текст. Каждый шаг — отдельный человек и отдельная итерация. И если где-то дизайнер был занят или не понимал задачу, весь процесс стопорился.
Сейчас один человек может сделать работу, на которую раньше нужно было привлекать полноценных специалистов. Проджект может собрать раскадровку, копирайтер — визуализировать идею, маркетолог — протестировать варианты обложки. Не потому что они стали лучше рисовать, а потому что инструменты генерации любых модальностей стали доступнее.
ИИ-модели сдвигают момент появления картинки. Раньше она появлялась в финале, теперь — в начале. Скорость создания готового прототипа сокращается с нескольких часов или дней до нескольких минут.
Потому любому бизнесу, работающему с визуалом, критически важно научиться использовать генеративные модели. Потому что те, кто освоит их первыми, научатся достигать результата быстрее и с меньшими затратами.