Как сохранить уникальное визуальное решение AI-фильма, когда модель все усредняет?
В AI-кино стиль берет на себя роль мизансцены. С пространством, необходимым для мизансцены, нейросеть знакома условно, поэтому полноценное авторское решение чаще достигается через стиль. Именно он становится тестом на авторство, где оно либо подтверждается, либо растворяется в усредненной выдаче генератора.
Эта статья для AI-продюсеров, работающих с ярким визуальным языком и сталкивающихся с сопротивлением модели. Ниже — практические способы удержать стиль и вернуть контроль над результатом.
Стиль, то есть набор художественных приемов, делающих работу узнаваемой и цельной, отвечает за атмосферу, уточняет эмоцию, иногда становится двигателем сюжета. В терминах AI-мира – это то, что выделяет фильм из "слопа". Но принцип нейросети – похожесть одновременно на все. Из этого противоречия вырастают три практические проблемы:
Модель сглаживает стиль при генерации первых фреймов, даже если на входе есть точные референсы.
Эрозия стиля происходит по ходу работы: правки уводят картинку все дальше от нужного визуального решения, а анимация сглаживает то, что удалось закрепить в первом фрейме.
Жанровые особенности не проходят через фильтры — и речь не только об очевидных сценах насилия или секса, но и о совершенно невинных вещах, которые модель почему-то считает опасными.
В этой статье на примере созданного мной видео в духе фильма Sin City я покажу способы решения этих проблем и несколько приемов, которые приблизят работу к авторскому стилевому замыслу.
(если видео не открывается, смотрите тут)
Визуальный язык Sin City удобен как пример: он узнаваем, легко описывается словами и имеет богатый источник референсов.
Проблема 1: Модель усредняет стиль
Решение: Описать стиль как набор параметров.
Первое столкновение случается уже на этапе генерации первых фреймов. Анализируя референс, модель понимает одно – нужно черно-белое изображение. Нюансы игнорируются. Смягчается контрастный свет, добавляются текстуры, появляется глубина вместо плоскости.
Часть этого можно поправить на цветокоррекции, но не все: контрастный свет в Sin City — это не просто большой интервал яркостей, а резкая граница между светлым и темным, почти без переходов.
Жанровый промт вроде "hard boiled action movie energy" тоже не работает. Официальные гайды советуют: "Просто описывайте вайб!", но в работе над Sin City такой подход провалился. Если написать "noir, live action comic", получится так:

Модель берет жанровую метку и выдает усредненное представление о нуаре вообще. Чтобы добиться конкретного визуального решения, заменяем жанровое описание параметрическим.
В дополнение к референсной картинке описываем стиль как набор формальных свойств изображения:
глухой черный фон;
темные силуэты вместо освещенных фигур;
мир и лица без текстур;
условные фоны, создающие впечатление плоского мира;
резкий контрастный свет — с указанием, где чернота, а где доведено до белизны со специфическим свечением.
На съемках на некоторые детали наклеивались светоотражающие тейпы. Для конкретизации свечения белого так и пишем в промте Nano Banana 2:
“Keep all the bandages on man's face but make them bright white, looking like they are white reflective tapes”, получается похоже:

Удержать свечение на длинном кадре не вышло, но для 2 секунд годится.
В визуальной вселенной с четкими правилами легче воссоздать стиль, повторив хотя бы одну черту. Дождь – а в Городе грехов всегда идет дождь – в оригинале подсвечен так, что выглядит белым — эту деталь имеет смысл упоминать в каждом промте с улицей.
Пределы подхода. Плакатное впечатление от лиц воспроизвести не удалось. В оригинале у них почти нет текстур, а у меня — побочка контрастного освещения — морщины, доведенные до состояния древесной коры. Попытки уточнить промт в духе «сделай лицо более гладким» работают неровно: с Нэнси справился Flux 2 Pro (лучше, чем Nano Banana 2), но это все равно не комикс, а артхаусный фильм:


Марв при таком запросе превращается в гротескного пупса.
Причина общая: модель понимает контраст, но не понимает четкой границы между светлым и темным. Нюансы — слабейшее место нейросети, и с мягкими переходами в итоге приходится мириться, если все остальное в кадре устраивает.
Вывод. Правила стиля можно объяснить и закрепить, если перевести их с языка жанра на язык параметров. Модель выполнит не все, но большую часть — и стиль останется узнаваемым.
СОВЕТ. Если в сгенерированном фрейме или готовом клипе устраивают физика движения, композиция и движение камеры, мелкие ошибки освещения или скорости зуммирования удобнее оставить на постпродакшн. Над ними больше контроля в монтажной программе.
Проблема 2: Стиль размывается по ходу работы
Решение: Аппликация и монтажная склейка.
Даже если первый фрейм получился точным, удержать стиль на дистанции — сверхсложная задача. Эрозия происходит в двух местах: при последовательных правках референсного кадра и при анимации готового фрейма.
Эрозия при правках. Пока добиваешься правильной позы Нэнси, за ее спиной вырастает целый город, хотя нужна пустая улица. Оговорки в промте про то, что остальное в кадре надо оставить как есть, срабатывают не всегда. Замена фона на черноту последним шагом может испортить уже выстроенную фигуру.
Проблему решает сборка кадра как аппликации. Сначала создаем фон (можно взять подходящий прямо из оригинала), берем референсный портрет персонажа и добавляем в редакторе фигуру на фон. В большинстве случаев Nano Banana 2 справлялась отлично.

Когда для крупного плана Нэнси за рулем фон и фигура создавались одновременно, получалось совсем далеко от оригинала – лишние детали, неинтересный свет:

Эрозия при анимации. Частый сценарий: первый фрейм отличный, но при анимации через пару секунд все опять сглаживается – стилевые особенности воспринимаются моделью как ошибки. У каждого генератора свои точки притяжения, и кадры сносит к «правильному» образцу – реалистичному, детализированному, с плавной светотенью.
Пример: Марва вышвыривают из бара, он летит в лужу, к нему подходит Нэнси.
Veo 3.1 Quality отлично делает сложный по камере и длинный по меркам AI кадр. Но все, что идет после первых фреймов, теряет стилистику: белое не светится, брызги серые. Kling Omni 3.0 дает нужное свечение и сияющие брызги, а рваная панорама даже кстати – этот прием есть в оригинале. Но с двумя персонажами в кадре Kling не справляется, и концовка разваливается.
Решение – склейка. Начало до падения берем у Kling, затем крупный план Нэнси, и снова продолжение первого кадра, сгенерированное уже Veo.
Пределы подхода. На крупных планах склейка и подбор моделей работают хорошо, на общих – хуже.
Ключевое концептуальное расхождение между AI и визуальным языком Sin City: нейросеть не переносит неопределенности и стремится заполнить кадр. А Sin City — это построенные на исключении композиции, и моя задача – не нагенерить больше, а убрать лишнее. На крупных планах это решаемо, на общих модель почти всегда берет свое, добавляя глубину и детали:


Вывод. Удержать авторский стиль на дистанции — значит сопротивляться гравитации модели к “правильным” по ее мнению образцам. Стоит разбить картинку на слои, которые модель не успевает усреднить, и комбинировать сильные стороны разных генераторов. Чем крупнее план — тем проще; чем шире кадр — тем больше работы.
СОВЕТ. Разные модели сохраняют одни стилистические правила, но игнорируют другие. Зато их можно «сложить и поделить», прорезавшись другим кадром в месте артефактов.
Проблема 3: AI сопротивляется жанровым особенностям
Решение: Обход цензуры и управление длительностью кадра
Стилевые правила Sin City вытекают из самого жанра нуара: насилие, перестрелки, соблазнения. Все это грубо нарушает политику большинства моделей. Но проблема шире, чем очевидная цензура: фильтры блокируют совершенно невинные вещи, а ритм движений, заложенный в генераторах по умолчанию, противоречит темпо-ритму нуара.
Обход цензурных фильтров. Выстрел в упор, желтые брызги крови, сладострастное облизывание губ Желтым Ублюдком создаем в азиатских моделях — их правила гораздо либеральнее. Менее очевидные случаи требуют переформулировки.
Промт «Nancy gives Marv a hand to help him up» Nano Banana отклоняет, но тут хотя бы видна логика: фраза “gives a hand” двусмысленна. Почему та же модель упорно блокировала замену фона на кирпичную кладку – осталось загадкой. Тут выход – комбинирование моделей или тот же метод аппликации.
Любопытный паттерн с ограничениями по росту. Нужен контраст размеров громилы Марва и худенькой Нэнси. Nana Banana делает их силуэты примерно одного роста. Промт «сделай Нэнси ниже» не проходит – недопустимо изображений несовершеннолетних! При этом промт «сделай Марва выше и мощнее» выполняется без проблем. Общий прием: если прямой запрос блокируется, стоит переформулировать его через другого персонажа или через положительное изменение вместо отрицательного.
Управление ритмом – и стилем – через длительность. Стиль определяется не только изображением, но и ритмом кадров и характером движения. Нуар — это сдержанность, у каждого жеста и взгляда вес экзистенциальной безнадеги. AI, наоборот, пытается впихнуть в отведенные секунды как можно больше движений, даже если в промте указано «медленно».
Простая задача: Нэнси курит. У Veo 3.1 в его 6–8 секунд Нэнси затягивается каждую секунду. Но femme fatale не может курить суетливо, поэтому кадр уходит в Kling Omni 3.0, где можно выставить более длинный таймлайн — 10 секунд, — и модель растягивает ритм. Так длительность кадра становится самостоятельным инструментом управления стилем.
СОВЕТ. Для элементарного трехсекундного движения иногда стоит сгенерировать кадр в 10-15 секунд. Если движение повторится несколько раз, можно выбрать лучший «дубль». Если модель сделает движение плавнее, оно может выглядеть лучше резкого. Наконец, модель может удивить вас, придумав что-то свое, и это окажется «в кассу».
Общие выводы
Перечисленные проблемы вытекают из природы AI – усреднение и заполнение пустот. Поэтому задача автора – не прибавить, а грамотно ограничить поток данных. И здесь возникает закономерный вопрос — какой тип кино вообще годится для такого инструмента?
Стиль Sin City – на границе игрового кино и анимации. Работа над ним подтверждает, что анимация больше подходит для AI. Борьба с моделью неизбежна в любом случае. Но при создании анимационного фильма она продуктивна. Тут можно принять ограничения как особый язык, а артефакты – как визуальные решения.
Попытки имитировать игровое кино часто сводятся к прикрыванию огрехов, а то и хуже – добровольному самоограничению. Зачем придумывать сложные кадры, если модель все равно не справится?
Чем условнее визуальный язык, тем легче модели его удерживать, а контроль над стилем и является тем, что возвращает авторство в AI-продакшн. Промт может написать кто угодно, но выбор визуальных параметров, их удержание на дистанции, решения о склейках, аппликациях и обходах фильтров — это авторская работа в полном смысле слова.
Ну а то, что иногда приходится идти на компромисс или мириться с моделью, не отличающей лево от права, тоже неплохо – инструмент, который может все, развращает.