Прошло полгода с момента релиза прорывной на тот момент генеративной модели от OpenAI и 5 месяцев с того момента, как я выложил статью 20+ кейсов с изображениями в ChatGPT. Или экономим 100,000₽+ на дизайнерах
В этой большой статье хочу показать то, как улучшилась генерация за это время
Прелюдия
Сразу с момента релиза у генераций ChatGPT были проблемы в этих направлениях ⤵️
Консистентная перегенирация лиц или других объектов, если хочется делать стабильно. На фоне этого было создано огромное кол-во стартапов, тот же higgsfield.ai со своим Soul ID
Плохой рендеринг шрифтов. Сильно лучше, чем у его прошлой версии — DALL·E, но всё ещё недостаточный для Production-уровня. Особенно с языками, отличными от английского
Плохая работа с несколькими нужными объектами на одном кадре, считай та же проблема консистентности.
Сложно делать мелкие доработки. Улучшил одно — сломалось другое
Отсутствие инструментов кадрирования — произвольное понимание размеров изображения и того, как и в какой пропорции оно должно быть вписано во фрейм, не позволяло создавать промо уровня продакшена
С этого момента вышли два больших релиза, которые наконец-то умеют делать то, с чем не мог справиться ChatGPT.
Эти два релиза — Nano Banana в конце августа, а затем Nano Banana 2 в конце ноября. Эти ??? как раз таки и решают те проблемы, которые были у ChatGPT.

Кстати, интересный note, Gemini в этот раз поступили нестандартно и перебили свою лучшую модель Nano Banana своей же Nano Banana 2.
Сейчас в AI мире принято перебивать своим релизом эффектный релиз конкурента, как в меме
Несколько важных уточнений
-
Я не пишу промпты каждого изображения, чтобы не раздувать статью до галактических масштабов. Если хотите сделать аналогичные сцены, то просто закиньте изображение в LLM и напишите:
"напиши промпт, которым было создано это изображение"
Или скиньте исходник в чат, попросите сгенерировать аналог и затем уже спросите, какой промпт для генерации использовал
В этой статье я не разбираю популярные генерации с Nano Banana, а хочу именно сравнить то, какие изменения произошли за пол года
Дальше в статье под ? ChatGPT генерацией будет следовать генерация ? Nano Banana 2 версии
Я старался сжать некоторые изображения, но не сжимал те, где хотел оставить возможность рассмотреть детали. Поэтому статья может быть немного тяжелой по трафику
А теперь к делу — посмотрим, как эволюционировала генерация изображений за эти пол года
Это будет полезно и для того, чтобы посмотреть на эволюцию генерации изображений, да и просто чтобы глянуть кейсы применения.
Вначале будут те примеры, с которыми и ChatGPT ещё в момент релиза справлялся на очень хорошем уровне ?
Смена стилей в рамках одной сцены
ChatGPT ?

Nano Banana ?

Генерация из реального объекта — фигурки динозавра — в изображение
Исходное фото ⤵️

ChatGPT ?

Nano Banana ?

А вот пример создания обложек для маркетплейса из моей реальной лампы
Исходное изображение ⤵️

ChatGPT ?

Nano Banana ?
Видно, как общий дизайн, композиция и шрифты стали лучше, но и у GPT были норм варианты

Но как мне кажется все, что не связано с реалистичными изображениями и с физикой реального мира — еще ChatGPT делал на хорошем уровне. Всякие обложки или изображения в разном стиле у него получались отлично
Поэтому я буду делать меньше акцента на примерах, которые связаны просто с иллюстрациями и стилем, а больше покажу разницу в примерах из реального мира, большого количества объектов и с текстом
А теперь давайте посмотрим на примеры, где Nano Banana стала сильно лучше, чем ChatGPT ⤵️⤵️⤵️
Пример №1 — генерация сложных изображений из фото
На примере выше мы генерировали изображения лампы из фото.
Поэтому я закинул фотку своего велосипеда и попросил добавить текст про вилку и про трансмиссию
Если всмотреться в изображения, то в деталях становится видно, как Nano banana лучше понимает внешний вид сложных объектов, таких как велосипед
На примере с лампой это было не так заметно, но на примере с велосипедом это стало уже сильно заметнее
ChatGPT ?

Nano Banana ?

Пример №2 — генерация большого количества объектов в 1 сцене
Для ChatGPT выбрал самолет, для ?— машину
ChatGPT ?

Nano Banana ?

Сцена посложнее
ChatGPT ?

Nano Banana ?

И сложность Ultra в исполнении Nano Banana ???

Промпт для генерации рюкзакаСделай инфографику "Что должно быть в рюкзаке туриста при походе на 4 дня в горы (Портретная ориентация). Вид сверху на вещи, разложенные на полу + надписи и вес каждой вещи примерно
Пример №3 — как улучшилась работа с кириллицей
У ChatGPT до сих пор в русских словах английские буквы проскакивают
ChatGPT ?

Nano Banana ?

Как видно, Nano Banana 2 сильно прокачалась в работе со шрифтами. Я еще дальше это покажу, но вот вам пример поговорки кириллицей курсивной, встроенной в рельеф сцены

Пример №4 — консистентность лиц и их реалистичность
Этот пример актуален не только для лиц, но и вообще для всех объектов в кадре. ChatGPT их каждый раз создает с нуля, и не всегда 1 в 1
ChatGPT ?

Nano Banana ?

Пример №5 — генерация сцены с мелкими деталями
Покажу на примере сета иконок из придуманного мной маскота
ChatGPT ?

Nano Banana ?

Пример №6 — создание текстовых каруселей
ChatGPT ?

Nano Banana ?
Тут он сделал мозаику, а не в одну карточку все засунул. Поэтому я нарезал результат и получились разные размеры
Но не считая этого косяка — карусельки очень хорошо теперь получаются, как на английском, так и на русском. Чуть поиграться с кадрированием и примеры ему закинуть, и вообще отлично будет

Пример №7 — создание инфографики и слайдов для презентаций
ChatGPT ?

Nano Banana ?

Следующие генерации хорошо получались и у ChatGPT, и у Banana
Изменение обустройства квартиры
Промпт примерно одинаковый — поменяй диван на розовый и поставь крейзи лампу
ChatGPT ?
Видно, что инструкцию выполнил хорошо, но поменял дизайн комнаты в деталях

Nano Banana ?
Тут все супер, ничего кроме задания не изменилось

Ну и че бы не сделать видос ?
Создание чеков или других документов
ChatGPT ?
Результат плюшевый, но сам копирайтинг вполне хорош

Nano Banana ?
Результат тут уже такого уровня, что можно и поверить

Создание меню
Исходное фото моей сковородки ⤵️

ChatGPT ?

Nano Banana ?

Следующие задания со звездочкой уже для всех
? Создание раскадровки из одного кадра
На входе даете картинку с промптом — получаете 9 вариантов в разных кинематографических ракурсах. Понравился один — напишите его название и банана отдаст вам его в высоком разрешении. Дальше закидываешь в любую видео-нейросеть как стартовый и финальный кадр — и готово.
Промпт
Analyze the entire composition of the input image. Identify ALL key subjects present (whether it's a single person, a group/couple, a vehicle, or a specific object) and their spatial relationship/interaction.
Generate a cohesive 3x3 grid "Cinematic Contact Sheet" featuring 9 distinct camera shots of exactly these subjects in the same environment.
You must adapt the standard cinematic shot types to fit the content (e.g., if a group, keep the group together; if an object, frame the whole object):
Row 1 (Establishing Context):
Extreme Long Shot (ELS): The subject(s) are seen small within the vast environment.
Long Shot (LS): The complete subject(s) or group is visible from top to bottom (head to toe / wheels to roof).
Medium Long Shot (American/3-4): Framed from knees up (for people) or a 3/4 view (for objects).
Row 2 (The Core Coverage): 4. Medium Shot (MS): Framed from the waist up (or the central core of the object). Focus on interaction/action. 5. Medium Close-Up (MCU): Framed from chest up. Intimate framing of the main subject(s). 6. Close-Up (CU): Tight framing on the face(s) or the "front" of the object.
Row 3 (Details & Angles): 7. Extreme Close-Up (ECU): Macro detail focusing intensely on a key feature (eyes, hands, logo, texture). 8. Low Angle Shot (Norm's Eye): Looking up at the subject(s) from the ground (imposing/heroic). 9. High Angle Shot (Bird's Eye): Looking down on the subject(s) from above.
Ensure strict consistency: The same people/objects, same clothes, and same lighting across all 9 panels. The depth of field should shift realistically (bokeh in close-ups).
A professional 3x3 cinematic storyboard grid containing 9 panels.
The grid showcases the specific subjects/scene from the input image in a comprehensive range of focal lengths.
Top Row: Wide environmental shot, full view, 3/4 cut. Middle Row: Waist-up view, chest-up view, Face/Front close-up. Bottom Row: Macro detail, Low Angle, High Angle.
All frames feature photorealistic textures, consistent cinematic color grading, and correct framing for the specific number of subjects or objects analyzed.
Исходное фото ⤵️

ChatGPT ?

Nano Banana ?

Ну и как пример применения, из 1 исходного кадра с помощью Nano Banana и Veo 3.1 у нас получилась раскадровка для вдохновения и вполне хороший видос на выходе, который если и для Production не подойдет, то как итоговое ТЗ оператору — вполне
Для видоса я попросил Nano Banana сгенерировать отдельно в хорошем качестве Low & High Angle, и затем засунул эти генерации в Veo 3.1
? Генерация комнаты по схеме сверху

ChatGPT ?
Немного некорректно выбрал исходную точку, но понимание объектов в итоге вполне нормальное

Nano Banana ?
Лучше определил угол, откуда я просил сделать кадр. И детали сделал лучше

? Обратная генерация — сделать схему по виду из комнаты
Для вида из комнаты я создал генерацию квартиры и попросил на ее основе сделать схему
ChatGPT ?
Ему это задание всегда плохо давалось. За пол года ничего не изменилось, переход на модель 5.1 не помог

Nano Banana ?
Та часть, которую видно, достаточно хорошо отображена. Видно и туалет , и стол, и входную группу

? Сделать деталь по чертежу
ChatGPT понял форм-фактор, но сделал сильно хуже, чем Banana
ChatGPT ?

Nano Banana ?

И вот еще от ???

Как итог
Я уже практически не генерирую изображения в ChatGPT. Nano Banana очень быстро стала №1 в этом направлении. Единственное, что иногда иллюстрации мне больше нравятся в ChatGPT как раз-таки из-за их плюшевого стиля. Банана часто пытается слишком реалистично даже иллюстрации рисовать, утяжеляя их лишними деталями
Задача |
ChatGPT |
Nano Banana |
Вердикт |
|---|---|---|---|
Иллюстрации, стиль |
✅ Хорошо |
✅ Хорошо |
Оба норм |
Кириллица в дизайне |
⚠️ Так себе |
✅ Отлично |
Banana |
Фото → продакшен |
⚠️ Средне |
✅ Отлично |
Banana |
Консистентные серии |
❌ Плохо |
✅ Отлично |
Banana |
Сложные сцены (5+ объектов) |
❌ Плохо |
✅ Хорошо |
Banana |
Получается, что мы стали еще ближе к Production Ready Images. Если в эру ChatGPT я, как дизайнер, пропустил бы в продакшен около 5% генераций в определенных узкоспециализированных задачах, то с Nano Banana 2 я пускал бы в прод уже около 70% задач
На что я смотрел при сравнивании двух моделей
Для каждой категории использовал одинаковые исходники и максимально близкие промпты. Критерии оценки:
Точность следования инструкции
Консистентность
Production-readiness — можно ли использовать без доработки
Время на получение приемлемого результата. Как в количестве попыток, так и во времени на 1 генерацию
Всего сделал 60+ генераций в каждой модели для написания этого поста
Немного про меня, раз вы уже досюда дочитали ?
Я несколько лет провожу воркшопы для RU компаний. Как онлайн, так и в Москве оффлайн. Чаще всего это интерактивы, к которые плотно вплетены юзкейсы для конкретных команд, а не шаблонные лекции.
И основное правило 80% практики и 20% теории
Основные запросы, которые я помогаю закрывать
Как создавать контент с AI и проходить стадию черновика кратно быстрее
Показать топ-менеджменту реальные кейсы внедрения AI в их работе
Построить систему работы с AI-инструментами для команды или даже для всей компании
Провести аудит: в каких бизнес процессах внедрение прикладного AI даст сильный буст, а где пока рано
Если вы хотите для себя понять, как и что можно делегировать AI, то тоже welcome
Мой контакт https://t.me/Ilya_Plv

???