
Недавно я делал обзор по текстовым моделям, а теперь — визуал! Всё основано на моём практическом опыте и сотнях картинок. Ваше эстетическое чувство может быть другим, но вот мой топ и их краткое:
? ТОП-модели
1. Flux (семейство моделей от Black Forest Lab - BFL)
Описание:
Flux Pro Ultra 1.1 — на данный момент самая фотореалистичная модель. Используя параметр raw, можно получить максимально реалистичные и естественные фото.
Версии:
* PRO — стабильное качество. Полностью закрытая модель.
* DEV — дешевле, качество возможно при подборе промптов. Открытая некоммерческая модель (если использовать на своём сервере, а не на replicate/fal/freepik, то BFL требует 40% прибыли)
* Schnell — модель с лицензией на коммерческое использование (можно поставить на свой сервер без оплаты), но очень слабая. Поэтому сообщество дотренировало её множества кастомных моделей более достойных моделей (Flex, Chroma и др.)
Лоры:
* PRO: только через API Black Forest Labs, максимум 1000 шагов (результат не понравился)
* DEV/Schnell и производные модели поддерживают лоры, тренировать можно локально, на Replicate (дешевле), Fal (дороже) или Krea (нельзя скачать веса). Тренировка от 2-3 минут.
Фичи:
* Flux Kotext: позволяет по текстовому промпту менять фон, погоду, возраст, добавлять/убирать предметы, переносить одежду и лицо по 1 фото (не идеально).
Доступ:
Black Forest Labs, Replicate, Fal.ai, Krea.ai
Цена:
От 2 до 6 центов за картинку
---
2. Midjourney V7
Описание:
Самая эстетичная модель. По умолчанию делает киношную картинку, люди выглядят как фотомодели.
Версии:
* Актуальны подвиды V6 и сама V7, есть возможность настройки параметров для большего реализма, хаотичноссти, детализации и так далее
Лоры:
* Лор нет, вместо этого можно натренировать свою стилистику-настройку или использовать чужую.
Фичи:
* Omni-reference: перенос предметов и людей по одному фото.
* Смена стиля, замена фона, добавление и удаление объектов.
Доступ:
Через сайт, Discord и сторонние сервисы (например, apiframe), API нет.
Цена:
От 3-4 центов (на relax-режиме на V6.1 можно генерировать сколько угодно).
---
3. Imagen v4
Описание:
Закрытая модель с отличным соотношением цена/качество, чем-то средним между Flux и Midjourney. Раньше генерила чернокожих индейцев и все над этим смеялись, сейчас стабильное качество.
Лоры:
* Нет
Фичи:
* Отлично слушается промпта, стабильное качество.
Доступ:
Есть на fal.ai и replicate, а также по официальному API от Google
Цена:
2,4,6 центов (fast/regular/ultra)
---
4. Recraft v3
Описание:
Создана бывшей сотрудницей Яндекса, заточена под дизайнеров — генерация маскотов, логотипов, рисованных картинок, 3D-объектов.
Лоры:
* Нет
Фичи:
* 50 бесплатных генераций каждые 3 часа.
* Огромное количество разных стилей для дизайнерских задач.
Доступ:
Есть на сайте, в fal.ai и replicate. Доступна по API, но закрытая.
Цена:
от $0.005 за картинку
---

? Крепкие середняки
5. Ideogram v3
Описание:
Модель всегда пытающаяся догнать Midjourney, даёт достаточно хорошее качество.
Версии:
* Turbo, Balanced, Quality (закрытые)
Лоры:
* Нет
Фичи:
* Реализм и креативность.
* Изменение фона, добавление и удаление объектов.
* Возможность создать свой стиль как Midjourney
Доступ:
На сайте Ideogram, fal.ai и replicate по API.
Цена:
3,6,9 центов (Turbo/Balanced/Quality)
---
6. Krea-1
Описание:
Закрытая авторская модель, по сути дообученный Flux. По эстетике чуть похожа на Midjourney. Переодически зачем-то генерит топлесс девушек (да-да, доступно НЮ!)
Лоры:
* Поддерживает свои flux-лоры (создаваемые в Krea).
Фичи:
* Библиотека стилей.
* 12 бесплатных фото в день.
* Raw режим (так себе)
Доступ:
Закрытая, API нет.
Цена:
Менее 1 цента за фото.
--
7. HiDream
Описание:
Китайская open-source модель, аналог Flux. Сложнее натренировать, но для предметки даёт качество лучше. В целом чуть более богатая картинка.
Версии:
* Fast/Dev/Full
Лоры:
* Поддерживает тренировки лор (нередко качественнее Flux).
Фичи:
* Можно тренировать на fal.ai.
Эстетика:
Похож на Flux, иногда даже лучше в детализации. Но нужно уметь хорошо промптить, иначе будет пластиковая кожа.
Доступ:
Цена:
1/3/6 центов (Fast/Dev/Full)
---
8. Reve
Описание:
Знает Россию и её эстетику — реально генерит Пятёрочку, Сбербанк, отечественные объекты и даже известных личностей. Но арсенал функций очень маленьки
Лоры:
* Нет
Фичи:
* Очень хорошо слушается промпта
* Генерирует известных личностей и российские объекты (но не тексты)
* 20 бесплатных генераций ежедневно.
Доступ:
Закрытая, API нет.
Минус:
Арсенал функций ограничен, часто галлюционирует
Цена:
1 цент за фото
---

9. GPT-Image/Sora
Описание:
Авторегрессионная модель, умеет генерировать русский текст, известных лиц, хорошо слушается промптов.
Лоры:
* Нет
Фичи:
* Высокое следование промпту.
* Генерация русского текста и известных лиц.
Минусы:
Эстетика простая, часто "желтизна" или коричневый фильтр по умолчанию. При этом картинку делает чересчур как в жизни — с большим количеством человеческого несовершенства.
Доступ:
По подписке GPT и по API.
Цена:
Входит в подписку GPT. В API от 4 до 18 центов!
---
10. Кандинский
Описание:
Российская модель от Сбера, генерирует советских и российских персонажей.
Лоры:
* Нет
Фичи:
* Хорошо генерит чебурашку, Гагарина, русские образы.
* Бесплатно в Gigachat.
* Также в Gigachat можно неплохо редактировать изображение по промпту, что даже не сильно уступает Flux Kotext
Минусы:
Низкие детализация и реализм.
Доступ:
Она опен-сорсная
Цена:
Бесплатно.
---
? Другие (коротко):
* Stable Diffusion — классика, есть лоры, только чаще всего хуже Flux.
* Phoenix 1.0 — сносная дообученая Flux модель от Leonardo AI
* Seedance (Bytedance) — неплохой реализм, но пока очень скудный арсенал дополнительных функций
* Runway: Подходит только для перенос персонажа или предмета в фото
* Kolors (Kling), Photon (Luma), Buget (авторегрессия), Sana (Nvidia), Image-1 (Minimax), Шедеврум: В основном для галочки, серьёзно использовать не вижу смысла.
---
? Какую модель брать?
* Подходит для всего: Flux Pro, Imagen 4, меньше Ideogram
* Для обучения своих лор: Flux, или HiDream, если заморочиться
* Для эстетики: Midjourney, Krea-1
* Дизайнерам: Recraft
* Для русских задач: Reve, Кандинский, GPT-Image
* Для быстрых экспериментов и интеграций: Imagen и Flux на fal/replicate (библиотека стилей и низкая цена).
Промпт для сравнения картинок из сетов выше
low angle photo of a stylish woman staring down into the lens, wooden mask held beside her face in one hand, editorial fashion photography, sharp details, photorealistic, full body or bust-up, neutral tones, soft studio light or overcast daylight
P.S. Важно — лучшие модели всегда зависят от вашей задачи и эстетики, поэтому пробуйте и сравнивайте сами.
P.P.S. По-прежнему все модели переодически делают 6 пальцев или галлюцинируют иначе, панацеи нет
--
Загляните в мой тг-канал, где я делюсь инсайтыми и лайфхаками по ИИ-разработке, вайбкодингу и генеративке.
Комментарии (2)
CBET_TbMbI
20.06.2025 22:05Для русских задач: Reve, Кандинский, GPT-Image
Это по какой логике? Кандинский понятно, а какие аргументы у остальных? И вообще ЖПТ перестал банить по географическому признаку?
7313
И где-то грустно вздохнул Хачатур со своим https://flexy-ai.com/ :)