Недавно я делал обзор по текстовым моделям, а теперь — визуал! Всё основано на моём практическом опыте и сотнях картинок. Ваше эстетическое чувство может быть другим, но вот мой топ и их краткое:

? ТОП-модели

1. Flux (семейство моделей от Black Forest Lab - BFL)

Описание:

Flux Pro Ultra 1.1 — на данный момент самая фотореалистичная модель. Используя параметр raw, можно получить максимально реалистичные и естественные фото.

Версии:

* PRO — стабильное качество. Полностью закрытая модель.

* DEV — дешевле, качество возможно при подборе промптов. Открытая некоммерческая модель (если использовать на своём сервере, а не на replicate/fal/freepik, то BFL требует 40% прибыли)

* Schnell — модель с лицензией на коммерческое использование (можно поставить на свой сервер без оплаты), но очень слабая. Поэтому сообщество дотренировало её множества кастомных моделей более достойных моделей (Flex, Chroma и др.)

Лоры:

* PRO: только через API Black Forest Labs, максимум 1000 шагов (результат не понравился)

* DEV/Schnell и производные модели поддерживают лоры, тренировать можно локально, на Replicate (дешевле), Fal (дороже) или Krea (нельзя скачать веса). Тренировка от 2-3 минут.

Фичи:

* Flux Kotext: позволяет по текстовому промпту менять фон, погоду, возраст, добавлять/убирать предметы, переносить одежду и лицо по 1 фото (не идеально).

Доступ:

Black Forest Labs, Replicate, Fal.aiKrea.ai

Цена:

От 2 до 6 центов за картинку

---

2. Midjourney V7

Описание:

Самая эстетичная модель. По умолчанию делает киношную картинку, люди выглядят как фотомодели.

Версии:

* Актуальны подвиды V6 и сама V7, есть возможность настройки параметров для большего реализма, хаотичноссти, детализации и так далее

Лоры:

* Лор нет, вместо этого можно натренировать свою стилистику-настройку или использовать чужую.

Фичи:

* Omni-reference: перенос предметов и людей по одному фото.

* Смена стиля, замена фона, добавление и удаление объектов.

Доступ:

Через сайт, Discord и сторонние сервисы (например, apiframe), API нет.

Цена:

От 3-4 центов (на relax-режиме на V6.1 можно генерировать сколько угодно).

---

3. Imagen v4

Описание:

Закрытая модель с отличным соотношением цена/качество, чем-то средним между Flux и Midjourney. Раньше генерила чернокожих индейцев и все над этим смеялись, сейчас стабильное качество.

Лоры:

* Нет

Фичи:

* Отлично слушается промпта, стабильное качество.

Доступ:

Есть на fal.ai и replicate, а также по официальному API от Google

Цена:

2,4,6 центов (fast/regular/ultra)

---

4. Recraft v3

Описание:

Создана бывшей сотрудницей Яндекса, заточена под дизайнеров — генерация маскотов, логотипов, рисованных картинок, 3D-объектов.

Лоры:

* Нет

Фичи:

* 50 бесплатных генераций каждые 3 часа.

* Огромное количество разных стилей для дизайнерских задач.

Доступ:

Есть на сайте, в fal.ai и replicate. Доступна по API, но закрытая.

Цена:

от $0.005 за картинку

---

? Крепкие середняки

5. Ideogram v3

Описание:

Модель всегда пытающаяся догнать Midjourney, даёт достаточно хорошее качество.

Версии:

* Turbo, Balanced, Quality (закрытые)

Лоры:

* Нет

Фичи:

* Реализм и креативность.

* Изменение фона, добавление и удаление объектов.

* Возможность создать свой стиль как Midjourney

Доступ:

На сайте Ideogram, fal.ai и replicate по API.

Цена:

3,6,9 центов (Turbo/Balanced/Quality)

---

6. Krea-1

Описание:

Закрытая авторская модель, по сути дообученный Flux. По эстетике чуть похожа на Midjourney. Переодически зачем-то генерит топлесс девушек (да-да, доступно НЮ!)

Лоры:

* Поддерживает свои flux-лоры (создаваемые в Krea).

Фичи:

* Библиотека стилей.

* 12 бесплатных фото в день.

* Raw режим (так себе)

Доступ:

Закрытая, API нет.

Цена:

Менее 1 цента за фото.

--

7. HiDream

Описание:

Китайская open-source модель, аналог Flux. Сложнее натренировать, но для предметки даёт качество лучше. В целом чуть более богатая картинка.

Версии:

* Fast/Dev/Full

Лоры:

* Поддерживает тренировки лор (нередко качественнее Flux).

Фичи:

* Можно тренировать на fal.ai.

Эстетика:

Похож на Flux, иногда даже лучше в детализации. Но нужно уметь хорошо промптить, иначе будет пластиковая кожа.

Доступ:

Fal.ai

Цена:

1/3/6 центов (Fast/Dev/Full)

---

8. Reve

Описание:

Знает Россию и её эстетику — реально генерит Пятёрочку, Сбербанк, отечественные объекты и даже известных личностей. Но арсенал функций очень маленьки

Лоры:

* Нет

Фичи:

* Очень хорошо слушается промпта

* Генерирует известных личностей и российские объекты (но не тексты)

* 20 бесплатных генераций ежедневно.

Доступ:

Закрытая, API нет.

Минус:

Арсенал функций ограничен, часто галлюционирует

Цена:

1 цент за фото

---

9. GPT-Image/Sora

Описание:

Авторегрессионная модель, умеет генерировать русский текст, известных лиц, хорошо слушается промптов.

Лоры:

* Нет

Фичи:

* Высокое следование промпту.

* Генерация русского текста и известных лиц.

Минусы:

Эстетика простая, часто "желтизна" или коричневый фильтр по умолчанию. При этом картинку делает чересчур как в жизни — с большим количеством человеческого несовершенства.

Доступ:

По подписке GPT и по API.

Цена:

Входит в подписку GPT. В API от 4 до 18 центов!

---

10. Кандинский

Описание:

Российская модель от Сбера, генерирует советских и российских персонажей.

Лоры:

* Нет

Фичи:

* Хорошо генерит чебурашку, Гагарина, русские образы.

* Бесплатно в Gigachat.

* Также в Gigachat можно неплохо редактировать изображение по промпту, что даже не сильно уступает Flux Kotext

Минусы:

Низкие детализация и реализм.

Доступ:

Она опен-сорсная

Цена:

Бесплатно.

---

? Другие (коротко):

* Stable Diffusion — классика, есть лоры, только чаще всего хуже Flux.

* Phoenix 1.0 — сносная дообученая Flux модель от Leonardo AI

* Seedance (Bytedance) — неплохой реализм, но пока очень скудный арсенал дополнительных функций

* Runway: Подходит только для перенос персонажа или предмета в фото

* Kolors (Kling), Photon (Luma), Buget (авторегрессия), Sana (Nvidia), Image-1 (Minimax), Шедеврум: В основном для галочки, серьёзно использовать не вижу смысла.

---

? Какую модель брать?

* Подходит для всего: Flux Pro, Imagen 4, меньше Ideogram

* Для обучения своих лор: Flux, или HiDream, если заморочиться

* Для эстетики: Midjourney, Krea-1

* Дизайнерам: Recraft

* Для русских задач: Reve, Кандинский, GPT-Image

* Для быстрых экспериментов и интеграций: Imagen и Flux на fal/replicate (библиотека стилей и низкая цена).

Промпт для сравнения картинок из сетов выше

low angle photo of a stylish woman staring down into the lens, wooden mask held beside her face in one hand, editorial fashion photography, sharp details, photorealistic, full body or bust-up, neutral tones, soft studio light or overcast daylight

P.S. Важно — лучшие модели всегда зависят от вашей задачи и эстетики, поэтому пробуйте и сравнивайте сами.

P.P.S. По-прежнему все модели переодически делают 6 пальцев или галлюцинируют иначе, панацеи нет

--

Загляните в мой тг-канал, где я делюсь инсайтыми и лайфхаками по ИИ-разработке, вайбкодингу и генеративке.

Комментарии (2)


  1. 7313
    20.06.2025 22:05

    И где-то грустно вздохнул Хачатур со своим https://flexy-ai.com/ :)


  1. CBET_TbMbI
    20.06.2025 22:05

    Для русских задач: Reve, Кандинский, GPT-Image

    Это по какой логике? Кандинский понятно, а какие аргументы у остальных? И вообще ЖПТ перестал банить по географическому признаку?