В этой статье я расскажу вам о том, как установить, развернуть и использовать 7 моделей Flux на разных платформах.
Что такое Flux?
Flux - это новая крупная модель, разработанная Black Forest Studio - группой, состоящей из бывших участников Stability AI. Несмотря на то, что модель появилась относительно недавно, она быстро завоевала прочную репутацию благодаря высокому качеству изображений и техническому мастерству.
Почему Flux так популярен?
Ответ прост: великолепное качество изображения. В то время как средняя версия SD3 от Stability AI имеет 2 миллиарда параметров обучения, а самая старшая модель - 8 миллиардов, Flux вырывается вперед с ошеломляющими 12 миллиардами параметров в трех разных моделях. Это означает, что каждая модель занимает 22 ГБ, что говорит о мощности и возможностях Flux.
Три модели, официально представленные Black Forest Studio, включают:
Версия PRO (только доступ по API)
Dev Version (версия с открытым исходным кодом)
Schnell Version (ускоренная версия с открытым исходным кодом)
Версия PRO генерирует изображения самого высокого качества, в то время как версии dev и schnell доступны для более широкого круга пользователей. Из этих версий версия schnell оптимизирована для создания высококачественных изображений за меньшее количество шагов, что делает ее самой быстрой среди вариантов с открытым исходным кодом.
Основные преимущества модели Flux
Высокое качество изображений. Flux создает фотореалистичные изображения, которые стирают границы между реальным и сгенерированным контентом. Он может создавать текстуры с потрясающей глубиной, а в сочетании с такими инструментами, как Runway Gen-3, вы сможете добиться визуальных эффектов кинематографического качества.
Улучшенный рендеринг рук. Для художников и дизайнеров модель Flux решает одну из постоянных проблем, возникающих при создании изображений с помощью ИИ: руки. Хотя модель не идеальна, ее способность генерировать реалистичные руки, будь то у людей или мультипликационных персонажей, на данный момент является одной из лучших.
3. Гибкая генерация шрифтов. Вам нужно создать индивидуальную типографику или креативные плакаты? Flux отлично справляется с генерацией шрифтов, позволяя пользователям создавать стильные дизайны с помощью правильных промптов.
4. Универсальная адаптация к стилю. Благодаря широким параметрам обучения Flux может работать с самыми разными художественными стилями и сложными визуальными концепциями, что делает его идеальным для разнообразных творческих проектов.
5. Гибкость разрешения. Flux может работать с различными разрешениями, от 0,1 до 2,0 мегапикселей. Кроме того, он поддерживает встроенные вставки SD1.5 и SDXL, не требуя отдельных негативных промптов.
Обзор 7 моделей Flux
В настоящее время в линейке моделей Flux представлены:
Pro
Dev FP16
Dev FP8
Schnell FP16
Schnell FP8
GGUF
NF4
Выбор правильной модели
Для большинства пользователей наилучшим качеством обладает модель Dev FP16. Однако она требовательна к ресурсам и требует высокопроизводительного GPU, например NVIDIA RTX 4090. Если ваше оборудование не тянет, воспользуйтесь версией FP8, которая вдвое меньше (11 ГБ) и позволяет добиться почти такого же качества. Модель FP8 быстрее и экономичнее в плане памяти, но для создания мельчайших деталей FP16 все же лучше.
Модели Schnell
Модели schnell оптимизированы с точки зрения скорости: они генерируют изображения за 4-8 шагов по сравнению с 20 шагами, характерными для версии Dev. Хотя качество результатов немного снижается, более быстрая обработка может быть полезна для быстрых итераций.
Модели GGUF и NF4
Если для запуска модели FP8 у вас мало ресурсов, вы можете выбрать версии GGUF или NF4, которые специально оптимизированы для меньшего потребления памяти.
Версия GGUF. Доступны варианты от Q2 до Q8, рассчитанные на разный объем памяти графического процессора. Пользователи с 6 ГБ памяти GPU могут работать с моделями до Q4, а карты с 8 ГБ - с Q5 и выше.
Версия NF4. Эта модель напрямую интегрирует текстовые кодировщики CLIP, VAE и T5, что приводит к увеличению размера (11,22 ГБ), но для работы требуется всего 8 ГБ памяти GPU. Хотя NF4 не так детализирована, как GGUF Q8, она обеспечивает хорошую производительность при меньших требованиях к памяти.
Как установить и развернуть модель Flux
Настройка Flux в WebUI Forge
Загрузите Forge. Зайдите на страничку WebUI Forge на GitHub и загрузите последнюю версию.
Добавьте модели Flux. Поместите модель Flux в папку models в Forge.
Запустите Forge. Запустите run.bat для инициализации установки. Первый запуск может занять до 30 минут для установки всех необходимых компонентов.
4. Выберите режим Flux. Находясь в интерфейсе Forge, выберите модель NF4. Рекомендуемые настройки:
Sampler: Euler
Schedule Type: Simple
CFG Scale: 3.5
При такой настройке вы сможете генерировать высококачественные изображения с помощью Flux без негативных промптов, поскольку они уже встроены в архитектуру модели.
Использование Flux с ComfyUI
Обновите ComfyUI. Убедитесь, что ComfyUI обновлен до последней версии.
2. Загрузите и установите необходимые модели. Следуйте подробным инструкциям, доступным здесь, для установки базовых моделей и импорта рабочих процессов.
3. Дополнительные плагины для моделей GGUF и NF4:
GGUF: Установите необходимый пакет node из репозитория на GitHub.
NF4. Установите плагин из этого репозитория.
Настройка рабочего процесса
Для моделей GGUF вам потребуется:
Скачайте файл GGUF с сайта HuggingFace и поместите его в каталог ComfyUI/models/unet.
Используйте DualCLIPLoader для управления файлами CLIP, включая clip_I.safetensors.
3. Скачайте файл T5-XXL Clip и поместите его в каталог ComfyUI/models/clip.
Для NF4 требуется специализированный загрузчик (CheckpointLoaderNF4), а поскольку модель включает CLIP и VAE, дополнительные узлы не нужны.
Flux быстро занял место главной альтернативы Midjourney, предлагая исключительную гибкость и качество для художников и разработчиков. Однако у него есть свои недостатки - например, ограниченная совместимость с ControlNet и высокие требования к аппаратному обеспечению. Несмотря на эти проблемы, Flux стремится к постоянному росту, расширяя экосистему настраиваемых моделей и LoRA.
Поняв сильные стороны каждой модели Flux и правильно настроив их, вы сможете раскрыть новые уровни творческого потенциала своих изображений, сгенерированных искусственным интеллектом.
Комментарии (17)
NeoCode
14.12.2024 09:56Эх...В моем понимании, по отношению к AI моделям, "бесплатное" - это когда не нужно платить не только за доступ к сервису, но и за дорогущую видеокарту:)
ZlobniyShurik
14.12.2024 09:56Можно и без дорогущей видеокарты, но скорости там будут а ля картинка раз в два часа.
devoln
14.12.2024 09:56Я запустил на ноуте с 3070 Ti 8 GB. Flux schnell в Q5 давал картинку за полминуты, dev за 3 минуты. С Hyper8 step LoRA за 1 минуту. За день бесплатно нагенерировал сотни картинок. Можно было ещё и на ночь поставить, но решил дать ноуту время остыть.
AlekseyKey
14.12.2024 09:5615 т.руб - б.у rtx3050 8gb - shell просчитает 1024х1024 step 4 - от 2 минут, dev step 25 от 5 минут.
Dynasaur
14.12.2024 09:56на geforece gtx 1080 8gb имеет смысл пытыться что-то поставить?
snuk182
14.12.2024 09:56На GTX 1060 ноутбучной Stable Diffusion вполне себе бодрячком, нужны только драйвера посвежее.
indikv
14.12.2024 09:56Да, у меня именно эта карточка, Dev не всегда срабатывает, а schnell работает чётко, без проблем и относительно быстро.
combo_breaker
14.12.2024 09:56Shuttle 3 Diffusion - дообученный на бо́льшую "эстетичность" вариант быстрой модели Flux Schnell: https://huggingface.co/shuttleai/shuttle-3-diffusion
michael108
14.12.2024 09:56Интересно, а можно взять фотку, например, кота или собаки, и сделать из него контурный рисунок в стиле книги для детей? Тут важна не фотореалистичность, а общая "детскость" и "милота" изображения.
Или вообще сделать свой собственный карандашный рисунок (кривыми руками, естессно), и "облагородить" его в требуемом стиле? Например, в стиле Диснея?kalemas
14.12.2024 09:56Да, управляющие модели - LineArt/Canny - туда и обратно. Детскость и милота, если попросите это текстом, модель в эту сторону и будет отрисовывать, просто милота во многом зависит от рисунка как раз, а Canny проведет границу объекта именно там где у вас будет линия.
StarJohn
14.12.2024 09:56Ошибка: в Forge дефолтное значение CFG должно быть 1, а вот Distilled CFG должно быть 3.5.
Впрочем, я вижу, что люди уже широко с этим экспериментируют.
anoneko
А еще шакальнее картинки для сравнения качества и скрины с текстом можно?
NeyroEntuziast Автор
Это изображения автора статьи, так что извините )
NeyroEntuziast Автор
Плюс при загрузке изображений на Хабр редактор, возможно, дополнительно сжимает их.