Модель Stable Diffusion 3 вышла вчера, 12 июня, сама модель SD3 Medium и примеры конфигурации были опубликованы в тот же день на Hugging Face. Попробовать модель пока можно только в ComfyUI и вот небольшая инструкция, как это сделать.

  1. Устанавливаем ComfyUI по инструкции

  2. Регистрируемся на Hugging Face, иначе у вас не будет доступа к репозиторию модели. После этого логинимся, заходим в репозиторий и принимаем пользовательское соглашение.

  3. Скачиваем файл модели sd3_medium_incl_clips.safetensors или, если позволяет объем памяти вашей видеокарты, sd3_medium_incl_clips_t5xxlfp8.safetensors. Разница между моделями в том, что первая содержит в себе сразу два текстовых энкодера (OpenCLIP-ViT/GCLIP-ViT/L), а вторая дополнительно содержит третий энкодер (T5-xxl). Его можно добавить позднее, положим в папку ComfyUI\models\clip, но можно обойтись и без него только первыми двумя.

  4. Кладем .safetensors файл в папку ComfyUI\models\checkpoints.

  5. Загружаем пример потока генерации для ComfyUI sd3_medium_example_workflow_basic.json. Вы также можете загрузить пример с мультипромптом и ресайзом изображения.

  6. Запускаем ComfyUI,

  7. Нажав на Load, загружаем json файл с примером workflow.

  8. Отсоединяем линки от блока TripleCLIPLoader.

  9. Щелкнув на желтую точку clip у CLIP Text Encode (Prompt) и CLIP Text Encode (Negative Prompt) тянем от них линию и подключаем линк к точке CLIP у Load Checkpoint.

  10. В Load Checkpoint выбираем модель sd3_medium_incl_clips.safetensors.

  11. В Seed ставим Control after generate в randomize, вводим промпт, нажимаем на Queue Prompt и наслаждаемся возможностями новой модели. На Nvidia RTX 4060 с 8 Гб видеопамяти генерация идет со скоростью 1.35-1.4 итераций в секунду и на картинку 1024x1024 с 30 итерациями уходит около 25 секунд.

P.S. Если у вас нет мощной видеокарты, то можно развернуть ComfyUI и модель на наших vGPU серверах. Как только поддержка SD3 появится в AUTOMATIC1111, мы добавим генерацию изображений с помощью нее в наш AI чат-бот.

Комментарии (8)


  1. Georrg
    14.06.2024 05:10
    +1

    Супер! Я вчера сунулся, а с которой стороны подступить - хз. Так что как минимум один очень довольный читатель у вас есть))


    1. akdengi Автор
      14.06.2024 05:10

      По уму конечно надо цеплять вот так t5xxl энкодер, чтобы промты на 4K токенов обрабатывать вместо 72+72, но у меня такое работает через раз и иногда генерация уходит в аут, отправляя энкодинг на CPU полностью, вместо offload. Поэтому если 8 гигов видеокарта, то без длинных промтов увы только.


  1. ALifeIsAMoment
    14.06.2024 05:10

    Кому интересно, следующие слова в начале промпта существенно улучшают качество изображений.

    ↑ trending on artstation ★★★★☆ ✦✦✦✦✦

    4/5 ★★★★☆

    artstation


    https://comfyanonymous.github.io/ComfyUI_examples/sd3/


    1. akdengi Автор
      14.06.2024 05:10

      Спасибо за подсказку, в SD3 они опять поменяли синтаксис.


  1. Dmitry_svit
    14.06.2024 05:10

    Спасибо за инструкцию! Все получилось. Буду благодарен, если подскажете, как генерировать качественные изображения в неквадратных пропорциях. По умолчанию в настройках стоит 1024х1024 - генерирует нормально. Когда поменял на 1920х1080, то тоже генерирует в нужных пропорциях, но словно квадрат в центре генерирует нормально, а боковины, необходимые для нужных пропорций достраивает позже и с качеством ощутимо ниже. Как сделать, чтобы изображение все было качественным, равномерно?


    1. akdengi Автор
      14.06.2024 05:10

      Модель в принципе квадратная, но если хотите не 1:1, то попробуйте суммарный размер в мегапиксель (1024x1024), например 1280x890. Больше размер уже апскейлом, есть третий пример в репозитории.


  1. CarmenBeauty
    14.06.2024 05:10

    а почему с SD 3 смеются на реддите? там чтото рисует уродливых людей.


    1. akdengi Автор
      14.06.2024 05:10

      Над SDXL тоже смеялись. У меня проблем с людьми нет.