Stability AI представила Stable Diffusion 3.5: Тестируем новую модель реальных задачах и сравниваем с SDXL и FLUX Искусственный интеллект, Нейронные сети, Stable Diffusion, Sdxl, Flux, Обновление, Генерация изображений, Арты нейросетей, Длиннопост

Привет, друзья, 22 октября Stability AI представила долгожданное обновление своей флагманской модели — Stable Diffusion 3.5. После не самого удачного релиза SD3 Medium в июне этого года, команда взяла паузу для серьёзной переработки архитектуры. Вместо быстрых фиксов разработчики потратили четыре месяца на фундаментальные улучшения. Меня зовут Илья, я основатель онлайн-нейросети для создания изображений ArtGeneration.me, техноблогер и нейро-евангелист и сейчас мы с вами вместе разберемся, что изменилось и действительно ли стоило так долго ждать.

Революция в архитектуре

Stability AI представила Stable Diffusion 3.5: Тестируем новую модель реальных задачах и сравниваем с SDXL и FLUX Искусственный интеллект, Нейронные сети, Stable Diffusion, Sdxl, Flux, Обновление, Генерация изображений, Арты нейросетей, Длиннопост

Ключевым изменением стал переход на архитектуру MMDiT (Multimodal Diffusion Transformer). В отличие от предыдущих версий, новая модель использует сразу три предобученных текстовых энкодера. Это серьезное техническое решение, которое потребовало значительной переработки всей архитектуры.

Технические особенности:

  • Принципиально новая архитектура MMDiT с тремя специализированными текстовыми энкодерами:

    • OpenCLIP-ViT/G для понимания общего контекста и стилей

    • CLIP-ViT/L для детального анализа визуальных элементов

    • T5-XXL для обработки сложных текстовых описаний и пространственных отношений

  • Внедрение QK-нормализации для стабилизации работы трансформеров, что позволяет лучше контролировать процесс генерации и упрощает дальнейшую настройку модели

  • Увеличенная до 256 токенов длина контекста на этапе тренировки, что улучшает понимание детальных промптов

  • Оптимизированный VAE-декодер с 16 каналами и без постквантизации для лучшей цветопередачи и детализации

Три модели для разных задач

Впервые Stability AI предлагает сразу три варианта модели. Флагман линейки — Stable Diffusion 3.5 Large с 8 миллиардами параметров, способный работать с разрешением до 1 мегапикселя. Для задач, где критична скорость, создана версия Large Turbo, выдающая результаты всего за 4 шага. Модель генерирует на RTX 4090 за 20 секунд.

А 29 октября ожидается релиз Stable Diffusion 3.5 Medium — облегченной версии с 2.5 миллиардами параметров. Эта модель оптимизирована для работы на обычных компьютерах и поддерживает генерацию изображений от 0.25 до 2 мегапикселей.

Честно о компромиссах

Разработчики открыто говорят об особенностях новой версии. Расширение базы знаний и стилей привело к тому, что модель стала менее предсказуемой при работе с неконкретными промптами. Это сознательное решение — сохранить максимально широкую базу знаний в базовых моделях, давая пользователям больше возможностей для тонкой настройки под свои задачи.

Сравнительное тестирование

Мы провели тестирование SD 3.5 в сравнении c SDXL 1.0 и Black Forest FLUX.1 dev. В такой же последовательности ниже представлены результаты - SD 3.5 затем SDXL 1.0 и потом Black Forest FLUX.1 dev. Пишите в комментарии где по вашему лучший результат. Сид и настройки генерации идентичные. Модели SD 3.5 понятно стандартная, запущенная в комфи на этом воркфлоуSDXL модель это Juggernaut XL V9 на ArtGeneration.me и Flux 1 dev nf4 v2 запущенная в Forge.

Тест фотореализма

ultra-detailed professional photography: close-up portrait of a weathered elderly craftsman in his workshop, natural window lighting casting dramatic shadows, every wrinkle and skin texture visible, Canon EOS R5, 85mm f/1.2 lens, 4K resolution, hyperrealistic details of wood shavings and tools in background, condensation droplets on nearby water glass, dust particles in sunbeams, {realistic skin pores, subsurface scattering, chromatic aberration}, professional color grading, photojournalistic style, award-winning National Geographic quality, RAW format

Тест цифровой иллюстрации

epic digital art: futuristic cyberpunk marketplace at golden hour, holographic merchant stalls floating between neon-lit skyscrapers, hundreds of detailed alien species trading exotic goods, volumetric fog effects, ray-traced lighting, cinematic color grading, intricate mechanical details, 8K resolution, created in Unreal Engine 5, {ambient occlusion, global illumination, metal roughness mapping}, concept art quality, trending on ArtStation, otherworldly atmosphere, dynamic composition

Тест аниме-стиля

high-end anime artwork: magical academy graduation ceremony, cherry blossoms swirling in wind, diverse student characters with unique magical artifacts and detailed uniform designs, golden magic circles appearing in sky, Studio Ghibli quality backgrounds, perfect cel shading, emotional lighting, multi-layered particle effects, {clean line art, detailed eyes, dynamic fabric flow}, masterful composition, vibrant color palette, cinematic aspect ratio, high production value

Тест типографики

experimental typography design: 'EVOLUTION' text morphing from ancient hieroglyphs into futuristic digital script, each letter contains detailed micro-scenes of human progress, metallic 3D elements with scratch textures, dynamic perspective, precise kerning, neon accents, floating geometric shapes, 32K resolution, {perfect antialiasing, vector precision, multiple light sources}, professional typographic hierarchy, cutting-edge design trends, seamless transitions

Тест точности композиции

classical concert hall setting, professional orchestra performance scene, female conductor with flowing crimson tailcoat centered in golden ratio, cellist in navy suit and violinist in ivory dress in foreground, pianist in black tuxedo and harpist in silver gown performing, flutist in forest green and clarinetist in burgundy at middle distance, trumpet player in charcoal gray and french horn in purple creating depth, timpanist in white and black, violist in sapphire blue, bass player in russet brown and oboist in slate gray completing background, mahogany-paneled walls, golden baroque details, red velvet curtains, polished hardwood stage, dramatic stage lighting, 8K resolution, hyperrealistic details, concert photography, professional staging

Тест сложной сцены

steam locomotive train station evening scene, tall station master in burgundy gold-trimmed uniform checking ornate pocket watch at center platform, wealthy family of four (father in navy tailcoat and top hat, mother in emerald bustle dress with parasol, son in brown suit with newsboy cap, daughter in powder blue dress) waiting near left platform, three vendors (copper-vested coffee seller, gray-capped newspaper boy, girl in white apron selling flowers) working near entrance, engineering team in brass uniforms and oil-stained overalls inspecting locomotive, three traveling academics (professor in tweed, assistant in olive dress, student in burgundy uniform) consulting large map, steampunk mechanical details, brass and copper fixtures, billowing steam effects, gas lamps casting warm light, photorealistic quality, 8K resolution, cinematic framing

Доступность и использование

Модель распространяется под Stability AI Community License, которая предполагает свободное использование для исследований и некоммерческих целей. Коммерческое использование разрешено компаниям с годовым доходом до $1 млн, для более крупных организаций предусмотрена Enterprise License.

А что насчет ??

Тут ситуация точная такая же, как и с Flux, из дата сета был убран весь NSFW контент, в результате модель просто не знает что должно быть у людей под одеждой и рисует - что-нибудь типа одежды в лучшем случае, что-нибудь типа человеческой многоножки - в худшем. Как мы видим с Flux - файтюнингом ситуация не решается.

Полезные ссылки и ресурсы

Официальные ресурсы

Модели и код

Прямые ссылки на скачивание моделей

Необходимые энкодеры

Что дальше?

29 октября ожидается релиз Stable Diffusion 3.5 Medium, а следом за ним — выход ControlNet с расширенными инструментами контроля над генерацией. Судя по дорожной карте, команда Stability AI сфокусирована на развитии профессиональных инструментов и улучшении пользовательского опыта.

Stability AI представила Stable Diffusion 3.5: Тестируем новую модель реальных задачах и сравниваем с SDXL и FLUX Искусственный интеллект, Нейронные сети, Stable Diffusion, Sdxl, Flux, Обновление, Генерация изображений, Арты нейросетей, Длиннопост

Новый релиз Stable Diffusion демонстрирует, что команда Stability AI серьезно подошла к работе над ошибками после не самого удачного запуска SD3. Вместо быстрых фиксов они провели фундаментальную работу над архитектурой и представили продукт, учитывающий различные сценарии использования. Но стало ли лучше? Об это судить вам.

Предлагаю протестировать новую версию на своих задачах и поделиться результатами в комментариях. Интересно узнать, как SD 3.5 показывает себя в реальных проектах и стилях.

Я рассказываю больше о нейросетях у себя на YouTube, в телеграм и на Бусти. Буду рад вашей подписке и поддержке. Всех обнял и удачных генераций.

Комментарии (17)


  1. breslavsky
    22.10.2024 21:19

    Почему все так не любят NSFW?


    1. timonin Автор
      22.10.2024 21:19

      Хотят больших корпоративных денег, а корпоратам NSFW не надо, им надо чтобы безопасно все было =)


    1. br0
      22.10.2024 21:19

      Может ждут когда порнхаб захочет стать спонсором?


      1. breslavsky
        22.10.2024 21:19

        Может скинуться всем тогда? :-)


  1. tempick
    22.10.2024 21:19

    Тут ситуация точная такая же, как и с Flux, из дата сета был убран весь NSFW контент, в результате модель просто не знает что должно быть у людей под одеждой и рисует - что-нибудь типа одежды в лучшем случае, что-нибудь типа человеческой многоножки - в худшем. Как мы видим с Flux - файтюнингом ситуация не решается.

    Я не сильно шарю в этом, но на civitai много Lora, которые дают nsfw генерировать с FLUX. Сам не пробовал ибо flux мой ноут не вывозит, но примеры вижу.


    1. timonin Автор
      22.10.2024 21:19

      Они работают очень плохо и по факту подходят лишь для инпентинга.


      1. AlexRihter9690
        22.10.2024 21:19

        Хз, какой-нибудь йиффмикс очень даже неплохие результаты даёт


    1. tukreb
      22.10.2024 21:19

      Очень плохо работает, и не предсказуемо. Иногда буквально нужно заниматься магией ломать токены, неправильно писать слова или не закрывать скобки, чтобы оно хоть как то приблизилось к нужному результату. Этой самой магией часто и занимаются все те у кого получилось идеальное изображение, вы можете увидеть их промты, если они ими поделились.

      Пока самые идеальные модели это всё те же SD 1.5. Даже всеми любимая Pony, проигрывает старым SD.


      1. falseshepard
        22.10.2024 21:19

        Все беды от архитектуры. Что Flux, что 3.0, что 3.5 ломаются об одну простую проблему - ваш промпт видоизменяется "под капотом". И ничего с этим сделать пока нельзя.


  1. dyadyaSerezha
    22.10.2024 21:19

    В тексте новая большая модель - до 1 мегапикселя, а средняя - до 2. Не очепятка?


  1. 7313
    22.10.2024 21:19

    Ну для начала 3.5 так и не умеет пальцы. Ну и по мелочам - по непонятным (хотя вполне объяснимым причинам) она практически не знает лиц знаменитостей и морфы типа ((Margot Robbie:0.7) (Scarlett Johansson:0.4):1.1) похоже навсегда остались в эпохе 1.5 и SDXL, окончательно задвинут в угол токен "Natural skin texture" и от пластмассы будем избавляться лорами как и во Flux. И кстати про токены - все эти запросы стиля 1.5/SDXL из примеров она же все равно переводит в какую-то понятную себе последовательность слов и и идее обычный "натуральный" язык в 3.5 должен работать поточнее.


  1. shadrap
    22.10.2024 21:19

    "Тест точности композиции"- смычки в "воздухе" пальцы в уже "привычном" беспорядке... а лица... вы видели эти женские прекрасные лица... это ж монстры)


    1. Antocyan
      22.10.2024 21:19

      Да уж, с пальцами всё достаточно плохо у всех моделей, а SD ещё и лица не умеет рисовать в сложных композициях. Может это улучшается настройками, кол-вом итераций и подобным?


  1. Lokai
    22.10.2024 21:19

    Нет nsfw - остаюсь на pony. Какая-то деградация нейросети, чем дальше, тем меньше умеет.


    1. tukreb
      22.10.2024 21:19

      Pony не умеет в ControlNet, так же проблемы с Промтами, модель часто ломается и выдаёт радужный шум вместо изображения. Лечиться конечно это танцами, понижать приоритеты или удалять слова, пока модель не перестанет выдавать шум. В общем ни какой предсказуемости. А вот ControlNet решает все проблемы SD 1.5, от пальцев, до лиц.


  1. ENick
    22.10.2024 21:19

    На HuggingFace, по приведенной автором ссылке, в двух местах указано, что "метод нормализации QK для повышения стабильности обучения."


  1. ENick
    22.10.2024 21:19

    Кстати, сегодня получил сообщение от email.stability.ai:

    • Stable Diffusion 3.5 Medium (будет выпущен 29 октября) : с 2,5 миллиардами параметров, улучшенной архитектурой MMDiT-X и методами обучения эта модель предназначена для работы «из коробки» на потребительском оборудовании, обеспечивая баланс между качеством и простотой настройки. Она способна генерировать изображения с разрешением от 0,25 до 2 мегапикселей.