Обзор на разнообразные интерфейсы Stable Diffusion. Automatic1111

Главная
Обзор на разнообразные интерфейсы Stable Diffusion. Automatic1111 — не одинок

Обзор на разнообразные интерфейсы Stable Diffusion. Automatic1111 — не одинок +32

27.12.2024 09:01

Realife 7 3100 Источник

Для многих пользователей, занимающихся генерацией изображений с помощью ИИ у себя дома, интерфейс Automatic1111 стал стандартным. Однако мир ИИ-технологий не стоит на месте, и появляются новые инструменты и интерфейсы, которые могут предложить ещё больше возможностей и удобства. В этой статье я рассмотрю, какие альтернативы существуют для Automatic1111 и ComfyUI и почему вам стоит обратить на них внимание.

Вы ведь наверняка не слышали о такой штуке, как программа, позволяющая использовать Stable Diffusion для создания и редактирования текстур 3D-моделей с полной UV-разверткой? Или о полноценной бесплатной замене ИИ-инструментария Photoshop, которая доступна совершенно бесплатно и без всяких «но»? Однако статья — не просто подборка случайных программ. Сначала мы изучим основы и немного историю, а затем перейдём к самому интересному.

О разнообразии интерфейсов Stable Diffusion

В мире технологий редко можно встретить устройство, которое не имеет аналогов. Инновации приводят к созданию не только новых решений, но и множества способов работы с ними. Это особенно заметно в области искусственного интеллекта, где каждый новый прорыв быстро сопровождается появлением дополнительных платформ и интерфейсов. В середине августа 2022 года компания Stability AI представила свою первую полностью бесплатную модель нейросети для генерации изображений по тексту (промту). Новинка сразу привлекла многих разработчиков, и всевозможные интерфейсы начали появляться как грибы после дождя, сразу как только стали понятны основные принципы взаимодействия с ней.

Мона Лиза от мира ИИ, фотография астронавта верхом на лошади. Stable Diffusion 1.0

Разные подходы к решению одной задачи не только создают конкуренцию, но и дают пользователям возможность выбрать платформу, которая лучше всего подходит их потребностям. От простых и понятных решений для новичков до мощных платформ для профессионалов — современный технологический рынок предлагает варианты для всех.

Начало начал — Automatic1111(A1111)

Automatic1111 — это очень популярный веб-интерфейс для работы с нейросетевой моделью генерации изображений Stable Diffusion. Первый релиз состоялся 22 августа 2022 года, и он быстро завоевал популярность благодаря удобству использования и широким возможностям настройки. Сейчас с ним знаком почти каждый.

Поддерживает не только Stable Diffusion, но и другие модели, такие как Flux, Pony и многие другие. За последние полгода значительно расширил аппаратную поддержку различных устройств, включая GPU от AMD и Intel, а также NPU. Несмотря на расширенную поддержку, имеет некоторые проблемы по сравнению с другими интерфейсами. Веб-интерфейс обладает огромным количеством пользовательских настроек и возможностей кастомизации. Я довольно долго им пользовался, и единственная особенность, которая мне нравится в нём больше, чем в остальных интерфейсах, — это галерея. Лучшей компоновки метаданных я не встречал в других подобных платформах.

▍ NMKD

NMKD Stable Diffusion GUI — это графический интерфейс для работы с моделью Stable Diffusion, разработанный пользователем с ником NMKD. Релиз состоялся сразу после A1111, 30 августа 2022 года. Основная цель — облегчить использование мощной модели генерации изображений на основе текста для широкой аудитории, даже без навыков программирования или глубокого понимания работы нейронных сетей. Программа представлена в виде .exe файла, но также доступен открытый исходный код на GitHub. Техническая реализация интерфейса выполнена с помощью C# и .NET, а взаимодействие с библиотеками, необходимыми для запуска, реализовано посредством вызовов в библиотеку Python.NET — довольно-таки необычное решение. Однако это не помешало программе выполнять свою роль, и она пользовалась спросом долгое время.

Относительно недавно разработка прекратила активное развитие. Скомпилированных обновлений версий нет уже год, поэтому использовать его я бы не рекомендовал. Интерфейс вполне стандартный, хотя лично мне дизайн не очень нравится, однако для первопроходца в этой области он вполне приемлем.

▍ ComfyUI

ComfyUI — это уже заезженный и популярный графический интерфейс на основе связок (chain). Представляет собой графическую оболочку для работы с нейросетевыми моделями, специализирующуюся на генерации изображений с использованием методов диффузии, аналогичных тем, что применяются в таких моделях, как Stable Diffusion. Первый релиз состоялся 13 марта 2023 года, опередив даже A1111, который стартовал в виде бинарника 24 июня 2023 года. Техническая часть полностью реализована на Python. Нельзя сказать, что интерфейс 2023 года сильно отличался от того, что есть сейчас.

Скриншот старого интерфейса

Однако по функциональности это, несомненно, два разных мира. За период чуть больше года ComfyUI обзавелся тремя сайтами сообщества, обширной базой модификаций для узлов и рабочих процессов. Помимо множества оптимизаций, добавления поддержки различных моделей и прочих улучшений, он значительно расширил свои возможности. Интересно также то, что в отличие от A1111, в случае с AMD ROCm вручную подбирать параметры для запуска практически не приходится, а сбои случаются значительно реже. Для стабильной работы достаточно только параметров --force-fp32 --novram. Это делает его более доступным и удобным для пользователей с различными конфигурациями оборудования.

▍ SD.Next

Ответвление от A1111, появился в конце 2022 года, 24 декабря. Является чем-то вроде экспериментальной площадки или dev-версии обычного A1111 в упрощённом понимании. В сравнении с ним, лучше работает на AMD и TensorRT. То есть доп. настройки не нужны в случае с ROCm или DirectML, чем грешат практически все интерфейсы для работы с нейросетями для рисования.

Значительно отличается в дизайне от A1111, мне он кажется более удобным. Развитие идёт постоянно, в то время как A1111 часто становится на паузу на месяц-другой. Даже сам разработчик A1111 часто делает commits для него.

▍ Stable Projectorz (Windows)

Представитель нестандартного, узкоспециализированного использования Stable Diffusion. Stable Projectorz — это продвинутая программа на базе ИИ, созданная для генерации качественных текстур для 3D-моделей. Разработана как инструмент для художников и разработчиков, позволяющий значительно упростить и ускорить процесс создания текстур. Использует Stable Diffusion и ControlNet, что позволяет проецировать 2D-изображения на 3D-модели с сохранением UV-развёртки. Бесплатна для использования в коммерческих и некоммерческих проектах, при этом требуется указание авторства.

Техническая реализация программы не до конца ясна, но на официальном сайте указано «Powered by Automatic1111, ComfyUI, StabilityAI, Forge webui». Несмотря на кажущуюся несовместимость этих компонентов, успешно функционирует. Интересно отметить, что эта технология могла бы стать отличным инструментом для создания различных модификаций игр. Например, можно было бы извлечь текстуры модели одежды Лары Крофт из оригинальной игры и переработать их в один клик, создав уникальный новый дизайн одежды для персонажа.

На самом деле перечислять все подобные программы можно ещё очень долго, так что остановимся на этом примере как на ярком представителе применений технологии Stable Diffusion в узкоспециализированной среде.

Имплементации Stable Diffusion в другие программы

▍ Krita AI Diffusion

Плагин AI Diffusion для Krita расширяет функциональные возможности этого программного обеспечения для цифрового рисования. Krita уже известна своим разнообразием инструментов, а добавление генеративного наполнения позволяет художникам экспериментировать с новыми подходами. Среди доступных функций — генерация цвета, расширение изображения с добавлением новых элементов, удаление и добавление объектов, а также замена заднего фона. Модель Flux, использующаяся в этом плагине, предлагает альтернативу Adobe Firefly с таким же простым и удобным интерфейсом.

Я применил заливку, поскольку Flux не имеет модели Inpaint, но при кадрировании этот метод работает практически так же эффективно, что я и продемонстрировал

Запуск возможен как через облако interstice, так и локально, при наличии необходимых мощностей. Конечно, если мы говорим о Flux, там нужно хотя бы 8 ГБ VRAM и относительно живой чип GPU, и даже в этом случае процесс может быть довольно медленным. Однако есть ещё модели Stable Diffusion XL и 1.5, с которыми обычно не возникает проблем. Мне удалось запустить даже на RX 6600 с ROCm, хотя для локального запуска потребовались значительные усилия. Работа плагина реализована посредством бэкенда ComfyUI.

Локальный запуск с SD 1.5

▍ ChaiNNer

ChaiNNer — это мощный инструмент для обработки изображений с использованием графического интерфейса на основе узлов. Полностью открытый исходный код. Изначально разработан для увеличения разрешения изображений с помощью нейросетей, но со временем его возможности значительно расширились.

Появились узлы для подключения к внешнему API A1111. То есть вы совершаете локальный запуск A1111 на своем компьютере, а затем подключаетесь к нему. С помощью этого можно собрать интересные конструкции, например, генерация изображения с помощью Stable Diffusion XL в 1024x1024, а затем апскейл с помощью апскейлера на архитектуре DAT, что даст изображение крайне высокого качества. Также есть и другие инструменты, такие как расширение кадра, инпейнт и image2image. Учитывая, насколько много инструментов в себе имеет ChaiNNer, это позволяет создать действительно удобные конвейеры для работы, и это будет значительно проще, чем ComfyUI. Однако ChaiNNer не может быть полноценной заменой, так как не обладает таким же количеством разнообразных узлов от сообщества, а скорее является более удобным для работы с обычным инструментарием при обработке изображений.

Заключение

Разнообразие интерфейсов для работы со Stable Diffusion демонстрирует, насколько быстро развивается область генеративного ИИ. От универсальных решений вроде Automatic1111 и ComfyUI до специализированных инструментов наподобие Stable Projectorz — каждый находит свою нишу и аудиторию. Эти платформы не только упрощают взаимодействие с нейросетями, но и расширяют возможности их применения в различных сферах — от создания цифрового искусства до разработки игр. При этом ключевую роль играет сообщество разработчиков, которое постоянно совершенствует эти платформы.

Выбор конкретного интерфейса зависит от задач пользователя, его технической подготовки и доступного оборудования. Некоторые решения, как SD.Next, отличаются лучшей поддержкой определенных видов GPU, другие, как ComfyUI, позволяют создавать сложные конвейеры обработки изображений. Важно отметить, что развитие этих инструментов идет параллельно с совершенствованием самих моделей генерации изображений. Это приводит к постоянному появлению новых возможностей и улучшений в пользовательских интерфейсах, делая работу с генеративным ИИ более продуктивной и интересной для широкого круга людей.

© 2024 ООО «МТ ФИНАНС»

Telegram-канал со скидками, розыгрышами призов и новостями IT ?

Комментарии (7)

RealLazyCat
27.12.2024 11:18
#27720034
а как же Fooocus?
1. Realife Автор
  27.12.2024 11:18
  #27720248
  Раннее о нем не слышал, но со слов знакомого, это единственный интерфейс где можно было нормально пользоваться sdxl ещё со старта модели
  1. falseshepard
    27.12.2024 11:18
    #27722074
    XL прекрасно работает в Forge и Comfy. Фокус - очень упрощённый интерфейс, похожий на MJ. Особо узкие вещи там не сделать, но побаловаться можно.

heinrich_wirth
27.12.2024 11:18
#27720342
Спасибо за статью

Где же были раньше, когда искал интерфейсы простые, что бы поиграть XD

timonin
27.12.2024 11:18
#27720592
Очень странный набор, где Forge, где Fooocus, swarm и многие многие другие...
1. alexanderniki
  27.12.2024 11:18
  #27722830
  DiffusionBee тоже

assdestr0yer
27.12.2024 11:18
#27721464
Действительно очень зря Fooocus здесь нет, у меня есть актуальная статья по запуску Fooocus в google colab в пару кликов https://habr.com/ru/articles/825142/