Привет! InvokeAI 2.2 теперь доступен для всех. В этом обновлении добавлены UI Outpainting, Embedding Management и другие функции. Ознакомьтесь с выделенными обновлениями ниже, а также с полным описанием всех функций, включенных в релиз.

Что такое InvokeAI? 

Сегодня состоялся релиз InvokeAI 2.2: A Stable Diffusion Toolkit, проекта, цель которого — предоставить энтузиастам и профессионалам набор надежных инструментов для создания и редактирования изображений с помощью нейросети. InvokeAI требует всего ~3,5 Гб видеопамяти для создания изображений 512x768 пикселей (и еще меньше для 512х512), и совместим с Windows/Linux/Mac с M1 и M2.

InvokeAI это интерфейс и оптимизированная реализация нейросети Stable Diffusion. InvokeAI был одним из самых ранних форков основного репозитория CompVis, а теперь превратился в полноценный инструментарий Stable Diffusion с открытым исходным кодом под названием InvokeAI.

Унифицированный холст 

В веб-интерфейсе теперь есть бесконечный холст для inpainting, outpainting, img2img, sketch2img и txt2img, чтобы вы могли оптимизировать свой творческий процесс. Код холста был переписан для значительного повышения производительности и поддержки множества функций, вроде кисти, неограниченной истории, отображения прогресса генерации в реальном времени и многого другого.

Управление моделями для стилизации (embeddings) 

Легко добавляйте модели с Huggingface прямо в «Инвок», используя токен для создания нужного стиля (модель подтянется автоматически). Возможность одновременного использования нескольких моделей позволяет легко импортировать и изучать различные стили в рамках одной сессии!

Просмотрщик 

В веб-интерфейсе теперь есть просмотрщик, позволяющее более детально изучить ваши генерации. Больше не нужно открывать изображения во внешнем файловом проводнике, даже если речь идет о больших картинках!

Установка в 1 клик 

С автоматическими инсталляторами использование «Инвок» стало еще проще. Наши пакеты для разных ОС (Mac M1/M2, Windows и Linux) помогут вам настроить все необходимое. Наш инсталлятор с исходниками доступен сейчас, а исполняемые файлы появятся в ближайшие день-два. Нажимайте и начинайте!

Поддержка семплера DPM++ (экспериментальная) 

Добавлена поддержка DPM++! Пожалуйста, обратите внимание, что это экспериментальный вариант, и он может быть изменен в будущем, так как мы продолжаем совершенствовать нашу внутреннюю систему.

Что нас ждет? 

Мы постоянно обсуждаем и исследуем новые идеи, чтобы сделать InvokeAI лучшим приложением с каждым релизом. Начинается работа над созданием модульной архитектуры бэкенда, которая позволит нам поддерживать очереди, атомарное выполнение, легко добавлять новые функции и многое другое. 

В скором времени мы также официально добавим поддержку SD2.0. Если вы разработчик, который в настоящее время использует InvokeAI в качестве бэкенда, мы приглашаем вас присоединиться к обсуждению и предоставить обратную связь, чтобы мы могли создать лучшую систему из возможных.

Наши ценности 

Поскольку InvokeAI все чаще используется творческими профессионалами и коммерческими проектами, мы считаем важным поделиться нашими ценностями с сообществом, которое решило поверить в нашу работу.

Команда InvokeAI полностью привержена созданию инструментов, которые не только продвигают этот невероятный мир генеративного искусства дальше, но и расширяют возможности художников и креативщиков, которые играют ключевую роль в этой экосистеме. 

Мы считаем, что наша роль в разработке этого программного обеспечения этична, и стремимся осмысленно реагировать на все проблемы сообщества. Чтобы узнать больше, пожалуйста, ознакомьтесь с нашим заявлением здесь.


Если вы разработчик, желающий развить или внести свой вклад в проект, профессионал, ищущий профессиональные инструменты для внедрения в свой рабочий процесс, или просто ищете отличный опыт работы с SD с открытым исходным кодом, мы будем рады, если вы присоединитесь к сообществу.

Вы можете получить последнюю версию на GitHub, а также присоединиться к сообществу в discord здесь.


О себе: Меня зовут Артур Нецветаев, я менеджер продуктов, предприниматель и дизайнер интерфейсов. Я участвую в разработке интерфейса InvokeAI и пользуюсь им сам с момента создания.

Комментарии (14)


  1. vaniacer
    02.12.2022 18:22
    +2

    Выглядит очень круто!


  1. inferrna
    02.12.2022 18:30
    +2

    Вот смотрю я требования, а там либо GPU Nvidia, либо M1. Но чуть выше написано, что ROCM всё-таки можно. Упомяните в требованиях Linux + ROCM, а то в ваш текущий шаблон багрепорта эту недоработку не протолкнуть.


    1. netsvetaev Автор
      02.12.2022 18:38

      Спасибо, сообщу команде. Да, линуксы работают, АМД кое-как тянет (но только на линуксах и маках). Но лучше все-таки нвидия.


  1. veydlin
    02.12.2022 21:41
    +1

    Есть ли поддержка обучения? Например, создание моделей dreambooth, или, что мне очень не хватает, создание своих моделей из датасета?


    1. netsvetaev Автор
      02.12.2022 23:39
      +1

      Пока нет, но это в ближайших планах. Очень хочется сделать простой интерфейс для обучения. Пока план такой: перевод бекенда на новый api и diffusers (упростит поддержку и сильно ускорит генерацию), затем ноды и далее обучение. Учитывая наши темпы, это займет 3-4 недели.


  1. mm3
    03.12.2022 09:48
    +3

    Технически Stable Diffusion можно запустить только на CPU без привязки к GPU с большим количеством видео памяти. Да это будет работать на порядки медленней, но будет работать. Если бы это было сделано в режиме установки в 1 клик то это сделало бы модель ещё более народной. Вообще идеальный результат видится как запуск генерации изображения любого размера без ограничений с использованием всех доступных ресурсов.
    Так же популярности возможно добавила бы мультиязычность. Я конечно понимаю что для этого скорее всего надо иметь переобученную модель, возможно даже немного другой архитектуры, но такие модели уже существуют, например от того же сбера.


    1. diogen4212
      03.12.2022 10:24
      +3

      Вообще идеальный результат видится как запуск генерации изображения любого размера без ограничений с использованием всех доступных ресурсов.

      тут проблема в размере обучающих изображений в датасете… Я на своей видеокарте могу делать изображения более 1024 пикселей по большей стороне, а с CPU и обычной оперативкой наверное смог бы ещё больше, но композиция начинает повторяться и в целом результат того не стоит


    1. ainu
      03.12.2022 12:37
      +1

      Вообще идеальный результат видится как запуск генерации изображения любого размера без ограничений с использованием всех доступных ресурсов.

      Изза особенностей SD на не-паттернах (лес, узоры и так далее) наилучший результат будет именно на 512*512, а для увеличения можно пользоваться тем же свиниром. Дело не совсем в мощностях. Если иметь бесконечно мощную видеокарту, то при попытке нарисовать миллион на миллион пикселей, мы вероятно получим тысячеглазое или тысячеликое нечто.


    1. netsvetaev Автор
      03.12.2022 14:54

      технически вы можете и сейчас запускать на цпу, там есть выбор устройства. Только ждать один рендер 6-10 минут, когда даже на маке это теперь занимает 50 секунд (а с релизом эпловской реализации для core ml скорость выросла в два раза), странное занятие.


    1. netsvetaev Автор
      03.12.2022 14:55

      Мультиязычность на коленке организовать легко: подключить гугл-транслейт поверх. Кстати, некоторая часть русского языка в базе есть.


  1. NeoCode
    03.12.2022 13:33

    Было бы неплохо, если бы вы в принципе рассказали что это и как с этим работать для тех кто совсем не в теме:) Ну и аппаратные требования конечно, я так понимаю нужна мощная видеокарта и много видеопамяти?


    1. vassabi
      03.12.2022 14:43

      смотря что вы считаете мощной видеокартой. 4ГБ нвидия на ноутбуке у дочки - справляется


    1. netsvetaev Автор
      03.12.2022 14:56
      +1

      Простите, я пишу об этом уже пару месяцев. Вот первый пост, там больше объяснений https://habr.com/en/post/693512/. Буду теперь добавлять абзац про форк.


    1. netsvetaev Автор
      03.12.2022 14:57

      4гб, от нвидии 1070.