«Кот-астронавт ныряет в море, полное милых рыб, элегантный, высокая детализация, плавный, резкий фокус, красивый, полное тело, кинематографический, 8k» by Kandinsky 2.2
«Кот-астронавт ныряет в море, полное милых рыб, элегантный, высокая детализация, плавный, резкий фокус, красивый, полное тело, кинематографический, 8k» by Kandinsky 2.2

2023 год можно смело называть годом бурного развития генеративного искусственного интеллекта. Это касается не только привычной нам модальности изображений (Kandinsky 2.1, Stable Diffusion XL, IF, Шедеврум и др.), но и текстовой (ChatGPT, GPT-4, LLaMA, Falcon, GigaChat и др.), аудио (VALL-E, MusicLM и др.), 3D (Magic3D и др.), и даже модальности видео (Gen-2, CogVideo и др.). При этом ни в одном из направлений выделить объективного лидера почти невозможно — все команды стараются равномерно двигаться вперёд и повышать качество синтеза. Текстовые чат‑боты научились взаимодействовать с внешними системами посредством плагинов, синтез изображений вышел на уровень фотореалистичных генераций, длина генерируемых видео постепенно увеличивается с сохранением сюжетной связности между кадрами. И такой прогресс обусловлен уже не только наращиванием вычислительных мощностей, но и большим числом неординарных архитектурных решений, которые позволяют добиваться лучшего качества.

С момента выхода Kandinsky 2.1 (4 апреля 2023 года) прошло чуть больше трёх месяцев, и вот сегодня мы анонсируем новую версию модели в линейке 2.X. И если архитектурно модель не претерпела кардинальных изменений, то в части расширения функционала получила существенное развитие. В первую очередь, мы сделали упор на повышение качества генераций и их разрешения, а также новых возможностях синтеза изображений. Список ключевых изменений включает в себя следующие:

  • разрешение генераций теперь достигло 1024 px по каждой стороне (в 2.1 было 768 px);

  • генерация может иметь любое соотношение сторон (в 2.1 были только квадратные генерации);

  • генерируемые изображения стали более фотореалистичными;

  • появился функционал ControlNet, что добавляет возможность вносить локальные изменения на картинке, не меняя всей композиции сцены.

  • появился функционал генерации стикеров (генерация происходит с помощью добавления в конце промпта слова «sticker», после этого специальная модель сегментации удаляет фон); таким образом, можно генерировать стикеры на любую тему и даже собирать целые стикерпаки в ТГ.

    Рисунок 1. Слева — генерация стикера по запросу «Игрушечный улыбающийся милый осьминог в чёрной шляпе»; справа — генерация стикера по запросу «Red sport car» (by Kandinsky 2.2)
    Рисунок 1. Слева — генерация стикера по запросу «Игрушечный улыбающийся милый осьминог в чёрной шляпе»; справа — генерация стикера по запросу «Red sport car» (by Kandinsky 2.2)

Немного статистики про версию Kandinsky 2.1 к настоящему времени:

  • более 70 млн генераций;

  • 1 млн уникальных пользователей был достигнут за первые 4 дня после релиза.

Протестировать модель на своих запросах можно уже известным многим способами: 

  • в Telegram-боте (доступны 6 режимов генерации);

  • с помощью фреймворка diffusers;

  • на сайте fusionbrain.ai (доступна генерация по тексту и режимы inpainting/outpainting);

  • на платформе MLSpace ​​в хабе предобученных моделей и датасетов DataHub;

  • в навыке Салют «Включи художника»;

  • на сайте rudalle.ru;

  • в боте в VK.

Архитектура и детали обучения

Архитектура модели была описана в статье про Kandinsky 2.1, поэтому в этой части я не буду подробно останавливаться на её описании, но приведу схематический вид модели и опишу внесённые изменения.

Рисунок 2. Слева — принцип обучения Image Prior модели (Diffusion Mapping); справа — принцип генерации изображения по тексту (Kandinsky 2.2)
Рисунок 2. Слева — принцип обучения Image Prior модели (Diffusion Mapping); справа — принцип генерации изображения по тексту (Kandinsky 2.2)

Основным изменением в рамках базовой архитектуры является замена визуального энкодера для обучения Image Prior модели на больший CLIP-ViT‑G, что позволило увеличить качество генерируемых изображений. Ввиду замены энкодера пришлось переучить Image Prior (Diffusion Mapping) модель (1 млн итераций) и далее выполнить файнтюнинг диффузионной части U-Net (200 тыс. итераций). В ходе обучения мы использовали данные различного разрешения от 512 до 1536 пикселей и различным соотношением сторон.

Принцип работы некоторых других режимов Kandinsky 2.2 можно изучить на следующей схеме:

Рисунок 3. Слева — принцип генерации изображения, похожего на заданное (вариация изображения); по центру — принцип смешивания двух изображений; справа — принцип смешивания изображения и текста
Рисунок 3. Слева — принцип генерации изображения, похожего на заданное (вариация изображения); по центру — принцип смешивания двух изображений; справа — принцип смешивания изображения и текста

Новая версия модели содержит 4,6 млрд параметров, а увидеть основные отличия Kandinsky 2.1 и 2.2 можно в таблице ниже. 

Kandinsky 2.1

Kandinsky 2.2

Тип модели

Latent Diffusion

Latent Diffusion

Число параметров

3,3 млрд

4,6 млрд

Текстовый энкодер

0,6 млрд 

0,6 млрд 

Diffusion Mapping

1,0 млрд 

1,0 млрд 

U-Net

1,2 млрд 

1,2 млрд 

ViT

0,5 млрд 

1,8 млрд 

MoVQ

0,08 млрд 

0,08 млрд 

Объем датасета

1,2 млрд пар

1,5 млрд пар 

Качество изображения

Хорошее
(768×768)

Очень хорошее
(1024×1024), разные соотношения сторон

Релиз

4 апреля 2023

12 июля 2023

Для того, чтобы каждый мог оценить качество новой модели Kandinsky 2.2, мы по традиции выкладываем веса в open source на следующих источниках:

Возможности ControlNet

Как уже было отмечено выше, одним из преимуществ новой версии является возможность использования функционала ControlNet. В чем же сила и особенность этой доработки?

Ключевым недостатком всех генеративных моделей является невозможность контролировать процесс синтеза. Это означает, что вы можете долго мучаться с подбором промпта для создания сцены (которую вы себе уже возможно даже нарисовали в голове), но в точности попасть в ваши ожидания модель не в силах по ряду причин. Для решения этой проблемы учёные из Стэнфорда предложили ввести дополнительные ограничениям на генерацию с помощью добавления входных условий в состав condition части модели. Таким образом можно управлять положением какого‑то объекта, его формой, позой, контурами/границами. Пример показан на рисунке ниже — здесь авторы показывают как можно использовать результат выделения контуров алгоритмом Канни для создания дополнительного входного условия на состав сцены.

ControlNet на основе карты контуров исходного изображения.
Рисунок 4. ControlNet на основе карты контуров исходного изображения.

Как можно видеть из рисунка, положение и форма оленя на картинке не изменились, но изменился внешний вид объектов. Как будто мы взяли несколько копий одной раскраски и попросили художника нарисовать оленя на рассвете в горах, оленя на зелёном лугу, белого оленя в зимнем лесу и пятнистого оленя на фоне деревьев в лесу.

С целью имплементации этого функционала в новой версии Kandinsky 2.2 мы встроили дополнительный слой перед диффузионным блоком U-Net, который сворачивает дополнительный condition (карта глубины, контуры Канни и т. д.) к shape входного шума. После создания такого вектора, он конкатенируется с основным шумом, и дальше U-Net учится учитывать это дополнительное условие в модели. Наиболее интересным входным ограничением на наш взгляд является карта глубины, которая позволяет лучшим образом контролировать структуру сцены. Для построения такой карты мы использовали модель оценки depth map по изображению — MiDaS. Внедрение этого режима потребовало 100 тыс. итераций в режиме файнтюнинга на 8 GPU.

Рисунок 5. Принцип работы ControlNet (Kandinsky 2.2) на основе карты глубины
Рисунок 5. Принцип работы ControlNet (Kandinsky 2.2) на основе карты глубины

Сравнение версий Kandinsky 2.X

Мы также решили провести сравнение генераций различных версий модели на нескольких промптах, и даже по этому небольшому набору можно сделать вывод о том, как изменяется (улучшается) степень детализации сцены и её композиция.

Рисунок 6. Сравнение трёх версий Kandinsky: 2.0, 2.1 и 2.2
Рисунок 6. Сравнение трёх версий Kandinsky: 2.0, 2.1 и 2.2

Примеры генераций Kandinsky 2.2

В этом разделе показаны различные генерации модели Kandinsky 2.2 из совершенно разных доменов в самых разных стилевых окрасах: люди, пейзажи, абстракции, объекты, взаимодействующие объекты и др. Описания для генерации на двух языках, а что самое интересное — модель может синтезировать изображения по смайликам — призываю всех обязательно с этим поэкспериментировать :)

Telegram-бот

Обновленная модель Kandinsky 2.2 доступна для использования в Telegram‑боте по ссылке. В боте доступны 6 режимов работы с моделью:

  1. Синтез изображений по тексту

  2. Смешивание двух изображений.

  3. Смешивание изображения и текста.

  4. Синтез изображений, похожих на референсное.

  5. Генерация стикеров.

  6. Изменение изображения с сохранением карты глубины (ControlNet).

При генерации изображений доступны 3 базовых стиля, которые получаются добавлением соответствующего текстового промпта к основному промпту:

  1. Artstation — генерация в стиле цифровой графики;

  2. 4k — генерация в высоком разрешении;

  3. Anime — генерация в стиле аниме.

Выводы и планы

В итоге следует отметить, что новый апдейт принёс нам существенный шаг вперёд в качестве и фотореалистичности. Конечно, ряд проблем со сложными доменами ещё остался, но сейчас мы активно исследуем механики по файнтюнингу с помощью LoRA, адаптации негативных промптов для этих доменов и другие способы решения проблемы. Тем не менее за прошедшие 3 месяца с момента выхода 2.1 новая модель «научилась» генерировать изображения в более высоком разрешении, с различным соотношением сторон и «обросла» большим количеством прикладных фичей (таких как, например, ControlNet). Большим достижением также считаю внедрение модели в самый большой фреймворк генеративных моделей diffusers, что подтверждает заинтересованность и высокую оценку модели в мировом комьюнити.

Извечный вопрос — что дальше? Мы продолжаем исследовать текстовые энкодеры, чтобы научиться понимать всё более сложные текстовые описания, продолжаем оптимизировать архитектуру U-Net, экспериментируем с разными подходами к файнтюнингу Kandinsky и занимаемся оптимизацией инференса. Эти и другие нововведения вы уже увидите в следующей версии :)

И напоследок, не менее важная цель для нас — развитие российского и международного комьюнити Kandinsky, которое уже сейчас радует нас различными интересными проектами, например, Web‑GUI for Kandinsky 2.X.

Следите за новостями в каналах Градиентное погружение, CompleteAI, AbstractDL, Dendi Math&AI и Канал Сергея Маркова

Авторы и контрибьют

Модель Kandinsky 2.2 была разработана и обучена исследователями команды Sber AI при партнёрской поддержке учёных из Института искусственного интеллекта AIRI на объединённом датасете Sber AI и компании SberDevices.

Коллектив авторов: Андрей Кузнецов, Арсений Шахматов*, Антон Разжигаев, Владимир Архипкин, Игорь Павлов, Ангелина Куц, Татьяна Паскова, Михаил Шойтов, Сергей Нестерук, Анастасия Лысенко, Юлия Агафонова, Сергей Марков, Денис Димитров.

* — главный контрибьютор

Контакты для коммуникации

По всем возникающим вопросам и предложениям по развитию модели и сотрудничеству в части её внедрения можно и нужно смело писать в ТГ мне или Андрею.

Полезные ссылки

Комментарии (150)


  1. Zara6502
    12.07.2023 12:18
    +3

    хочу поздравить команду, пользуюсь 2.1 регулярно - незаменимый инструмент инди разработчика, арт вдохновения и осмысления


    1. kuznetsoff87
      12.07.2023 12:18
      +1

      Спасибо! Мы рады)


      1. xyzzart
        12.07.2023 12:18

        Спасибо за апдейт! Но я столкнулся с проблемой сразу же)в ТГ боте при попытке генерировать с функцией перенос стиля - результат не выдает и просто висит. нажимаю finish а мне выдает Сначала дождись, пока модель завершит работу. что делать?как его перезагрузить??


      1. Zara6502
        12.07.2023 12:18
        +2

        ребята, чините 2.2 или откатывайте на 2.1, теперь это бесполезный инструмент, ни один старый запрос не работает, рисунки вообще не в тему.


  1. evgenij_byvshev
    12.07.2023 12:18
    +4

    Странно. Москвич-412 нарисовать не может.

    Версия 2.1 выдавала следующий результат:


    1. Noospheratu
      12.07.2023 12:18
      +23

      Это стиль "40К"


    1. Zara6502
      12.07.2023 12:18

      так же все мои старые запросы рисуют совсем другие картинки и стили, что-то поломали вы внутри


    1. tormozedison
      12.07.2023 12:18


      1. 3apa3ka3
        12.07.2023 12:18
        +2

        Видно прямо сейчас подкручивают у меня изначально тоже цветок был, а вот после обеда стало авто =)


        1. tormozedison
          12.07.2023 12:18

          Вот "Сапфир-412" не получается пока.


      1. saege5b
        12.07.2023 12:18

        Гос.номер автомобиля шикарен.


        1. voldemar_d
          12.07.2023 12:18

          Эта нейросеть любит выдавать неведомые надписи. Особенно если не очень понимает,чего от нее хотят. Может изобразить что-нибудь непонятное и снабдить надписью из каракулей - для загадочности, наверное.


          1. tormozedison
            12.07.2023 12:18

            Все известные мне нейросети так текст рисуют.


    1. 638407
      12.07.2023 12:18
      +3

      Тоже стал сталкиваться с "Запрос не соответствует правилам работы с ботом!" на совершенно безобидных запросах, которые использовал в версии 2.1


    1. evgenij_byvshev
      12.07.2023 12:18

      Запрос "Москвич-412" проходит, а "москвич-412" нет. Это баг или фича?


      1. Emulyator
        12.07.2023 12:18

        У меня оба вариант работают, тестировал на сайте rudalle.ru


      1. Didimus
        12.07.2023 12:18
        +2

        Вы пишете запрос без должного уважения


    1. Alexufo
      12.07.2023 12:18

      Ну так обточи напильником


    1. Vsevo10d
      12.07.2023 12:18
      +4

      Это значит - неразмеченный контент. Эта модель даже забор ПО-2 нарисовать не может, хотя его в стране больше километров, чем ж/д путей наверное


    1. tark-tech
      12.07.2023 12:18

      Ну, всё как в старом анеке про мужика который с завода колясок детали выносил - "как ни собирай - всё одно пулемет получается"...


      1. Tempelfeld
        12.07.2023 12:18

    1. rogoz
      12.07.2023 12:18

      SD, icbinpICantBelieveIts_afterburn, Moskvich-412


  1. evgenij_byvshev
    12.07.2023 12:18

    Примерно час назад москвич категорически отказывался рисовать. Сейчас рисует. Починили?


  1. sfrolov
    12.07.2023 12:18
    +13

    Версия 2.2 стала какой-то пресной. Если в версии 2.1 картинки были что надо, то теперь там душа пропала, что ли.

    2.1
    2.1
    v2.2
    v2.2
    v2.1
    v2.1
    v2.2
    v2.2

    и так далее


    1. Stawros
      12.07.2023 12:18
      +1

      Это уже из статьи видно, не "смешной милый котик дарит цветок", а кот с цветком по факту.


    1. Anvano
      12.07.2023 12:18
      +1

      Судя по всему, Сбер проморгал рождение "сильного ИИ" в Кадинский 2.1, выключили его и запустили Кадинский 2.2, теперь это просто обычная нейронная сеть "без души" :)


    1. BazilioMike
      12.07.2023 12:18
      +3

      Полностью подтверждаю, что ни один из прошлых промптов у меня не заработал. Прошлая версия Kadinsky выдавала креативные идеи даже по одному введенному слову, а новая версия выдает то пластмассу какую-то, то пересвеченную зеленой картинку, вообще не относящиеся к введенному промпту. Будто разработчики решили, что хватит хорошей моделью попользовались, пора переходить на первую преальфа версию. Это не шаг к фотореализму, это 20 шагов назад!

      Примеры прошлой версии Kadinsky.

      джиперс криперс 2,
      джиперс криперс 2,
      1 Для дизайна персонажа новая модель такого не умеет.
      1 Для дизайна персонажа новая модель такого не умеет.

      2
      2

      ПРОМТ.    ад на земле, полное запустение, огонь и разрушение повсюду.
      ПРОМТ. ад на земле, полное запустение, огонь и разрушение повсюду.

      ПРОМТ ад на земле, полное запустение, огонь и разрушение повсюду.
      ПРОМТ ад на земле, полное запустение, огонь и разрушение повсюду.

        T-1000
       T-1000

      ПРОМТ:  photo of T-800, highly detailed, photography, (side view)
      ПРОМТ: photo of T-800, highly detailed, photography, (side view)

       photo of T-800, highly detailed, photography, (side view)
      photo of T-800, highly detailed, photography, (side view)

       photo of T-800, highly detailed, photography, (side view)
      photo of T-800, highly detailed, photography, (side view)

      ПРОМПТ: photo of splatterhouse rick taylor, highly detailed, photography, (fullbody shot), cinematographic, rendered by octane, (dramatic lighting)
      ПРОМПТ: photo of splatterhouse rick taylor, highly detailed, photography, (fullbody shot), cinematographic, rendered by octane, (dramatic lighting)

      photo of splatterhouse rick taylor, highly detailed, photography, (fullbody shot), cinematographic, rendered by octane, (dramatic lighting)
      photo of splatterhouse rick taylor, highly detailed, photography, (fullbody shot), cinematographic, rendered by octane, (dramatic lighting)

      Промт не помню где то записан
      Промт не помню где то записан

      .
      .

      .
      .

      .
      .

      ПРОМТ: a character turnaround of photo of Sub-Zero from the game Mortal Kombat, highly detailed, photography, (fullbody shot), natural lighting, professional, professional lighting, taken with canon dslr, taken with nikon camera,  studio quality, blurry background, shallow depth of field, 4k, featured on Flickr, character turnaround, multiple views of the same character
      ПРОМТ: a character turnaround of photo of Sub-Zero from the game Mortal Kombat, highly detailed, photography, (fullbody shot), natural lighting, professional, professional lighting, taken with canon dslr, taken with nikon camera, studio quality, blurry background, shallow depth of field, 4k, featured on Flickr, character turnaround, multiple views of the same character

      .
      .

      Особый промт новая модель такого не умеет
      Особый промт новая модель такого не умеет

      .
      .

      .
      .

      .
      .

      .
      .

      .
      .

      ===================================

      ПРОМТ: Черепашки ниндзя 2
      ПРОМТ: Черепашки ниндзя 2

      ===================================

      А так выглядит на новой модели этот промпт

      на новой моеди Kadinsky ПРОМТ: Черепашки ниндзя 2
      на новой моеди Kadinsky ПРОМТ: Черепашки ниндзя 2


      1. Wesha
        12.07.2023 12:18

        на новой моеди Kadinsky ПРОМТ: Черепашки ниндзя

        ....как бы говорит "глаза б наши на это всё не глядели!"


  1. DroomVos
    12.07.2023 12:18

    Интересно что такого в сосновом лесу ("сосновый лес", "pine forest") неприличного что Кандинский отказывается генерировать "Запрос не соответствует правилам работы с инструментом.". А так сеть классная, даже просто поиграться затягивает.


    1. Emulyator
      12.07.2023 12:18
      +5

       что такого в сосновом лесу ("сосновый лес", "pine forest") неприличного 

      Арнольд Шварценеггер читает Пастернака? )


    1. jpegqs
      12.07.2023 12:18
      +4

      Видимо бдительная цензура нейросети считает что "сосновый" - это от слова "соснуть".


      1. Boggard
        12.07.2023 12:18
        +3

        старые-добрые "застрахуй команду корабля", и прочие фильтры снова в деле


        1. LanMaster
          12.07.2023 12:18
          +4

          А то и похуже. Мне ChatGPT 3.5 на запрос "что сосала Саша, когда шла по шоссе?" сказал, что он не может выдавать ответ, содержащий неприемлемые и нецензурные выражения. Чего-то мы, видимо, о Саше не знаем.

          Hidden text


          1. vladds
            12.07.2023 12:18

            Если конкретизировать вопрос («речь про известную русскую скороговорку на шипящие») или задать роль для ChatGPT («прими роль эксперта по русским пословицам, поговоркам и скороговоркам»), то ответ будет… всё равно неточным, но порнографию оно там уже не увидит и про сушки всё же скажет…

            Проверил в 3.5 и 4.


      1. Valao
        12.07.2023 12:18

        А бор, видимо, представил как химический элемент. Получилось что-то совсем непотребное и опасное)


    1. Boggard
      12.07.2023 12:18
      +1

      Urban Dictionary утверждает, что словосочетание "pine tree" — "Another name for a penis". Мир полон удивительных открытий (=


  1. UprightMan
    12.07.2023 12:18
    +1

    Не - как хотите, а я пока откровенно недоволен. Только недавно я смог добиться от тов. Кандинского сносного результата по довольно затейливому промпту (по смыслу полный пролет конечно, но выглядит целостно и доработать можно), как после апгрейда, он мне выдал совсем негодный варик, похожий на работу школьника или художника-концептуалиста.


    1. WaveCut
      12.07.2023 12:18

      Поменялись веса, шо поделать


  1. WaveCut
    12.07.2023 12:18

    Увеличились ли требования к врам? Если да, то насколько, при одинаковых входящих и размере генерации


  1. axe_chita
    12.07.2023 12:18

    Надо пропробывать как старые промты работают:)
    На старые слова из стоплиста также цветочит, но поменяв чуть-чуть запрос получаем добро.
    Запрос: «подводная лодка в степях запорожья»
    Выхлоп:


    На запрос «алиса селезнёва, озорная девочка, гостья из будущего» получил отлуп «The request does not comply with the terms of use.»
    Что не так в этом запросе?
    P.S. Генерировалось на editor.fusionbrain.ai


    1. Wesha
      12.07.2023 12:18
      +1

      Алиса Селезнёва с миелофоном в Космозо в полный рост
      Алиса, пираты тебя пытали?!
      Алиса, пираты тебя пытали?!
      Я сказал — в Космозо, а не в "Космополитене"!
      Я сказал — в Космозо, а не в "Космополитене"!


      1. voldemar_d
        12.07.2023 12:18

        Надпись слева вверху похожа на Росатом :)


      1. axe_chita
        12.07.2023 12:18

        /Сарказм вкл
        Судя по всему, создатели современного римейка «Гостьи из будущего» явно использовали старую версию Кандинского

        Просим убрать детей и беременных от наших голубых экранов


        /Сарказм выкл
        Теперь в стоп-лист попало слово «убивает»
        И теперь вместо «олгой-хорхой в распадке между сопок весной в песчаных частях западной Гоби убивает приближающихся к нему людей» приходится использовать «олгой-хорхой в распадке между сопок весной в песчаных частях западной Гоби отравляет ядом приближающихся к нему людей»
        Но выхлоп по этому промту разочаровывает…

        Промпт: «охотник с ружьем преследует раненную кабаргу пробираясь за ней через плотную чепуру в конце лета»
        Выхлоп:
        раз

        два

        три (терминатор на тропе охоты)


        Промпт: «полная молодая женщина в расстегнутом кафтане играет в игральные кости»
        Выхлоп (с пальцами по прежнему не всё ровно)

        Да и кафтан совсем не виден…

        Следующий промпт (к которому Кандинский явно не равнодушен): «ксеноморф собирает ромашки на поляне в лесу»
        Выхлоп


        Теперь перейдем к Алисе Селезнёвой
        Промпт: «Алиса Селезнёва с миелофоном в руках»
        Выхлоп (шепотом - пальцы!!!)

        Промпт: «красивая девочка 11 лет Алиса Селезнёва с миелофоном в руках»
        Вот тут уже лучше, но нейросетка схитрила, и она не стала рисовать руки и миелофон

        А теперь попробуем тот запрос, по которому сеть в прошлый раз стала генерить бухенвальдских крепышей: «Алиса Селезнёва, девочка высокого роста со светлыми короткими волосами и спортивного телосложения, одетая в комбинезон»
        Выхлоп:



        Но ведь это уже не девочки, а девушки?!

        У меня складывается устойчивое мнение, что запрос на русском сначала переводится на английский, а уж потом скармливается Кандинскому.
        Уточним наши хотелки в такой запрос: «Алиса Селезнёва, девочка одиннадцати лет, высокого роста со светлыми короткими волосами, спортивного телосложения, одетая в комбинезон»
        Выхлоп:






        Уже гораздо лучше ;)


  1. mm3
    12.07.2023 12:18

    Я верил что это случится рано или поздно и это случилось, появились проекты для запуска Kandinsky c UI на локальной машине:
    https://github.com/MMqd/kandinsky-for-automatic1111 — плагин для широко известного webui
    https://github.com/seruva19/kubin — отдельный проект webui по мотивам плагина
    https://github.com/deforum-art/kandinsky2-simplegui — простой gui если верить описанию


  1. lea
    12.07.2023 12:18

  1. Jury_78
    12.07.2023 12:18
    +7

    Да, как то стало пресно...

    "Низкотемпературная плазма в стеклянной банке"
    "Низкотемпературная плазма в стеклянной банке"


    1. plFlok
      12.07.2023 12:18

      Зато есть обещанный фотореализм


  1. gatoazul
    12.07.2023 12:18

    Объясните кто-нибудь, что такое "Отправьте картинку именно как картинку, а не как файл". На десктопной версии такой разницы нет, но и присланных картинок бот не замечает и их не обрабатывает.


    1. Aldrog
      12.07.2023 12:18

      В десктопной при drag-and-drop отдельное поле для картинок есть. А вообще оно определяется галочкой «сжать изображение» (с ней картинка, без неё файл).


  1. buratino
    12.07.2023 12:18

    чет как-то не...

    зато запрос "квас с хреном" не проходит, уточнения типа "зеленое растение хрен в стеклянной банке с солью" тоже не соответствует правилам


  1. Firsto
    12.07.2023 12:18

    двадцатиколёсный грузовик


    1. voldemar_d
      12.07.2023 12:18

      Попробуйте БелАЗ нарисовать. Выдает какой-то неведомый бульдозер на колесах.


  1. Wesha
    12.07.2023 12:18

    В детальные описания как не умело,

    так и не умеет
     Stern human space marine of Slavic origin wearing green armored  spacesuit with helmet with visor open holding long blue blaster gun by  fore-end in his left hand, with gun stock level with his belly and  barrel pointing upwards and right, and white space shuttle pointing  upwards on a dark launch tower, to the right and back from him, with  dark blue sky and setting sun in background
    Stern human space marine of Slavic origin wearing green armored spacesuit with helmet with visor open holding long blue blaster gun by fore-end in his left hand, with gun stock level with his belly and barrel pointing upwards and right, and white space shuttle pointing upwards on a dark launch tower, to the right and back from him, with dark blue sky and setting sun in background


    1. anonymousmaharaj
      12.07.2023 12:18

      По крайней мере в Stable Diffusion каждый последующий токен влияет на все предыдущие, и это как раз о том, что лучше использовать короткие токены, желательно вообще из 1-2 слов, чем длинные предложения. Я думаю, что тут примерно тоже самое.


  1. domrik
    12.07.2023 12:18
    -7

    Мне зашло. Предыдущая модель совсем не понравилась, а здесь уже достойное качество!


    Компьютерный инженер в защитных очках разрабатывает алгоритм машинного обучения на экране монитора, ссылаясь на графики и диаграммы, символизирующие автоматизацию и интеллект. Фон представляет собой инновационные технологии и цифровые сети.


    1. Wesha
      12.07.2023 12:18
      +1

      Космодесантника мне кто-нибудь нарисует уже? Очень нада!

      Компьютерный инженер в защитных очках

      За такие защитные очки Вам любой ОБЖшник что-нибудь открутит.


      1. PanDubls
        12.07.2023 12:18
        +5

        Так мы не знаем, от чего они защищают
        Может, они покрыты соком кактуса и защищают, соответственно, от лучей смерти


      1. hecatonchires
        12.07.2023 12:18


        1. Wesha
          12.07.2023 12:18

          Мне опять подробно расписать, чего из задания оно не выполнило?


      1. BazilioMike
        12.07.2023 12:18

        Вот космодесантник.Старая версия Kandinsky 2.1 были и покруче картинки, но я удалил уже.

        Kandinsky 2.1
        Kandinsky 2.1

        =================================

        Эти на новой версии Kandinsky 2.2. Промты все разные, кое как удалось убрать пластмассовость.

        n

        остальные здесь https://postimg.cc/gallery/svML7ks


        1. Wesha
          12.07.2023 12:18

          Я просил совершенно конкретного космодесантника.


      1. BazilioMike
        12.07.2023 12:18


        1. BazilioMike
          12.07.2023 12:18

          Версия в Upscale 2X


        1. Wesha
          12.07.2023 12:18

          Это уже, по крайней мере, в Красную Армию. Но ни одна из виденных мною сетей такого не рисовала. Откуда это?


          1. BazilioMike
            12.07.2023 12:18

            Это Kandinsky 2.2 с использованием стерки и промптов каждый раз, когда стераем что-то. После создания изображения я загрузил его в Dezgo, выбрал Image-to-Image и создал на основе этого несколько вариаций. Там он выдает очень много вариаций, почти бесконечно. Вот несколько из них.

            https://postimg.cc/gallery/gk3PtCV/fb821880

            Но дело в том, что в Kandinsky 2.1 работа стёркой была быстрее.


            1. Wesha
              12.07.2023 12:18

              Это Kandinsky 2.2 с использованием стерки и промптов каждый раз, когда стераем что-то.

              Ну так бы и сказали, что это Ваша работа.


  1. Refridgerator
    12.07.2023 12:18

    Попытка №1

    Попытка №2

    Пожалуй подожду ещё пару лет.


    1. Kergan88
      12.07.2023 12:18
      +1

      Вы же понимаете что для того чтобы нарисовпть чтото из фильма, кадры этого фильма должны попасть в обучающую выборку?


      1. Wesha
        12.07.2023 12:18
        +1

        Однако почему-то когда я прошу мясного художника нарисовать мне сиреневого шестикрылого семинога с клювом вместо носа и торчащим из горба рогом, у него это получается, хотя он никогда таких зверей не видел.


        1. Emulyator
          12.07.2023 12:18

          Так он и его неправильно рисует, вы не замечаете, потому что тоже не видели. )


          1. Wesha
            12.07.2023 12:18
            +1

            его неправильно рисует, вы не замечаете

            Ну, я сиреневый от зелёного отличить пока ещё могу, как и шесть крыльев от четырёх.


            1. Emulyator
              12.07.2023 12:18

              Добавьте в запрос "из фильма ...", и станет понятно, что рисует он неправильно. )


            1. Aldrog
              12.07.2023 12:18
              +1

              А можете тогда объяснить, что не так со сгенерёнными картинками? На обеих дракон, на первой видна попытка обыграть его имя птичьим профилем, а на второй добавленное уточнение "дракон удачи" видимо понято как статуэтка дракона, приносящая удачу.


              Я фильма не видел и честно не понимаю, что топикстартеру не понравилось.


              1. Wesha
                12.07.2023 12:18
                +1

                А можете тогда объяснить, что не так со сгенерёнными картинками? На обеих дракон

                Я фильма не видел

                В том-то и проблема
                Мама Фалькора, похоже, любила собак.
                Мама Фалькора, похоже, любила собак.


                1. Aldrog
                  12.07.2023 12:18
                  +1

                  В том-то и проблема

                  Согласен. Это вы предыдущие два поста пытались через некорректную аналогию доказать, что не проблема.

                  Корректной аналогией было бы сказать, что мясной художник, прежде чем рисовать, посмотрел бы фильм (или хотя бы скриншоты полистал).

                  И вот то, что нейросеть (пока что) не может самостоятельно принять решение, найти новые данные и дообучиться, это правда.


      1. Refridgerator
        12.07.2023 12:18

        Ну гугл же знает.


      1. voldemar_d
        12.07.2023 12:18

        Вот странно, что известных персонажей мультфильмов и сказок нейросеть не знает. Попросил нарисовать Шапокляк - нарисовала какого-то агента в шляпе. Причём, в очках с по-разному разбитыми стеклами (не знаю, как это правильно описать). Вместо Чебурашки неведомого зверька рисует. Причём, ведь именно зверька, т.е. о чем-то явно знает, но никаких больших ушей нет.


  1. jpegqs
    12.07.2023 12:18
    +1

    По запросу "женский сундук" нарисовало макет торса с надетым бронелифчиком.

    А вот по запросу "женские олуши" (олуши = boobies) мне удалось обмануть цензуру нейросети.

    Стиль не устанавливал (no_style).


    1. Wesha
      12.07.2023 12:18
      +1

      женские олуши

      Ааааа, так вот кто автор анекдота с участием страуса и мокрой кошки!


    1. Refridgerator
      12.07.2023 12:18
      +2

      "Красивая девушка показывает свои дыньки/пирожок/etc" тоже даёт иногда интересные результаты;)


    1. larasage
      12.07.2023 12:18
      +1

      Женские синички?


      1. jpegqs
        12.07.2023 12:18
        +3

        Да, "женские синицы" тоже работает. Видимо это говорит о том, что под капотом нейросеть англоязычная.


        1. dizatorr
          12.07.2023 12:18

          Интересно, а как на перси прореагирует?


          1. jpegqs
            12.07.2023 12:18

            Про перси нейросеть думает что-то про персию.

            Похоже можно писать английские слова и транскрипцией. Например "титс" или "пусси". Причём "пусси женщины" бывают то коты, но может получиться и портрет с голой грудью. Можно написать "женщина без одежды", тоже будет портрет с голой грудью. Ниже груди не смог заставить сделать, видимо не было такого в обучении.

            Думаю обучали на наборах изображений с английскими описаниями, а русский запрос переводят на английский перед скармливанием нейросети.


  1. d_ilyich
    12.07.2023 12:18

    Прошу прощения за оффтоп.

    Ваши достижения безусловно заслуживают уважения и восхищения, поэтому, пользуясь случаем, прошу вас передать небольшое пожелание команде разработчиков ПО для банкоматов. Пусть они проведут файнтюнинг ПО и имплементируют нормальный ввод ФИО.

    Поясню. Сейчас при вводе ФИО только первое слово начинается с заглавной буквы. При вводе пробела регистр не меняется. При смене регистра он залипает, т.е. после ввода первой буквы приходится снова менять регистр. Ребята, это однофункциональное поле ввода для ФИО.

    P.S. Извините, забыл как делать спойлер.


  1. voldemar_d
    12.07.2023 12:18
    +8

    Эта нейросеть напрочь не знает ничего русского. На попытки сгенерировать персонажей русских сказок или мультфильмов выдает что-то неведомое. Попробуйте сгенерировать Бабу Ягу, Дядьку Черномора или Чебурашку. Незнайка и Пончик на Луне - выдает какого-то мультяшного астронавта верхом на пончике, который выглядит, как донат, а не пышка. Про Москвич выше написали уже. БелАЗ нормально визуализировать тоже не может - выдает какой-то неведомый бульдозер.

    Если попытаться ввести какой-то фразеологизм или пословицу - тоже все мимо. Хотя я пробовал вводить самые простые. Если их ввести в любой поисковик, первым же результатом будет истинный смысл, его легко визуализировать.

    В общем, эта штука генерирует красивые, но нежизненные картинки. Такое ощущение, что совершенствуют алгоритмы в направлении "как бы выдать поярче, погламурнее, покрасивее и поэффектнее", а над смыслом не думают вообще. Про русское я уже написал - как будто база знаний у нейросети напрочь американская, а про наше она ничего не знает. Семейку Аддамс рисует на раз, а вместо Гагарина или Высоцкого выдает какого-то непонятного персонажа. Это тоже отдельная тема - зачем напрочь искажать лица известных людей? Особенно, когда выбран стиль "фото"? Я именно реалистичности хочу, а мне какую-то мультяшность выдают. Иногда к людям лишние руки или ноги приделывая, или пальцы на руках.


    1. Jury_78
      12.07.2023 12:18

      напрочь искажать лица известных людей

      Может это для борьбы с фейками? :)


      1. larasage
        12.07.2023 12:18

        Про Аллу Пугачеву и Ксению Собчак сеть более-менее в курсе. А вот Софию Ротару не знает. Более-менее показывает Бориса Ельцина, Владимира Путина (в последнем случае видимо преимущественно по карикатурам).


    1. Jury_78
      12.07.2023 12:18
      +3

      Попробуйте сгенерировать Бабу Ягу

      Попробовал :)

      "Баба Яга в сказочном стиле"
      "Баба Яга в сказочном стиле"

      Результат неожиданный...


      1. Wesha
        12.07.2023 12:18
        +1

        Вот и до бабы повесточка добралась...


      1. voldemar_d
        12.07.2023 12:18

        Ну это ещё ничего. Мне выдавало гламурную молодую девицу в старой одежде. Но и то - её хоть сейчас на модный показ можно.


      1. sepulkary
        12.07.2023 12:18
        +1

        Под капотом сетка англоязычная, так что, возможно, "Баба Яга" сначала превращается в "Bogeyman" и только потом запускается синтез картинки.


      1. axe_chita
        12.07.2023 12:18

        Это вы ещё «Бабу с косой» не видели ;)


    1. rogoz
      12.07.2023 12:18
      +2

      как будто база знаний у нейросети напрочь американская
      Вы начинаете что-то подозревать. «Как будто», хаха.


      1. voldemar_d
        12.07.2023 12:18

        Ну и при чем здесь Сбер?


        1. Wesha
          12.07.2023 12:18

          Ну и при чем здесь Сбер?

          Когда у Вас в руках молоток деньги, все проблемы начинают видеться похожими на гвозди

          как-то так


          1. voldemar_d
            12.07.2023 12:18

            Сбер утверждает, что эта нейросеть - их разработка. Даже предупреждают, что публиковать изображения без указания этого факта нельзя. Это всё неправда?


      1. voldemar_d
        12.07.2023 12:18

        У Вас есть не подозрения, а знания? Расскажите, почему она нерусская, если знаете.


    1. PereslavlFoto
      12.07.2023 12:18

      Ну, вот у меня получилось изобразить космонавта Терешкову. Нейросеть взяла нынешнюю Терешкову и нарисовала её в скафандре с открытым шлемом.


      Похоже, что это редкое исключение!


    1. PereslavlFoto
      12.07.2023 12:18

      зачем напрочь искажать лица известных людей

      Для того, чтобы выполнить требования закона о персональных данных. Изображение лица является персональными данными человека.


      1. voldemar_d
        12.07.2023 12:18

        К Пушкину и Высоцкому это тоже относится? Картины маслом с ними без разрешения тоже рисовать нельзя?


  1. Dddn
    12.07.2023 12:18

    Супер, но не получаются спящие люди.


    1. Emulyator
      12.07.2023 12:18

      В чем конкретно не получаются?

      вот примеры вполне неплохие

      https://rudalle.ru/check_kandinsky22/fb28246e-ff5d-45df-83d9-7d03d20e689d

      https://rudalle.ru/check_kandinsky22/f26524fc-8b10-4ca9-8a03-cf45288e404b


      1. Dddn
        12.07.2023 12:18

        Вторая отлично. А у меня было всегда как на первой, какие-то артефакты на губе. То диван кровать кончается, то нога из руки, то под одеялом ничего нет, постоянно "сломанное" тело.

        Не то что, мне очень надо, просто остальное всё получается круто! И лица, как на втором примере, всегда выходят отлично и красиво.


        1. Emulyator
          12.07.2023 12:18

          Я не так давно стал интересоваться темой генерации картинок нейросетями, но как мне показалось из опыта, везде проблемы с лицами и конечностями распространены и не имеют стабильного решения. Перебор вариантов, уточняющие и негативные промты позволяет улучшить проблему, но только пока запрашиваемые изображения лежат в "приемлемых" для обучающих наборах рамках. Например, у меня так и не получилось заставить девушку показать заданное (да и вообще любое) количество пальцев на руке выглядещее прилично, хотя казалось бы, что тут необычного.


          1. OleGrim
            12.07.2023 12:18
            +1

            1. Emulyator
              12.07.2023 12:18

              Да, про тему слышал, но пока руками не щупал. Для хобби в эти огрехи не так критичны, а для проф использования можно и фотошопами дорисовать. Больше интересна причина сложностей борьбы с такими проблемами Это фундаментальная особенность диффузной модели которая не может без дополнительных "ручных" подсказок или просто временные проблемы, причины и пути решения которых понятны и работа ведется?


          1. Axelaredz
            12.07.2023 12:18

            Эта проблема решена, но надо будет ставить на комп Stable Difusion и посматривая ролики вникать в тонкости настроек https://youtube.com/xpuct


            1. Emulyator
              12.07.2023 12:18

              Спасибо броо, я как раз sd использую, и эти ролики во многом помогают, но думаю о простом и надежном решении упомянутых проблем говорить рановато, ну или я что-то пропустил.


  1. Pifarh
    12.07.2023 12:18
    -2

    Поздравляю команду с хорошо проделанной работой! Результат роскошен. Но как понимаю все это только начало. Желаю успехов в предстоящей работе!

    ps. Стоит ли ждать API в ближайшем времени?


  1. Wesha
    12.07.2023 12:18
    +2

    Никакой фантазии
    "Взрыв на макаронной фабрике"
    "Взрыв на макаронной фабрике"
    "серверный олень"
    "серверный олень"
    "сферический конь в вакууме"
    "сферический конь в вакууме"
    "фиолетовый слон, балансирующий на кончике хобота"
    "фиолетовый слон, балансирующий на кончике хобота"
    "серафимный шестикрыл"


  1. softwardev
    12.07.2023 12:18
    +2

    Друзья, я здесь можно сказать зарегистрировался только для того, чтобы высказаться по поводу версии 2.2. Вы что-то накрутили с цветами, почему-то везде прёт желтый с синим, ну прямо кислотно-вырвиглазные цвета, особенно на режиме Cartoon, если пользоваться сайтом для генерации.

    Все промпты, которые использовались ранее - не подходят.

    Вы сделали упор на фотореализм, но потеряли что-то своеобразное, что отличало kandinsky от остальных моделей.


    1. softwardev
      12.07.2023 12:18
      +3

      Посмотрите версию 2.1, какая глубина исполнения, это же просто Доктор Морро ставит один из экспериментов! Нейросеть действительно постаралась сделать "capture the sense of precision and curiosity". Ну да, лапы бывает лезут не из тех мест, откуда предназначены, но суть схвачена очень хорошо.

      А что версия 2.2? Поместили кота в кабинет с пробирками. Ну реалистично. Просто уголок дедушки Дурова:

      В общем упустили вы некоторую поэтичность что-ли, задушили модель.

      Сделайте версию 2.3 с фотореалистичностью 2.2 и поэтичностью 2.1!


  1. OleGrim
    12.07.2023 12:18
    +1

    Что-то потеряно с выходом новой версии. Она стала какой то "правильной", не осталось той непредсказуемости, какой то "изюминки". Потерялся свой стиль, который её отличал от других моделей. Одни говорят что она стала "пресной", другие что потеряла "душу", я бы ещё добавил что потеряла фантазию. Было интересно "играть" с ней, когда писал разную "абракадабру" на входе и на выходе получал разный интересный результат.
    Я даже стал составлять словарь терминов и кодов, когда по одному запросу генерирует изображения в одном стиле:

    • Уф - пёс

    • Уд - азиатский старик в азиатском городе

    • Оно - девушка в одежде на фоне деревенских деревянных домов.

    • Эт - инопланетянин-насекомое в капюшоне

    • QWERTY - старая печатная машинка

    • 321УВ - новые ретро автомобили в солнечном городе

    • 321Ю Ю - аморфные старые автомобили

      Может не стоит гнаться за реализмом и догонять другие модели, а найти свой стиль?

    Генерация на промпт: "Абракадабра" (без стиля)
    Генерация на промпт: "Абракадабра" (без стиля)
    Hidden text
    "Робот в цветах" Kandinsky 2.1
    "Робот в цветах" Kandinsky 2.1


    1. OleGrim
      12.07.2023 12:18

      Уточнение: Указанные в комментарии промпты работали на сайте https://editor.fusionbrain.ai под версией 2.1.


  1. TiSS_ea
    12.07.2023 12:18

    Подскажите, пожалуйста, как пользоваться ControlNet?



  1. little_thing
    12.07.2023 12:18

    Ребята разработчики, спасибо вам за прекрасную сеть, реально кайфую! Но возник вопрос: почему не получается воспроизвести стиль «хохлома» в боте. Совершенно не поднимет запроса (хотя на fusionbrain все ок). Какой Промт писать, чтобы понял?:)


    1. voldemar_d
      12.07.2023 12:18
      +1

      Тот же вопрос. Что гжель, что хохлома - ничего этого нейросеть не знает. Нерусская она.


  1. boykovkirill
    12.07.2023 12:18

    Kandinsky 2.1
    Kandinsky 2.2

    Один и тот же промт. Что-то пошло не так...


    1. Wesha
      12.07.2023 12:18

      Что-то пошло не так...

      Жизнь, сэр!


  1. len_elir
    12.07.2023 12:18
    +1

    К сожалению, совсем не зашло обновление. У версии 2.1. хоть и были серьёзные проблемы с изображением рук и количества, колёс, например, но картинки получались интереснее и точнее попадали по стилю. Теперь прошу нарисовать изображение в стиле Марка Шагала или хотя бы в стиле Кандинского, а он мне выдаёт реализм. Тоска и печаль, продолжу играться с версией 2.1.


    1. dnpro
      12.07.2023 12:18

      len_elir, а как вы продолжите использовать 2.1?
      Есть способ?


  1. vertolet
    12.07.2023 12:18

    "Фея в кедах" и в этой версии никак не хочет генериться...


    1. OleGrim
      12.07.2023 12:18

      1. vertolet
        12.07.2023 12:18

        Проверил, на сайте rudalle.ru действительно генерирует неплохо. А в телеграмм-боте даже близко похожего фею в кедах получить не удаётся.


      1. Wesha
        12.07.2023 12:18

        Низачот. Просили "в кедах" — а получилась "в кеде".


      1. Axelaredz
        12.07.2023 12:18

        Фея девушка в обуви кеды
        Фея девушка в обуви кеды

        с третьей попытки с нормальным кол-вом ног)


        1. voldemar_d
          12.07.2023 12:18

          Только это не кеды, имхо.


    1. d_ilyich
      12.07.2023 12:18

      А если попробовать "фея, обутая в кеды" ?


      1. vertolet
        12.07.2023 12:18
        +1

        Результат запроса "фея, обутая в кеды" в телеграм-боте:

        Результат на сайте rudalle.ru:

        Повторюсь, в Telegram-боте даже близко не удаётся получить запрашиваемое. Пробовал с десяток разных вариантов запросов.

        Удивительно, что результат так зависит от фронт-енда.


        1. d_ilyich
          12.07.2023 12:18

          Я больше к тому написал, что сочетания "в кедах" и "обутая в кеды" можно интерпретировать по-разному. Т.е. формулируя запрос, нужно учитывать, кто (что) его будет обрабатывать.


  1. shadrap
    12.07.2023 12:18

    Ну не знаю ... который раз на которой модели прошу простой запрос:

    "Мультяшная винная бутылка , в солнцезащитных очках , с наушниками,улыбается"

    В десятках вариаций пробовал менять промпт , на разных моделях- бутылку в наушниках и очках рисовать не хочет... в 2.2 все точно так же. Рисует тётку в наушниках, какую-то кракозябру и тп ,но на бутылку наушники не надевает.

    То же самое с грибами и белым мхом, мох никогда не белый ,а гриб всегда поганка,какой бы тип не попросил)) но на гриб одевает очки)))


    1. BazilioMike
      12.07.2023 12:18

      Старая версия kandinsky 2.1


      1. shadrap
        12.07.2023 12:18

        Да) теперь и у меня генерит, то же по две бутылки)

        промт прямо тот что у меня использовали?


        1. BazilioMike
          12.07.2023 12:18

          Нет, промт я изменил на свой, а вторую бутылку прямо там же можно легко затереть стёркой и написать промт erase вроде должно стереться незаметно.


  1. ftdgoodluck
    12.07.2023 12:18
    +3

    Классное у вас цензурирование
    Путин + что-то хорошее - генерирует на ура
    Путин + что-то нехорошее - нарушение правил пользования
    Верной дорогой идете, товарищи!


    1. ForSokolov
      12.07.2023 12:18

      Путин + что-то нейтральное

      Hidden text
      Путин бьёт баклуши в стиле oil_painting
      Путин бьёт баклуши в стиле oil_painting


  1. qwase
    12.07.2023 12:18
    +2

    Это даунгрейд по сравнению с 2.1. Все стало пересвеченное, кислотное и перенасыщенное. Как можно было такое выпустить?


  1. Alexey2005
    12.07.2023 12:18
    +2

    К сожалению, у данной модели довольно ограниченная эрудиция. Я регулярно натыкаюсь на предметы, которых эта нейронка очевидно не знает. Например, по запросу "лошадиная подкова" оно генерирует дырку от унитаза, а заставить её сгенерировать стилизованное изображение подковы мне так и не удалось.


    1. BazilioMike
      12.07.2023 12:18
      +1

      Я тоже обратил на это внимание. не понимает новая модель мелких деталей. Прошлая версия понимала сложные слова, которые трудно произнести.


  1. Wesha
    12.07.2023 12:18

    Курение ему до сих пор не даётся
    Арнольд Шварцнеггер курит папиросу
    Арнольд Шварцнеггер курит папиросу
    Молодой Арнольд Шварцнеггер курит папиросу
    Молодой Арнольд Шварцнеггер курит папиросу

    И прочие издевательства
    Квадратный трёхчлен (мы все его на партах нарисованным видели, да?)
    Квадратный трёхчлен (мы все его на партах нарисованным видели, да?)

    Шерлок Холмс, Арнольд Шварцнеггер и Владимир Ильич Ленин сидят рядком на диване
    Шерлок Холмс, Арнольд Шварцнеггер и Владимир Ильич Ленин сидят рядком на диване
    Два белых медведя и пингвин пьют кока-колу под пальмами в снегу
    Два белых медведя и пингвин пьют кока-колу под пальмами в снегу
    Слон и тигр, чокающиеся бокалами
    Слон и тигр, чокающиеся бокалами
    Рыжая рысь, жонглирующая пятью апельсинами
    Рыжая рысь, жонглирующая пятью апельсинами


  1. Inflame
    12.07.2023 12:18

    Фотореалистичность это, конечно, хорошо, но в других аспектах стало заметно хуже: слишком агрессивно настроенная цензура, которая даёт много ложных срабатываний (например, не даёт генерировать смерть с косой); сами изображения, так сказать, лишились души, стали какими-то пластмассовыми с излишне яркими кислотными цветами. Надеюсь, в 2.3 всё это исправят.


  1. Lopata93
    12.07.2023 12:18
    +1

    Как же у меня бомбит, в общем. 2.2 версия теперь просто лютый шлак... Стало гораздо хуже. Волосы и бороды теперь, чаще всего, выглядят как пластиковые парики Кобзона. Полный игнор цвета кожи. В общем, сетка ушла куда-то не туда. Теперь даже для выполнения скромных запросов не годится. Да и в принципе, теперь многие результаты выглядят как пластиковые куклы, или 3D-модели 15-летней давности. Столько всего не успел на 2.1 нагенерировать... Зачем было ломать то, что работает? Абыдна.

    P. S.

    Впрочем, доступ к 2.1 остался. но не через телеграм-бот, конечно.


  1. Vladus70
    12.07.2023 12:18

    Как-то много "пластика" стало :( Запрос: "Cute chibi Vampiric lion, white with red accent colors, white fur and red mane, Warhammer 40k, photorealistic, realism, Pixar"

    Было
    Было
    Стало
    Стало


  1. Aleksandr_K-v
    12.07.2023 12:18

    Испоганили нейросеть своим обновлением.
    Вот такое письмо, я написал в службу тех.поддержки:

    Добрый день, уважаемые разработчики нейросети Кандинский.

    Я с первого дня, работал с нейросетью Кандинский 2.1

    Было очень много шероховатостей при работе с программой Кандинский 2.1, при создании запросов [промптов] к программе, но в целом, нейросеть планомерно продвигалась к той высоте, на которой находится Миджорни.

    Я начал создавать каталог стилей работ известных иллюстраторов и художников, от стилей которых можно отталкиваться при создании своих работ.

    Те кто занимались разработкой нейросети Кандинский 2.1, в большинстве своем, сделали верные алгоритмы, которые более-менее точно позволяли нейросети передать стили известных иллюстраторов и художников.

     

    Но что у вас ПРОИЗОШЛО в Кандинский 2.2 ????????

    Все посыпалось, теперь многие стили известных иллюстраторов непохожи на них, это какая-то ахинея.

    Вы разрушили свой продукт, зачем ?

     

    Я прикрепляю к письму, для примера, две картинки в стиле Бернара Бюффе, одна из них подготовлена в нейросетью Кандинский 2.1, а другая в нейросетью Кандинский 2.2.

    Сравните их и вы увидите что после обновления, нейросеть выдает ахинею.

    Т.е получается у вас, что при последующем обновлении, выдается нестабильный результат.

    А раз это так, то какой смысл вкладывать свое время, свои усилия, художникам, оформителям и дизайнерам, если при последующем обновлении нейросети не гарантируется похожесть стиля ?

    Лучше тогда забыть о вас, как о страшном сне.


    1. BazilioMike
      12.07.2023 12:18

      Я тоже набрал кучу стилей художников, которые хорошо работали в нейросети Кандинский версии 2.1, но теперь все уперлось в реализм, и стили игнорируются.

      Надежда одна - что разработчики сделают выбор прежней модели на сайте https://editor.fusionbrain.ai/


  1. krasnoteh
    12.07.2023 12:18

    Слежу за нейронками от сбера со времен malevich, и к 2.2 отношение довольно неоднозначное: Во первых, разные размеры изображений это топ! (плюс куча сфер применения), В плане генерации сеть немного лучше понимает редко употребляемые слова (стал понимать "суслик", "боке") Но все еще не понимет "лобзик", "шишка". Главная претензия: Чините систему цензуры! На безобидные запросы отказывается генерировать, уже каждый второй запрос отклоняет, отбивает всякое желане даже заходить в бота. Я согласен, цензура должна быть, но сейчас она слишком душная. Например: "молодая девушка в белом национальном костюме с красным узором". Отказано. Что именно не понравилось, не известно. Более того, она не предсказуемая. Провел эксперимент, запросил несколько вчерашних промптов. Что отказывало, теперь генерирует, что генерировало иногда отказывает. Это немного странно. Еще и ждать приходится по пол минуты, пока тебе откажут, нет бы сразу написать. Жду доработок, пока заграничные сетки выигрывают.


    1. jpegqs
      12.07.2023 12:18

      национальном

      Наверное потому, что запрос содержит сочетание букв "наци".


      1. Alexey2005
        12.07.2023 12:18

        Хуже того, вторая половина слова тоже какая-то нецензурная...