Kandinsky 4.1 Image – новый генератор изображений от Сбера / forpes.ru

Главная
Kandinsky 4.1 Image – новый генератор изображений от Сбера

Kandinsky 4.1 Image – новый генератор изображений от Сбера +17

05.06.2025 08:49

nikgerasimenko 6 3400 Источник

В декабре прошлого года на конференции AI Journey наша команда представила диффузионную генеративную модель Kandinsky 4.0 Video (статья на habr). Теперь мы рады представить новую версию нашей модели генерации изображений Kandinsky 4.1 Image.

Что нового?

Архитектура модели
- Теперь это диффузионный трансформер (DiT) вместо архитектуры типа U-Net
- DiT обеспечивает возможность эффективного масштабирования — что по факту означает улучшение общего качества работы флагманской модели

Supervised Fine-Tuning (SFT) – дообучение модели на очень качественных данных
- Был организован многоэтапный процесс тщательного ручного отбора наиболее эстетичных изображений с участием большой команды экспертов-художников
- Kandinsky дообучен на этих данных с применением техники супирования, чтобы модель не переобучилась на отдельные домены и стили

Далее хочется немного рассказать о разных аспектах сбора SFT-данных и дообучения модели на этих данных (остальные этапы, например, претрейн DiT по своей сути не сильно отличался от того, что было, например, описано в статье про Kandinsky 4.0, только для видео).

Обо всём по порядку.

Сбор SFT-датасета

Для сбора SFT-сета команде разметчиков предстояло осмотреть десятки тысяч изображений. Сама разметка состояла из двух этапов:

На первом этапе обычные разметчики отсеивали изображения, не подходящие по базовым требованиям: артефакты, засветы, линия горизонта, кадрирование и т.д.
Второй этап включал сложные вопросы, которые требуют углубленного художественного понимания: композиция, цветосочетания, баланс кадра и т.д. На эти вопросы отвечали специально отобранные разметчики-эксперты.

Для отбора разметчиков-экспертов мы разработали экзамен, позволяющий оценить художественные компетенции кандидатов. Вопросы охватывали такие темы, как качество освещения, настройки контрастности, построение гармоничной композиции и другие объективные (и не очень) вопросы. К тестированию допускались кандидаты, которые работают по релевантным специальностям: художники, дизайнеры, фотографы и т.д. Сейчас наша команда SFT-разметки состоит почти из 100 человек, и продолжает расти (если хотите попробовать себя, можно заполнить анкету).

Двухэтапный отбор данных оказался довольно строгим, после него оставалось только порядка 10% изображений. И это притом, что в разметку шли изображения, предварительно отобранные с помощью различных автоматических фильтров, в том числе, с использованием различных VLM.

Обучение и ускорение модели

Таким образом, суммарно были отобраны тысячи наилучших с художественной точки зрения изображений. Мы разделили изображения на домены, получилось такое распределение:

Ожидаемо, что изображений одних доменов оказалось меньше, чем других: найти эстетичную фотографию гор гораздо проще, чем самосвала. К счастью, подход супирования, который мы использовали, устойчив к такому дисбалансу. Фактически подход сводится к независимому SFT-дообучению нескольких моделей с последующим усреднением получившихся весов. В нашем случае, мы проводили не полный fine-tuning моделей, а обучение LoRA-адартеров для каждого домена.

Кроме повышения качества модели мы также уделили много внимания ее ускорению, в результате чего удалось уменьшить время генерации почти в 4 раза по сравнению с изначальной. Главный вклад в ускорение модели внесла Classifier-Free Guidance дистилляция, причем, благодаря отбору качественного датасета, получилось не только не потерять в качестве генерации, но в некоторых доменах даже немного его улучшить. Кроме того, гибкая реализация пайплайна генерации позволила нам подключать LoRA-адаптеры, без необходимости заново компилировать модель, что тоже значительно ускорило инференс.

Результаты SBS

Мы провели Side-By-Side сравнение нашей модели с конкурентами. Сравнения проводились по специально разработанной методологии, включающей десятки критериев, на базе большой корзины запросов, покрывающих более 20 доменов. В оценке участвовали около 30 человек, имевших опыт выполнения сложных задач по разметке изображений. Ниже в таблице приведены доли побед Kandinsky 4.1 по отношению к другим моделям генерации изображений:

WinRate Kandinsky 4.1 при сравнении с другими моделями text-to-image

Примеры генераций

Наша новая модель значительно улучшилась в сравнении с предыдущей версией. В частности, в точности следования текстовому описанию:

Также мы научились лучше писать текст на изображении (пока только на английском):

В том числе, за счет этого увеличились возможности в генерации логотипов:

Особенно удобно с ними работать с функцией перерисовки изображения в диалоге с GigaChat:

Мы также прокачали качество генерации в домене русского культурного кода:

И, конечно, сильно улучшился визуал и корректность генераций:

Авторы

Николай Герасименко, Никита Киселев, Юрий Колабушин, Денис Копосов, Арсений Шахматов, Анастасия Мальцева, Анна Аверченкова, Юлия Агафонова, Александр Белых, Анастасия Каргапольцева, Семён Кормилицын, Вячеслав Васильев, Эвелина Сидорова, Татьяна Никулина, Владимир Корвяков, Владимир Архипкин, Андрей Кузнецов, Денис Димитров

Ссылки

Протестировать новую модель Kandinsky 4.1 Image можно в Telegram-ботах GigaChat и Kandinsky, на сайте giga.chat, а также в VK-боте Kandinsky.

Комментарии (6)

cheatatel
05.06.2025 10:01
#28398264
у лошадка расписанная добавила половой орган условно женскому

Однако, помимо своего прямого значения, слово «лошадка» может нести и переносное значение. В разговорной речи оно иногда используется для обозначения женщины, которая обладает энергичным и стремительным характером, а также для описания быстрого и резвого движения.

d-sh
05.06.2025 10:01
#28398908
1. nikgerasimenko Автор
  05.06.2025 10:01
  #28398994
  Здравствуйте! Да, генерация рук пока работает не вполне устойчиво, мы уже работаем над ней и обязательно улучшим в следующих версиях модели
  1. cheatatel
    05.06.2025 10:01
    #28399312
    @d-shпоходу никулин скрытая черепашка-нинидзя
    
    nikgerasimenko Автор
    05.06.2025 10:01
    #28399380
    Все может быть. О мультивселенной мало что известно)

milkyway044
05.06.2025 10:01
#28401166
До ChatGPT-4o вам ещё пару галактик лететь.

Kandinsky 4.1 Image – новый генератор изображений от Сбера +17

Комментарии (6)

cheatatel

d-sh

nikgerasimenko Автор

cheatatel

nikgerasimenko Автор

milkyway044