Kandinsky 5.0 — нейросеть от Сбера для генерации изображений и видео / forpes.ru

Главная
Kandinsky 5.0 — нейросеть от Сбера для генерации изображений и видео

Kandinsky 5.0 — нейросеть от Сбера для генерации изображений и видео +4

11.12.2025 13:29

mefdayy 11 6900 Источник

В ноябре 2025 года инженеры “Сбера” представили семейство мультимодальных моделей Kandinsky 5.0 - новое поколение нейросетей, способных создавать как статичные изображения, так и видеоконтент по текстовому описанию.

Мы детально рассмотрим три ключевые модели, выпущенные в рамках Kandinsky 5.0: легковесную Kandinsky 5.0 Image Lite (6B параметров) для быстрой генерации изображений, мощную Kandinsky 5.0 Video Pro (19B параметров) для создания качественного видео и экономичную Kandinsky 5.0 Video Lite (2B параметров) для ускоренной обработки и экспериментов.

Все модели адаптированы к русскому культурному контексту. Они легко обрабатывают запросы на русском и английском, создавая тексты как на кириллице, так и на латинице.

Подробное описание моделей доступно на GitHub. Для тех, кто хочет углубиться в технические аспекты их структуры и процесса обучения, подготовлена специализированная статья.

В статье будет предоставлено четкое понимание, какая модель для каких задач подходит лучше всего, какие инновации заложены в архитектуру Kandinsky 5.0 и какие перспективы открывает появление столь масштабного и разнородного семейства нейросетей от одного разработчика.

Kandinsky 5.0 Image Lite (6B)

Легковесный и универсальный инструмент семейства, предназначенный для генерации и редактирования HD-изображений по текстовым запросам на русском и английском языках.

Модель подходит для широкого круга задач по созданию и доработке визуального контента:

Генерация изображений (Text-to-Image). Создание детализированных изображений высокого разрешения (HD) по текстовому описанию.
Редактирование изображений (Image Editing). Манипуляции с существующими изображениями, например, изменение стиля, добавление или удаление элементов.
Поддержка русского контекста. Одно из ключевых преимуществ - точное понимание промтов на русском языке и особенностей российской культуры, что делает её особенно актуальной для локального рынка.

Модель содержит 6 миллиардов параметров, что позволяет ей балансировать между качеством генерации и скоростью работы. Она построена на архитектуре Diffusion Transformer (DiT), которая обеспечивает качественный синтез изображений. Для понимания текстовых запросов модель использует эмбеддинги от моделей Qwen2.5-VL и CLIP.

Обучение модели следовало общему для семейства Kandinsky 5.0 многоступенчатому процессу, направленному на повышение качества:

Масштабное предобучение (Pre-training). Модель училась на огромном наборе данных (около 1 млрд изображений и 300 млн видео), чтобы усвоить общие закономерности визуального мира и связи между текстом и изображением.
Контролируемое дообучение (Supervised Fine-Tuning, SFT). На этом ключевом этапе использовался небольшой, но тщательно отобранный экспертами (дизайнерами, художниками) датасет изображений с безупречной композицией и стилем. Это позволило значительно повысить эстетическое качество и детализацию генерируемого контента.
Дополнительная оптимизация. Для создания более быстрых версий моделей семейства (например, Video Lite) применялись методы дистилляции, сокращающие количество шагов генерации. Также могло использоваться обучение с подкреплением (RL) для финальной настройки.

Ниже несколько удачных и не очень примеров работы модели. Постаралась разнообразить промты, тестируя работу нейросети с текстом на картинке и русским культурным кодом:

Фантастический пейзаж, где величественные горы встречаются с яркими цветами осеннего леса. На переднем плане располагается спокойное озеро, отражающее окружающую природу. В небе парят разноцветные птицы, а на фоне виден закат с яркими оттенками оранжевого и пурпурного. Добавь небольшой деревянный домик у озера, окруженный цветами и травами, чтобы создать атмосферу уюта и спокойствия.

Создай атмосферную сцену зимнего вечера в русской деревне. На переднем плане - изба с резными наличниками и дымом, поднимающимся из трубы, окруженная снежными сугробами. Рядом с избой стоит самовар, на столе - традиционные угощения: блины, варенье и квас. Вдалеке виднеются заснеженные ели, а на небе светит яркая луна, освещая сцену. Добавь пару фигур, одетых в традиционные русские костюмы, которые собираются у избы, рассказывая сказки и поющие народные песни, чтобы подчеркнуть теплую и дружелюбную атмосферу русской зимы.

К сожалению, я неоднократно пыталась сгенерировать изображение с текстом, но нейросеть ни разу не выдала грамотного и правильного оформления. Что с русским культурным кодом, что без него, результат один - неясный набор букв, далекий от связных слов.

Пользуясь случаем, хочу порекомендовать сервис BotHub, где вы можете создавать тексты, писать код, решать задачи, обрабатывать документы, анализировать ссылки, транскрибировать аудио, а также генерировать и редактировать изображения. Для этого доступно 4 модели, включая Midjourney и Flux. А для работы с текстами целых 11 мощных нейросетей, таких как ChatGPT, Gemini, Grok, DeepSeek и другие. Также, на платформе доступна Nano Banana Pro, которая прекрасно справляется с инфографикой!

А при регистрации по этой ссылке Bothub дарит 100 000 капсов - забирайте бонус и начинайте творить бесплатно!

Создай изображение, изображающее традиционный русский праздник Масленицу. На переднем плане - яркое сценическое действие с людьми в народных костюмах, которые танцуют и веселятся вокруг большого блина, украшенного цветами. Вокруг них - снежные пейзажи и ели, а в небе - легкие снежинки. На заднем плане виднеется изба с дымом, поднимающимся из трубы. В верхней части картинки добавьте надпись: “С Масленицей! Пусть будет тепло в душе и радость в сердце!”

Создай волшебную сцену в сказочном королевстве, где принцесса стоит на высоком утесе, глядя на летящих драконов в ярком закате. Принцесса одета в красивое платье с блестками и длинным шлейфом, а ее волосы развеваются на ветру. В небе парят два дракона - один из них с золотыми чешуями, а другой - с ярко-синими. На заднем плане виден замок с высокими башнями, окруженный густым лесом. В верхней части картинки добавь надпись: “Смелость и дружба способны преодолеть любые преграды”.

Image Editing

Мощная функция в семействе Kandinsky 5.0, которая позволяет вам редактировать существующее изображение, следуя вашим текстовым инструкциям. Вместо создания нового изображения с нуля, модель изменяет исходную фотографию в соответствии с вашим запросом.

Особенность Kandinsky 5.0 заключается в том, что эта функция реализована в рамках модели Kandinsky 5.0 Image Lite (6B) - это единая, универсальная модель для генерации изображений с нуля (Text-to-Image) и для их редактирования (Image-to-Image/Editing).

С технической точки зрения, процесс редактирования является вариацией задачи Image-to-Image (I2I). Он работает на базе диффузионной модели (Diffusion Transformer или DiT), как и генерация изображений, но с ключевым отличием на старте.

1 промт: "Добавь зайца на изображение"; 2 промт: "Измени цвет шляпы на желтый" 3 промт: "Убери кровать с изображения"

Kandinsky 5.0 Video Lite (2B)

Специализированная, высокоэффективная модель для генерации видео по тексту или изображению, основной упор в которой сделан на скорость работы и доступность.

Модель предназначена для прикладных и экспериментальных задач, где важны скорость и возможность запуска на доступном оборудовании. Она идеально подходит для быстрого прототипирования идей, позволяя создавать черновые варианты видео для оценки концепции. Также модель эффективна для массовой генерации контента, например, для производства большого числа коротких роликов для социальных сетей или презентаций. В сфере образования и экспериментов она будет полезна исследователям и разработчикам, желающим дообучать модель (предоставлены pretrain-чеки) или тестировать видео-ИИ на личном компьютере.

Модель представлена 8 различными чекпоинтами. Выбор зависит от вашей цели:

Ваша цель	Рекомендуемый чекпоинт	Ключевое преимущество
Лучшее качество генерации	SFT (5s или 10s)	Максимальная визуальная чёткость и соответствие запросу.
Баланс скорости и качества	no-CFG (No Classifier-Free Guidance)	Работает в 2 раза быстрее базовой SFT-версии.
Максимальная скорость	distilled (16 steps)	Генерация за 35-61 секунду, в 6 раз быстрее.
Дообучение под свои задачи	pretrain	Исходные веса, идеально подходящие для тонкой настройки.

В отличие от Video Pro (19B), которая создана для кинематографичного качества в ущерб скорости и требованиям к "железу", Video Lite - это инструмент для быстрой, эффективной и доступной видео-генерации.

Прежде чем показать примеры работ, стоит отметить, что у пользователя есть возможность сделать 10 запросов на начальном этапе, сразу после регистрации. Далее - приглашаете друзей по реферальной ссылке и, как указано на сайте, вы получаете дополнительные запросы на 30 дней.

Что до скорости, то в заявленные 3 минуты нейросеть не уложилась. Я ждала все 10, а то и 15 минут, при условии, что не было выбрано никаких дополнительных эффектов, не указано направление камеры и тд.

Примеры генераций

Изображение людей:

Анимационный стиль:

Русская культура:

Kandinsky 5.0 Video Pro (19B)

Флагманская модель семейства, созданная для генерации видео самого высокого качества, даже если это требует больших вычислительных ресурсов. Её основное назначение - профессиональное создание кинематографичного контента.

Для каких задач она создана:

Создание профессионального видео-контента. Производство высококачественных, детализированных роликов для маркетинга, киноиндустрии или искусства.
«Оживление» статичных изображений (Image-to-Video). Генерация видеоряда на основе загруженного пользователем изображения.
Сложные сцены. Работа с кинематографическими движениями камеры (например, вращение) и понимание сложных текстовых описаний.

Video Pro обладает самой мощной архитектурой в семействе, что позволяет ей справляться со сложными задачами. У модели 19 миллиардов параметров, она использует глубокую архитектуру с 60 блоками CrossDiT и увеличенной размерностью эмбеддингов. Это отличает её от более простых решений, например, Video Lite, где таких блоков меньше. Кроме того, Video Pro поддерживает генерацию в высоких разрешениях - до 1024×1024, 1408×640 или 1280×768 пикселей (HD). Для эффективной работы с длинными видео в модели применяется механизм разреженного внимания, оптимизированный с помощью технологии NABLA.

Чтобы сравнить модели Lite и Pro, я решила использовать одни и те же запросы. Это позволит получить максимально объективные результаты.

Изображение людей:

Анимационный стиль:

Русская культура:

Image-to-Video

Технология генерации короткого видеоролика на основе одного статичного изображения. Проще говоря, это "оживление" картинки.

Модель отлично сохраняет стиль и композицию исходного изображения, может генерировать плавные движения камеры (зум, панорама), реалистичные природные эффекты (огонь, вода).

Из минусов - технология пока с трудом создает сложную анимацию отдельных частей объекта (например, реалистичную походку человека), длинные (более 10 сек) и абсолютно стабильные видео. Также результат сильно зависит от качества и детализации входного изображения.

Таблица сравнения моделей Kandinsky 5.0

Параметр	Kandinsky 5.0 Video Pro (19B)	Kandinsky 5.0 Video Lite (2B)	Kandinsky 5.0 Image Lite (6B)
Основная задача	Генерация видео высочайшего качества	Быстрая генерация видео	Генерация и редактирование изображений
Параметры	19 миллиардов	2 миллиарда	6 миллиардов
Ключевая цель	Максимальное качество, детализация, кинематографичность	Скорость и эффективность	Универсальность в работе с изображениями
Разрешение	До HD (например, 1408×640)	SD (768×512)	HD для изображений
Целевая аудитория	Профессионалы, требующие топового качества	Пользователи, ценящие скорость и доступность	Пользователи, работающие со статичными изображениями

Что в итоге?

Появление масштабного семейства Kandinsky 5.0 сигнализирует о смене парадигмы в разработке генеративного ИИ. Вместо единой универсальной модели мы видим стратегию создания набора специализированных инструментов.

Такой подход формирует новую экосистему, в которой пользователь может выбирать модель под конкретную задачу: Kandinsky 5.0 Video Lite (2B) для быстрых экспериментов, Video Pro (19B) для профессионального качества видео и Image Lite (6B) для работы с изображениями. Это позволяет эффективнее распределять вычислительные ресурсы и делает технологии доступнее.

Ключевая перспектива - это переход от гонки за размером отдельной модели к созданию целостных и совместимых инструментариев. Разные модели, построенные на общей архитектуре, могут со временем взаимодействовать, открывая путь для более сложных и комплексных рабочих роцессов. Это также создаёт основу для развития локальных решений, способных учитывать специфику языка и культурного контекста.

Модели Kandinsky 5.0 уже доступны на всех площадках GigaChat: Telegram, мессенджере Max, веб-сайте giga.chat, а также в приложении GigaChat на Android.

Комментарии (11)

LesnoyChelovek
11.12.2025 13:44
#29238492
Nano Banana Pro

Фантастический пейзаж
Создай атмосферную сцену зимнего вечера в русской деревне.
Создай изображение, изображающее традиционный русский праздник Масленицу.
Создай волшебную сцену в сказочном королевстве
1. gotch
  11.12.2025 13:44
  #29238852
  Холод, голод, нищета, отсутствие еды, дров, одни валенки на всю семью, скотина в доме - вот настоящая русская зима в деревне.

LesnoyChelovek
11.12.2025 13:44
#29238498
Perplexity

Фантастический пейзаж
Создай атмосферную сцену зимнего вечера в русской деревне
Создай изображение, изображающее традиционный русский праздник Масленицу.
Создай волшебную сцену в сказочном королевстве
1. Filipp42
  11.12.2025 13:44
  #29239578
  Это какую модель для генерации они используют? Это лучше чем нано банана. Или вы просто выбрали лучшие примеры из многих?
  1. Shaginov
    11.12.2025 13:44
    #29239774
    Вот парочка изображений подряд нагенерённая перплексити. Всё хорошо-душевно, кроме лиц. Он использует GPT-4o
    
    Daddy_Cool
    11.12.2025 13:44
    #29240346
    Судя по яркости света в окнах там либо пожар либо электрическое освещение. Но где столб и ЛЭП?
    
    Микрофон прекрасен. Домра тоже.

Ilyaschastlivchik
11.12.2025 13:44
#29238536
Приветствую. работаюв Midjourney и Кандинский для генерации промтов. До сих пор сложно найти возможность генерировать логотипы. в самм Кандинском до сих пор нет возможности генерировать не по текстовому запросу, а через промт в виде изображения. Надеюсь, что когда-то у Вас такие функции появятся

gotch
11.12.2025 13:44
#29238540
Создай атмосферную сцену зимнего вечера в русской деревне.

Здесь прекрасно всё. И мегаблины, и три окна на чердаке, загадочные непарные следы. Кувшин-то с чем на столе? И куда наливают чай? ) Что с правым окном? И что за мазня перед ним?

Вопросы не к вам, конечно.

leshchev-artem
11.12.2025 13:44
#29238944
Поддержка русского контекста. Одно из ключевых преимуществ - точное понимание промтов на русском языке и особенностей российской культуры, что делает её особенно актуальной для локального рынка.

Неужели по запросу "Родное" Кандинский больше не генерирует американских индейцев? Ушла эпоха...

UPD: Ого, по запросу Native все равно русская деревня выдаётся. При этом, Native означает "абориген". Лучше бы оставали индейцев для английского промпта.

87z6mD
11.12.2025 13:44
#29240966
Может я что-то делаю не так, но всё, что мне выдавала Kandinsky было пооже на заранее подготовленные картинки.

Groramar
11.12.2025 13:44
#29249736
Ваша шаверма лаяла или мяукала? В смысле с какой открытой модели Кандинского списывали? :)