Привет, Хабр! Меня зовут Айбек Аланов. Я руковожу группой Controllable Generative AI в FusionBrain Lab Института AIRI и Центром глубинного обучения на байесовских методах в Институте искусственного интеллекта и цифровых наук НИУ ВШЭ и занимаюсь GenAI: работаю с cutting-edge-моделями и помогаю им стать частью прикладных решений.

В последние годы это одно из самых горячих направлений в машинном обучении. Нейросети не просто понимают данные, но и создают что-то новое: от картинок и видео до сложных 3D-объектов или дизайна молекул.

В этом материале по мотивам моего доклада с True Tech Day я расскажу, что происходит в этой области прямо сейчас. Какие архитектуры используются? На что способны современные модели? И самое главное, как все это применить в реальных задачах.

Сначала расскажу об истории генеративных моделей для изображений: как они развивались и в каком состоянии находятся сейчас. Затем остановлюсь на двух основных типах, разберу их особенности, преимущества и ограничения. В завершение объясню, в каких практических задачах их можно использовать и когда выбирать тот или иной тип.

План:
- История генеративных моделей
- Доминирующие типы генеративных моделей
- Диффузионные модели
- Авторегрессионные модели
- Текущий ландшафт генеративных моделей
- Основные задачи генеративных моделей
- Редактирование изображений
- Персонализированная генерация
- Контролируемая генерация
- Что нужно понимать о современных генеративных моделях

История генеративных моделей

Активное развитие в этой области началось относительно недавно. Первые значимые работы появились в середине 2010-х: в 2014-м году исследователи описали GAN (Generative Adversarial Networks) и VAE (Variational Autoencoders).

За ними — диффузионные модели:

В последние годы также набрали популярность авторегрессионные модели, которые сегодня применяются во многих решениях: ChatGPT, Stable Diffusion и тому подобных:

Развитие генеративных моделей начиналось с создания достаточно простых объектов. В частности, речь шла об изображениях с разрешением всего 30 на 30 пикселей. В 2014 году технологии позволяли создавать картинки черно-белых предметов или цифр:

Спустя два года появились авторегрессионные модели, способные генерировать цветные изображения с чуть более высоким разрешением, хотя и с плохим визуальным качеством:

К 2018 году GAN набирает популярность, и на его основе появляются сервисы, создающие картинки, практически неотличимые от реальных фотографий:

 

Особенно успешной оказалась StyleGAN, хорошо справляющаяся с генерацией лиц людей. Другая модель, BigGAN, умела рисовать объекты разных классов из известного датасета ImageNet.

До 2020 года именно GAN оставались доминирующим типом генеративных моделей. Но затем на сцену вышли диффузионные модели, которые обучались на специфических доменах и работали с более сложными данными:

В отличие от GAN, они не сталкиваются с проблемой коллапса, когда размер пространства изображений становится слишком большим.

С этого момента начался новый этап развития GenAI. Появились модели класса text-to-image, позволяющие генерировать картинки по текстовому описанию. До 2020-х такие подходы не работали или были крайне ограничены.

В 2022 году OpenAI выпустила DALL-E 2:

Затем этот подход применили и улучшили в рамках Stable Diffusion и других подобных решений:

В 2024 году развитие GenAI продолжилось и вышло за рамки работы исключительно с изображениями:

Появились модели, способные создавать целые видеосюжеты. Это был огромный технологический шаг вперед.

В числе заметных разработок стоит упомянуть Flux, показавшую впечатляющее качество контента:

В 2025 году развитие генеративных моделей продолжается и даже набирает темпы. Появилась GPT-4o, которая демонстрирует высокое качество, особенно при создании текстов.

Кроме того, Google представил Veo 3 — ролики теперь делаются сразу со звуковым сопровождением. Одновременно генерируются видеоряд, голоса и звуки, необходимые для сцены. Предположу, что с нынешними темпами исследований и появления новых архитектур рост возможностей в ближайшем будущем продолжится.

Доминирующие типы генеративных моделей

Практически все современные решения, о которых я говорил выше, строятся либо на диффузионном, либо на авторегрессионном подходе. Давайте разберём, что они из себя представляют и как работают.

Диффузионные модели

Одна из ключевых идей обучения генерации — ввод процесса постепенного разрушения исходных данных. После него модель запускает обратный процесс — восстановление. Таким образом она учится создавать новое из случайного шума.

Чтобы восстанавливать исходные данные, вводятся условные вероятности, которые пошагово «вычищают» шум и выявляют в нем скрытый сигнал. Используя его, модель генерирует новый объект, похожий на оригинал.

Процесс разрушения задается достаточно просто: постепенно добавляем шум к исходным данным или ослабляем в них сигнал, в итоге получая полностью зашумленный объект.

Все это записывается в математический фреймворк и выводит функцию потерь, которую нужно оптимизировать для обучения нейронной сети.

Если на каждом шаге удается точно оценить и удалить добавленный шум, то можно постепенно восстановить исходный объект и в итоге получить качественное изображение.

Эту идею впоследствии расширили для генерации картинок по тексту, семантических масок и других данных. Суть подхода в том, что пользователь задает текстовый запрос, а модель начинает с изображения, представляющего собой шум. Затем она постепенно убирает его, опираясь на текстовое описание, и в итоге формирует результат, соответствующий запросу.

Авторегрессионные модели

Изначально их использовали в задачах создания текстов. Практически все известные языковые модели, такие как ChatGPT, построены на авторегрессии.

Ее суть в том, что при генерации нового объекта его элементы создаются последовательно. Каждый следующий зависит от всех предыдущих. Это можно представить в виде вероятностной модели, где общая вероятность разлагается на цепочку условных. В случае текстов это означает, что каждое следующее слово зависит от сгенерированных до него. Так и формируется весь текст.

Чтобы обучить такую модель, используют задачу предсказания (loss-генерации) следующего токена. Для этого берут большие корпуса текстов, и модель учат по ним предсказывать слово на основе всех предыдущих.

Хотя авторегрессионные модели обычно применяют для работы с текстами, их можно использовать и для изображений. Для этого его представляют последовательностью пикселей и генерируют каждый по очереди:

На практике можно объединить генерацию текста и картинок в одной модели, которая будет, например, отвечать на вопросы о сгенерированных изображениях. Для этого токены текста и изображений переводят в общее пространство. Чтобы обучить такую модель, потребуется большой набор данных, содержащий как картинки, так и связанные с ними текстовые описания.

Текущий ландшафт генеративных моделей

Диффузионные и авторегрессионные модели различаются принципиально:

  • Диффузионные быстрее создают изображения, так как в них весь объект генерируется сразу за несколько шагов. В авторегрессионных, напротив, каждый элемент или токен создается последовательно, поэтому при создании больших изображений требуется многократно обращаться к модели, что увеличивает время работы.

  • В диффузионных моделях проще управлять генерацией: можно задавать условия, определяющие, каким должен быть результат, более точно контролируя процесс создания изображений.

  • Минус диффузионных моделей — в ограниченном понимании человеческого языка. Они работают через энкодер, преобразующий текстовый запрос в промежуточное представление, но сами не обладают глубокими языковыми знаниями.

  • Авторегрессионные модели, например ChatGPT-4o, включают языковые знания и могут оперировать ими при генерации изображений. Это их важное преимущество.

  • Авторегрессионные подходы позволяют не только создавать картинки, но и редактировать их по запросу или отвечать на вопросы о сгенерированном изображении.

  • Основной минус авторегрессионных моделей — медленная генерация и ограниченный контроль над процессом. Если требуется изменить лишь отдельный фрагмент картинки, модель все равно создает ее целиком, из-за чего нужные части могут потеряться.

Основные задачи генеративных моделей

Редактирование изображений

Предположим, у нас есть исходная картинка, и мы хотим изменить ее характеристики по текстовому запросу. Например, добавить новые объекты или исправить погоду:

При диффузионном подходе проще контролировать генерацию. Здесь хорошо показала себя схема, когда в модель добавляют дополнительный вход, куда подают исходное изображение:

Такой подход используется уже на этапе обучения, чтобы модели учились не просто создавать новые картинки, но и менять существующие.

Авторегрессионные подходы, такие как в ChatGPT-4o, тоже позволяют редактировать изображения:

Однако тут есть недостаток: могут поменяться и другие части картинки. В приведенном примере изменились фон и расцветка кошки. Их плюс — это удобство взаимодействия через текстовые инструкции, легкость правок и уточнений.

Для редактирования видео подойдут диффузионные подходы. Они позволяют уже сейчас менять фон, объекты, облик человека или стиль ролика.

Персонализированная генерация

Она заключается в создании определенных заранее концептов или персонажей. Например, нам нужна серия картинок про пингвина в VR-шлеме. Для диффузионной модели мы отправляем запрос на создание сцены с ним в новой обстановке или с другого ракурса:

С помощью авторегрессионных моделей мы можем взять уже созданного персонажа и попросить сгенерировать его в новом контексте:

В итоге современные модели уже делают ролики, похожие на реальные съемки.

Контролируемая генерация

В этом случае мы создаем изображение объекта с заранее заданной геометрией, например, по контурному скетчу:

Такая задача решается с помощью диффузионного подхода:

А вот авторегрессионные модели для этого использовать пока не получается. В диффузионных мы можем подавать геометрическую структуру, например позу или контур на вход модели, и она будет сохраняться в процессе генерации.

Для генерации видео применяются те же принципы. Мы берем ролик, извлекаем из него геометрию и по ней создаем новое видео. Например, нам нужна статуя, которая повторит структуру из исходного ролика:

По сравнению с 2023 годом качество заметно выросло и сегодня позволяет применять диффузионные модели в различных задачах и сценариях.

Что нужно понимать о современных генеративных моделях

Последние 10 лет они развивались очень быстро, и этот процесс продолжается. Сейчас новые модели появляются с интервалом в несколько месяцев, и каждое поколение показывает все лучшее качество. Еще 10 лет назад такой рост шел гораздо медленнее.

Судя по текущим темпам, в ближайшие годы можно ожидать появления моделей, которые смогут генерировать видео с большей продолжительностью и высоким качеством.

Сейчас в GenAI доминируют диффузионные и авторегрессионные модели. Они активно конкурируют, и пока нельзя однозначно сказать, какой из этих типов в итоге станет основным. Появляются также решения, которые совмещают оба подхода, объединяя их сильные стороны.

У генеративных моделей много вариантов применения. Например, для создания рекламных материалов, изображений товаров в разных сценах или для стилизации картинок. Чаще в таких задачах используют диффузионные модели: ими проще управлять, и они работают более эффективно. Однако я предположу, что с современными темпами авторегрессионные модели их нагонят. А может, появится что-то новое — тут уже покажет время.

Комментарии (0)