Синтез изображений из текста прошел долгий путь от появления DALL-E до Stable Diffusion. Несколько дней назад был открыт код большой (4.3 млрд параметров) модели для генерации изображений, которая привлекла внимание своим новым подходом к генерации - DeepFloyd IF. В этой статье я кратко рассмотрю архитектуру модели, ее возможности и приведу примеры ее работы. Кроме того, я поделюсь ссылками на онлайн-демо на платформе Replicate для лёгкого запуска без нужды устанавливать нейросеть на свой компьютер.
![An image of a sign in the hands of a man with "Habr" written on it An image of a sign in the hands of a man with "Habr" written on it](https://habrastorage.org/getpro/habr/upload_files/c77/503/81d/c7750381d8cdc6670f76407aab7ad312.png)
Архитектура
IF - это трехступенчатая модель, состоящая из кодера замороженного текста и трех каскадных модулей диффузии пикселей. Кодировщик замороженного текста основан на T5, который извлекает текстовые эмбеддинги из входных подсказок. Затем эти эмбеддинги поступают в архитектуру UNet, которая была усовершенствована перекрестным вниманием.
Подход DeepFloyd очень похож на подход Google в своём Imagen.
![](https://habrastorage.org/getpro/habr/upload_files/7c2/afc/b86/7c2afcb8687f83d93802f27b3aa8544e.jpg)
Модель состоит из трех основных элементов:
Базовая модель: На этом этапе генерируется изображение размером 64x64 px на основе текстовой подсказки. (В демо используется IF-I-XL)
Первая модель суперразрешения: Она увеличивает базовое изображение до 256x256 px, добавляя больше деталей. (В демо используется IF-II-L)
Вторая модель суперразрешения: На этом последнем этапе изображение увеличивается до высокого разрешения 1024x1024 px. (В демо используется Stable X4)
Модульный подход позволяет добиться высокой эффективности и впечатляющей производительности, превосходя текущие современные модели. IF достигает оценки FID 6,66 на наборе данных COCO, что гораздо выше, чем у DALL-E-2 (10.39), Stable Diffusion (15.5) и даже чем у Imagen (7.27).
Для запуска самого максимального набора моделей (IF-I-XL; IF-II-L; Stable X4) может понадобиться 24 ГБ видеопамяти. При использовании разгрузки на CPU - 14 ГБ.
Примеры работы
Image of a dog in a sunglasses
![](https://habrastorage.org/getpro/habr/upload_files/936/7a7/aba/9367a7aba46f2c2a4de570e9c9785a2d.png)
An image of a forest in a snowstorm (16:9)
![](https://habrastorage.org/getpro/habr/upload_files/cb0/553/5ea/cb05535eaf63b3701644b65192c4e2ff.png)
A painting of a cat
![](https://habrastorage.org/getpro/habr/upload_files/78a/5b5/84d/78a5b584ddb0faa8fb96605d2d1460d3.png)
Онлайн демонстрации
Вы можете воспользоваться демонстрацией, которую я создал и запустил на Replicate под работой Nvidia A100. Репозиторий: https://github.com/0x7o/IF-replicate
![](https://habrastorage.org/getpro/habr/upload_files/2ad/b9f/ab1/2adb9fab1b9ebc274decdc7b6181b1b1.png)
Вы также можете использовать официальную демонстрацию на HuggingFace Spaces, но там гораздо меньше параметров для настройки генерации.
![](https://habrastorage.org/getpro/habr/upload_files/ce2/d05/769/ce2d057695144220a2d779c28e3592ae.png)
Заключение
DeepFloyd IF - это ещё один шаг в области синтеза изображения из текста, устанавливающий новые стандарты. С дальнейшим развитием этой области мы можем ожидать еще более мощных и творческих моделей.
Официальный репозиторий - https://github.com/deep-floyd/IF
Официальная демонстрация - https://huggingface.co/spaces/DeepFloyd/IF
Демонстрация на Replicate - https://replicate.com/0x7o/if-v1.0
Код демонстрации - https://github.com/0x7o/IF-replicate
Что думаете Вы?