Нейросети, генерирующие изображения, сейчас на пике популярности. В то время как все балуются Dall-E2 , MidJourney и Stable Diffusion, есть ещё одна модель, которая не так хорошо известна в интернете. Имя ей: ERNIE-ViLG.
ERNIE-ViLG — генератор изображений с открытым исходным кодом, разработанный китайским технологическим гигантом Baidu. Название нейросети расшифровывается как Enhanced Representation through Knowledge Integration — Vision Language Generation.
Несмотря на некоторую схожесть со Stable Diffusion, это разные нейросети. По крайней мере, если верить этому документу. Протестировать новый китайский инструмент можно здесь: ERNIE-ViLG Demo. Он бесплатен и ограничений на количество сгенерированных изображений мы не увидели. Хотя генерация изображений идёт не быстро — придётся запастись терпением.
Интерфейс довольно прост: перед вами простейшая форма для ввода текста, почти два десятка разных художественных стилей и кнопка генерации изображений. Внизу ещё есть подсказки — примеры популярных запросов.
Ещё важно помнить, что ERNIE разработан на китайском языке. Это означает, что английская фраза сначала переводится на китайский язык, и только потом начинается генерация изображений.
Некоторые сотрудники Cloud4Y вдоволь поигрались с популярными нейросетями, поэтому мы решили потестировать и новинку. Вот что у нас получилось.
Тестируем фантазию
Начать мы решили с запроса, который требует некоторой доли фантазии: A cat with glasses fights for a laptop with a robot. Все запросы мы составляли таким образом, чтобы они выглядели максимально примитивно — тогда их лучше понимает машина.
Вот такой вариант в стиле "Футуризм" сгенерировал ERNIE.
Картинки побольше
Как вы можете видеть, есть пара интересных вариантов, но в целом результат не впечатляет. Первый DALL-E выдавал нечто похожее.
Хорошо, подумали мы. А если взять не абстракцию, а нечто более конкретное? Например, Dracula is learning Python program code. Увы, здесь нас постигло горькое разочарование. Нейронка упорно не хотела показывать мало-мальски приличные варианты.
Вот что получилось
Графа Дракулу нейросеть не знает. Но что насчёт просто вампиров? Итак, vampire learns Python program code on a laptop.
Ну, тоже "не ах"
Кое-что вампирское здесь уже проглядывается, но всё равно результаты не впечатлили. Может, надо попросить нарисовать что-то ещё более известное? Давайте скормим ERNIE запросы айтишной направленности.
Облака, нейросети и Россия
Докер-контейнеры пробовали многие, так что мы решили начать с них. А чтобы увеличить шансы на успех, добавили ещё пару элементов. Kubernetes with blackjack and kittens.
Похоже, ERNIE из этого набора слов нравятся только котики
Совсем далеко от того, что нужно. Сделаем такой запрос: Docker container, photos with laptop and kittens. Котиков добавляли по той простой причине, что без них на выходе получалась совсем уж причудливая абстракция.
Что-то рядом, но не то
Давайте немного уточним запрос. Kubernetes container, photos with laptop and kittens. А ещё выберем мультяшный стиль
Не, что-то контейнерное в этом есть
Да, с контейнерными технологиями Эрни не очень дружит. Интересно, нейросеть знакома с облачными технологиями? Проверяем: Russian cloud technology.
Hidden text
Некоторые изображения похожи на испорченные фотографии. И практически везде нам показывают собор Василия Блаженного. А если упростить ещё больше? Russian technology.
Вот такие вот технологии
Не совсем понятна логика машины, но ладно. Давайте без привязки к геополитике. Представим, что счастливый эльф купил видеокарту. Как его покажет ERNIE? Elf brings home a video card (cartoon).
Своеобразные эльфы, конечно
Мультяшные варианты пугают. А как насчёт реалистичного стиля? Будет хуже или лучше? Пробуем...
Elf brings home a video card (Realistic)
Не, верните всё как было. Получилось совсем уж странно. Похоже, китайкой нейросети ещё учиться и учиться, прежде чем она сможет показать результат, близкий к западным аналогам. Впрочем, китайцы быстро учатся.
Эксперименты с разными стилями
Пока что китайская нейросеть генерирует не самые удачные изображения. А что, если взять максимально простые вещи и нагенерировать их в нескольких популярных стилях? Возьмём, к пример, sun, flowers and children. Стиль — реалистичный
Реалистично?
А если это будет масляная живопись?
Масляная живопись
Попробуем добавить кукольности, режим Lolita
Lolita
Результаты вполне неплохие. Если не вглядываться в то, что на них изображено, то платья можно назвать красивыми. Следующий стиль — cyberpunk.
Cyberpunk
Некоторые изображения определённо имеют право на существование, хотя и нуждаются в доработке. Но мы не будем останавливаться, продолжаем эксперименты: Baroque.
Baroque
Стиль определённо прослеживается. А вот реалистичность — нет. Давайте тогда совсем оторвёмся от реальности и протестируем аниме-стиль.
Аниме
Как и у многих других изображений, сгенерированных нейросетью, здесь видны проблемы с конечностями, глазами, позами. Хотя и определённая красота имеется. Так что ERNIE вполне себе интересный инструмент для баловства и экспериментов.
Ещё немного картинок
ERNIE доступен через API
Следуйте инструкциям в руководстве GitHub, если захочется попробовать API (но не забывайте, это китайская нейросеть, поэтому многие инструкции тоже на китайском). Пример вызова API выглядит следующим образом.
def generate_image(
text_prompts:str,
style: Optional[str] = "探索无限",
topk: Optional[int] = 6,
output_dir: Optional[str] = 'ernievilg_output')
text_prompts — текст фразы;
style — стиль изображения;
topk — количество изображений (до 6);
output_dir — Каталог для сохранения выходного изображения.
Показывайте, что интересного получилось у вас!
Что ещё интересного есть в блоге Cloud4Y
→ Информационная безопасность и глупость: необычные примеры
→ It's Alive! Аккордеон из двух Commodore 64 и дискет
→ Как распечатать цветной механический телевизор на 3D-принтере
→ WD-40: средство, которое может почти всё
→ Подержите моё пиво, или как я сделал RGBeeb, перенеся BBC Micro в современный корпус
Подписывайтесь на наш Telegram-канал, чтобы не пропустить очередную статью. Пишем только по делу. А ещё напоминаем про второй сезон нашего сериала ITить-колотить. Его можно посмотреть на YouTube и ВКонтакте.
Комментарии (11)
CrashLogger
15.11.2022 12:42+3Это же китайская нейросеть, надо было драконов и панд генерить, а не эльфов и вампиров.
george3
15.11.2022 19:14Видео со сравнением с другими стетками https://www.youtube.com/watch?v=gy-dnOhfiWs&ab_channel=DrAlanD.Thompson
zartdinov
15.11.2022 20:22+1У них в играх всякая нежить запрещена (скелеты и тд.), может в этом дело.
kenoma
Не додумались еще до моделей для контроля качества сгенерированных картинок?
mt19937
Модели для контроля качества являются неотъемлемой частью подобного рода нейросетей (на самом деле в случае Midjourney, Stable Diffusion, ERNIE-ViLG и т. п. не приходится говорить о какой-то отдельной нейросети, это комплексы нейросетей), они называются дискриминативными нейросетями и используются для обучения: генеративная нейросеть генерирует изображения, а дискриминативная нейросеть пытается отличить реальное изображение от подделки. Генеративная нейросеть учится обманывать дискриминативную нейросеть, а дискриминативная учится распознавать подделку.