Тестируем нейросети для генерации изображений / forpes.ru

Главная
Тестируем нейросети для генерации изображений

Тестируем нейросети для генерации изображений +20

24.04.2023 12:38

RSHBDIGITAL 14 4000 Источник

Недавно мы рассказывали о том, что активно используем нейросети при работе над цифровыми сервисами.

В новой статье мы поделимся результатами собственного сравнительного анализа нейросетей для генерации изображений. Читайте, сравнивайте характеристики и выбирайте подходящий для вас инструмент. Важно отметить, что исследование проводилось в начале апреля этого года.

Нейронная сеть — это не просто компьютерная программа. Это самообучаемая система «искусственного интеллекта», работающая по принципу человеческого мозга.

Чтобы выдать готовую картинку, нейросети прогоняют входные данные через систему «нейронов» — более простых программ, взаимодействующих между собой.

Уже сейчас для «воображения» нейросетей нет ничего невозможного. Они могут нарисовать изображение по текстовому запросу, по исходной картинке, с помощью схематичного наброска или референсов. Некоторые сервисы специализируются на генерировании лиц.

Мы протестировали работу 9 самых популярных сервисов, рисующих картинки по текстовому запросу и сделали выводы: общее впечатление основано на субъективном мнении наших экспертов.

Сервисы тестировали на двух запросах:

простой: «красивый кот»;
более сложный: «красивый мужчина-фермер с чётко прорисованным лицом собирает яблоки в корзину в яблоневом саду».

Midjourney

Это наиболее художественная сеть от независимой исследовательской лаборатории под руководством бывшего инженера NASA.

Midjourney относится к классу диффузионных нейронных сетей, то есть состоит как бы из двух нейросетей: одна отвечает за распознавание текста, другая — за генерацию изображений.

Инструмент быстро завоёвывает популярность, потому что удобен в использовании, позволяет создавать сложные арты, креативные иллюстрации и максимально детализированные картины.

Работает через Discord, поэтому необходима регистрация в мессенджере. Создать картинку можно в одном из общих чатов, либо добавить на свой сервер Midjourney.

Стоимость:

Некоторое время назад была доступна бесплатная демо-версия с ограниченным количеством запросов. В настоящее время есть три платных тарифа.

Базовый — 200 GPU-минут;
Стандартный — 15 GPU-часов и возможность поставить релакс режим;
Продвинутый —30 GPU-часов/месяц и приватный режим генерации.

Midjourney использует графические процессоры (GPU) для обработки каждого запроса. Когда вы покупаете подписку, вы покупаете время использования этих процессоров.

Время ожидания ответа нейросети: генерация четырёх вариантов изображения длится от 40 до 60 секунд.

Возможность улучшать фото: можно увеличить разрешение и генерировать аналоги по готовой иллюстрации.

Вариации стилей/разрешений: нет стилевых ограничений, хорошо распознаёт текстовые запросы при вводе в строку поиска.

Наличие библиотеки изображений: большая библиотека с собственными изображениями и работами других пользователей. В библиотеке есть возможность поиска и просмотра запросов других пользователей к изображениям.

Общее впечатление: с выходом пятого обновления качество изображения людей значительно возросло: черты лица хорошо прорисованы, образы реалистичны. Фотоиллюстрации стали более проработанными, выглядят отлично, при повторении запроса меняется идея фотографии и ракурсы.

Stable Diffusion

Это программное обеспечение с открытым кодом от компании CompVis, создающее изображения по текстовым описаниям. В публичный доступ программы была выпущена в августе 2022 году, но сразу стала набирать популярность.

Для создания картинок Stable Diffusion использует набор данных LAION-5B, который содержит 5 миллиардов изображений из интернета, включая популярные сайты, такие как Pinterest, DeviantArt и Getty Images.

Нейросеть может генерировать изображения на основе текстового запроса, дорисовывать наброски и переделывать картинки-референсы на свой лад.

Всё это бесплатно, а открытый исходный код позволяет установить Stable Diffusion на свой компьютер и использовать собственные вычислительные мощности.

Однако, сервис не учитывает физические особенности людей на изображениях, поэтому при создании текстовых подсказок необходимо учитывать это самостоятельно. В будущем, модели, вероятно, будут улучшаться, чтобы фильтровать и корректировать изображения более эффективно.

Стоимость: бесплатно.

Как начать работу: на официальном сайте, обязательная регистрация не требуется. Также есть приложения на основе Stable Diffusion.

Время ожидания ответа нейросети: генерация четырёх вариантов изображения длится более 60 секунд.

Возможность улучшать фото: нет дополнительных инструментов улучшения и обработки.

Вариации стилей/разрешений: нет стилевых ограничений, но сервис плохо разбирает текстовые запросы, а варианты разрешений ограничены (в веб-версии только 1:1).

Наличие библиотеки изображений: отсутствует.

Общее впечатление: откровенно плохо изображает людей и лица, а качество самих фотографий нельзя предугадать. Продукт ещё «сырой» и требует значительных доработок.

Dream Studio

Пользовательский сервис и облегчённая версия Stable Diffusion. Создан для генерации изображения по текстовому запросу или на основе референсной картинки.

После регистрации появляется окно, в котором генерируется изображение. Внизу нужно ввести текстовый запрос. Слева можно выбрать размер картинки и насколько сильно она должна соответствовать запросу.

За один раз можно сгенерировать до девяти изображений. Доступна генерация не только по текстовому запросу, но и по изображению.

Стоимость: дается 25 пробных кредитов (кредит примерно равен 125 изображениям). Одна генерация дает от 1 до 10 вариантов изображений. Далее оплата идет за каждые 1000 кредитов.

Как начать работу: можно работать на сайте, а также через Discord или в Google. Для любого варианта необходима регистрация, которая сопровождается долгой верификацией с подтверждением почты.

Время ожидания ответа нейросети: максимальное количество шагов генерации изображения — 150.

Возможность улучшать фото: нет дополнительных инструментов улучшения и обработки, но можно генерировать аналоги по фотографиям.

Вариации стилей/разрешений: нет стилевых ограничений, но сервис плохо разбирает запросы, варианты разрешений ограничены (только версия 1:1).

Наличие библиотеки изображений: только библиотека своих изображений.

Общее впечатление: нейросеть выдаёт неплохие результаты генерации, однако варианты изображений по одному и тому же запросу почти идентичны: они ни отличаются позой, мимикой, идеей изображения. Чтобы получить достойный результат, необходимо тщательно прорабатывать запрос.

Kandinsky 2.1

Это обновлённое поколение нейросети Kandinsky 2.0 для генерации картинок, которую Сбер запустил летом 2022 года.

Новая модель сильно улучшена, она была обучена на 170 миллионах связок «текст-изображение», содержит 3,3 миллиарда параметров.

Основное отличие Kandinsky 2.1 от её основных конкурентов Midjourney, Stable Diffusion и DALL-E, в том, что она способна понимать более 100 языков, включая русский.

Стоимость: бесплатно.

Как начать работу: опробовать нейросеть можно на сайте, при помощи команды «Запусти художника» на «умных» устройствах Sber, в приложении «Салют», на платформах ML Space и Fusion Brain, а также в Telegram-боте.

Время ожидания ответа нейросети: генерация изображения занимают до 60 секунд.

Возможность улучшать фото: можно корректировать детали на изображении во встроенном редакторе, задавать цветовые фильтры и стиль изображения, дорисовывать загруженное изображение.

Вариации стилей/разрешений: нет стилевых ограничений, картинки генерируются в разрешении 768 × 768 пикселей, но в формате 1:1.

Наличие библиотеки изображений: отсутствует.

Общее впечатление: качество изображений среднее, хотя встречаются интересные фотографии. Прорисовка людей в определенных стилях оставляет желать лучшего. «Кандинский» плохо прорисовывает пальцы, лица и профиль человека. Кроме того, в фотографиях по одному и тому же запросу меняется только ракурс, а идея остается исходной.

Шедеврум

Это бета-версия нейрогенератора изображений от Яндекс, которая планирует стать русским Midjourney.

Прототип нейросети создаёт изображения в приложении, а не онлайн, как большинство западных аналогов. Описания нейросеть принимает как на русском, так и на английском языках.

Приложение доступно в Appstore и Playmarket, поэтому работать в нем можно на мобильных устройствах.

Стоимость: бесплатно, но из-за большого количества желающих, новый пользователь попадает в лист ожидания, где может провести от пары минут до нескольких часов. О доступе к сервису сообщают с помощью уведомления (не забудьте активировать эту опцию, чтобы его не пропустить).

Как начать работу: работает в приложении на любом смартфоне.

Время ожидания ответа нейросети: генерация изображения занимает от 60 до 120 секунд.

Возможность улучшать фото: можно задавать цветовые фильтры и стиль изображения, есть возможность дорисовывать загруженное изображение.

Вариации стилей/разрешений: нет стилевых ограничений, генерирует изображения в разрешении 256 на 256 точек, хотя современные нейросети рисуют гораздо качественнее.

Наличие библиотеки изображений: есть возможность просматривать свои опубликованные изображения и изображения других пользователей в ленте, но в случайном порядке.

Общее впечатление: качество изображений среднее, хотя встречаются интересные и красивые фотографии. Работать только через приложение не очень удобно, ждём веб-версию. Сейчас программа в режиме бета-теста, поэтому использовать его для профессиональных задач ещё рано.

Dream by WOMBO

WOMBO Dream — это сервис два в одном. Во-первых, программа умеет преобразовывать текст в уникальные произведения искусства. Во-вторых, вы можете загрузить готовую фотографию и сделать из неё сюрреалистичный арт, либо использовать её как референс для генеративной картинки.

Работает на английском языке. Для использования сервиса не нужно регистрироваться или авторизоваться, а пробная веб-версия доступна бесплатно.

С помощью этого сервиса можно легко создавать вертикальные изображения, причём его главное преимущество заключается в том, что пользователь может самостоятельно выбирать стиль изображения из более 30 вариантов и прикреплять референсы к запросу.

Стоимость: бесплатная версия позволяет генерировать одно изображение в выдаче, запрос не более 200 символов.

Как начать работу: работает на сайте, регистрация не требуется.

Время ожидания ответа нейросети: генерация изображения занимает от 20 до 40 секунд.

Возможность улучшать фото: генерация аналогов по фотографии доступна только в платной версии, а коррекция деталей на изображении находится на этапе тестирования.

Вариации стилей/разрешений: включает в себя 22 разных стиля: синтвейв, фэнтэзи, стимпанк, психоделика, японские гравюры укиё-э, студия «Гибли» Хаяо Миядзаки, Сальвадор Дали и так далее. Для более точной генерации изображения можно загрузить «исходную базу» для текста (любая картинка). Доступно одно разрешение 3:2.

Наличие библиотеки изображений: отсутствует, просмотр сгенерированной фотографии доступен только в очень неудобном маленьком варианте, но есть возможность увеличения в платной версии (не тестировалась).

Общее впечатление: неплохое качество фотографий, но есть сложность с реализмом. Интерфейс продукта очень неудобный, особенно в бесплатной версии. При просьбе сгенерировать красивого кота постоянно удваивал этого кота.

StarryAI

StarryAI позиционируют себя как нейросеть для генерации NFT. Приложение работает на основе трёх алгоритмов:

первый создаёт более фантазийные и абстрактные изображения (он называется Altair);
второй — более реалистичные (Orion);
третий — специализируется на рендеринге (Argo).

Дополнительно к тексту запроса можно добавить желаемый стиль изображения, либо загрузить готовую картинку, которую ИИ использует в качестве отправной точки, а также указать количество вариаций и уровень проработки.

Стоимость: в день можно создавать до пяти изображений бесплатно (как в мобильном приложении, так и на официальном сайте).

Платная подписка разбита на 3 тарифа с помесячной оплатой: Starter,Unlimited Pro, Unlimited Pro Max.

Как начать работу: нужно авторизоваться на сайте. Существует и мобильное приложение StarryAI для iOS и Android. Регистрация в приложении не требуется. В приложении тот же функционал и название кнопок, что и в веб-версии.

Время ожидания ответа нейросети: генерация изображения занимает от 60 до 120 секунд.

Возможность улучшать фото: можно улучшать фотографии и генерировать аналоги по изображениям.

Вариации стилей/разрешений: нет ограничений по стилям, можно увеличить разрешение за дополнительные кредиты. Бесплатно доступны пять вариантов разрешений, четырех из которых вертикальные.

Наличие библиотеки изображений: есть библиотека своих изображений и возможность просматривать изображения других пользователей, но нет сквозного поиска.

Общее впечатление: хорошее качество изображений, можно получить стоящие результаты, если подобрать удачные указания в запросе. Система может выдать как странную абстракцию, так и работу с объёмными детализированными объектами. Интерфейс сайта и галерея фотографий требуют доработки, так как сейчас они неудобные.

Crayon

Сервис Crayon — это бывшая нейросеть Dall-E mini по генерации изображений на основе текста на английском языке. Интерфейс удобный и прост в использовании: вставили нужные слова и просто ждете, пока программа генерирует сразу 9 иллюстраций.

Стоимость: открытый и бесплатный сервис. Есть платные тарифы, которые дают возможность коммерческого использования фотографий и расширений инструментарий для создания изображений.

Как начать работу: сервис работает на сайте и через телеграм-бот. Регистрация не требуется.

Время ожидания ответа нейросети: генерация изображения занимает от 20 до 40 секунд.

Возможность улучшать фото: готовые фото не поддаются редактированию.

Вариации стилей/разрешений: нет ограничений по стилям, варианты разрешений ограничены (только версия 1:1).

Наличие библиотеки изображений: есть общая библиотека с изображениями со сквозным поиском и возможность просмотра запросов других пользователей.

Общее впечатление: нейросеть требует существенных доработок, потому что сейчас даже качество изображений низкое, не говоря уже о стилях и прорисовках.

Deep Dream

Проект от разработчика Александра Мордвинцева появился ещё в 2015 году.

Deep Dream содержит в себе три инструмента:

создание картинки с нуля по описанию;
стилизация загруженного изображения под референс из каталога;
обработка загруженной картинки.

Стоимость: бесплатно доступно 100 единиц энергии. Есть три платных тарифа. Чем выше тариф, тем больше выдаётся энергии и скорости её восстановления.

Как начать работу: попробовать можно на официальном сайте, необходима регистрация.

Время ожидания ответа нейросети: генерация четырёх вариантов изображения длится от 40 до 60 секунд

Возможность улучшать фото: можно увеличить разрешение и генерировать аналоги по готовой иллюстрации.

Вариации стилей/разрешений: понимает стили при запросе, а варианты разрешений ограничены (доступно 3 варианта).

Наличие библиотеки изображений: есть библиотека с собственными изображениями и работами других пользователей, но без поиска по запросу.

Общее впечатление: достойный конкурент Midjourney по качеству изображений, но уступает по функциональности и стоимости тарифов.

Напоследок

Нейросети — ещё один полезный инструмент для оптимизации рабочих процессов человека. Это помощник в создании креативных иллюстраций, который решает проблему с недостатком качественных изображений для статей и творческих проектов, но не заменит работу медийщиков, дизайнеров и иллюстраторов.

А как считаете вы?

Комментарии (14)

MountainGoat
24.04.2023 12:52
#25481060
+6
Абзац про StableDiffusion, вы очевидно писали в прошлом августе, когда сеть вышла и действительно рисовала так.

a realistic photo of a Texas farmer holding a bushel of apples, in the apple orchard, at noon

Ничего не редактировал и почти не выбирал - это вторая картинка. Остальной текст тоже суть повторение слухов за прошлый год и рекламы. Писали бы о том, в чём разбираетесь, что ли....
1. maza11
  24.04.2023 12:52
  #25482058
  вот промт по вашим словам в этой сети, вообще все не очень получилось
  1. VPryadchenko
    24.04.2023 12:52
    #25482438
    А версия модели какая?
    
    maza11
    24.04.2023 12:52
    #25482544
    Stable Diffusion 2.1 Demo, переходил по ссылке из статьи

VadimPRO
24.04.2023 12:52
#25481088
Пока минус только в том, что изображения на узкоспециализированную тематику получаются пока не очень... просто не хватает данных для генерации.

Tangeman
24.04.2023 12:52
#25481366
-1
Гораздо интересней тестировать на том что в жизни (и других картинках из набора обучения) не встречается. Например, "собака верхом на коте", "лошадь верхом на собаке" и т.д. - несмотря на то что изредка, поработав над промптом, можно получить некое приближение к этому, но в массе своей сети глючат и выдают совсем не то.

Memerle
24.04.2023 12:52
#25481474
+1
Котики у Кандинского не совсем натуральные...
1. savostin
  24.04.2023 12:52
  #25482256
  Я так понял, лицо Вас не смущает...

Anirimon
24.04.2023 12:52
#25481538
Интересный конкурент Midjourney - picfinder.ai, еще в начале апреля демонстрировавший посредственные результаты, но интересный тем, что выдавал неограниченное количество вариантов по каждому запросу - что-нибудь да подойдет; буквально на днях совершил резкий скачок в качестве и тут же стал платным. Пока что тариф щадящий - напр. 5$ сутки при всё том же бесчисленном количестве генераций. Язык - английский, есть imgtoimg.
1. SozTr
  24.04.2023 12:52
  #25483516
  Хорошая бизнес идея — сделать отдельный сайт, позади сайта прикрутить генерацию от Midjourney, но за меньшие деньги и добавить всякие пустячные красивости.
  
  За счёт агрегации пользователей, тратить на платежи в Midjourney меньше чем собирать с клиентов.
  
  Тех клиентов которые генерят много и часто, отсеивать техническими проблемами — т.е. показывать неразрешимые капчи и т.п., когда они жалуются и хотят закрыть аккаунт, с удовольствием делаем это.
1. cry_san
  24.04.2023 12:52
  #25487468
  Удаляете куки и работаете дальше

savostin
24.04.2023 12:52
#25482276
+1
Можно оплатить через сервис pyypl.com.

Странная реклама странного "финансового" сервиса.

smind
24.04.2023 12:52
#25483692
+1
почему в опросе нет варианта "инструмент делающий работу эффективнее"?