В начале апреля российский технологический гигант «Яндекс» представил собственную нейросеть «Шедеврум», которая по текстовым описаниям создает изображения. А «Сбер» анонсировал обновленную версию своей генеративной модели Kandinsky 2.1, первая сборка которой появилась еще в ноябре 2022 года. Эта нейросеть тоже создает картинки по текстовым запросам, понимает 101 язык, может «смешивать» несколько изображений.

На протяжении последних нескольких лет эксперты говорят, что искусственный интеллект в ближайшем будущем обретет практически безграничные возможности. А Илон Маск пугает обывателей, призывая мировое научное сообщество притормозить с развитием нейронных сетей.

Так все же зачем ИТ-гигантам нужны нейросети для рисования картинок? Создаются ли они для решения бизнес-задач или являются инструментом эксплуатации всеобщего ажиотажа?

Отвечают экcперты IBS (кстати, изображения наших спикеров созданы с помощью нейронной сети Kandinsky 2.1):

Дмитрий Басарыгин, руководитель группы Java-разработки:

Во-первых, это, конечно, медийный повод. В то время как Midjourney закрывает бесплатный доступ, а с оплатой с территории России есть сложности, логичным шагом выглядит появление аналогов со стороны крупных компаний. Это позволит им привлечь огромный приток новых пользователей из соседних систем — достаточно взглянуть на успешный кейс поисковика Bing.

Дальше уже зависит непосредственно от качества представленных моделей. Направленности могут быть разными. Думаю, в первую очередь — это рынок креативщиков, которые уже активно используют text-to-image модели в своей работе. Далее это могут быть специфичные кейсы и продукты, основанные на генерации изображений как, например, уже давно нашумевшая генерация нейросетью студии Артемия Лебедева логотипов для бизнеса. 

Конечно, нельзя обойти стороной и интеграцию нейросетей в существующие продукты крупных компаний. Вплоть до генерации аватарки для вашего условного Яндекс-аккаунта (здесь нужно понимать, что сети text-to-image, как правило, имеют и image-to-image функцию).

Text-to-image модели также могут использоваться (и многими уже активно используются) в производственном цикле для демонстрации заказчику промежуточных результатов дизайна системы. Причем путем модификации промптов очень легко менять сгенерированный макет в любую сторону.

Ну и, конечно, модели text-to-image идут рядом с моделями image-to-text. Midjourney буквально на днях добавила эту функцию в свою нейросеть. Думаю, что спектр применений image-to-text довольно очевиден, особенно для поисковых систем.

Ко всем вышеперечисленным причинам можно добавить, что работа с любыми нейросетями — это работа с данными, что может быть весьма чувствительным для пользователя внутри страны. Так что вопрос импортозамещения здесь тоже как нельзя актуален.

И еще один немаловажный пункт, который стоит упомянуть в связи с закрытием бесплатного доступа Midjourney — text-to-image нейросети активно начинают использоваться в подделке фактической информации.

Денис Воденеев, руководитель направления автоматизированного тестирования:

За нейросетями — будущее. Заменить процесс поиска информации в базе знаний, написать приложение, провести рефакторинг кода, подготовить маркетинговые материалы или презентацию, первая линия поддержки, написать ответ на письмо и прочее-прочее-прочее — все это с помощью нейросети можно сделать уже сейчас.

Машинное зрение уже активно используется. Голосовые боты заменили операторов и совершенствуются. Это все — составные части нейросетей.

Когда-то было «прорывом» внедрение RPA-инструментов для ускорения бизнес-процессов. Если RPA ускорило их на х2, то грамотное и этичное использование нейросетей может сделать и х10, и х100.  

Сами подходы, безусловно, приносят много рисков и потрясений (очень неплохо они раскрыты в книге Дэниела Сасскинда «Будущее без работы», в написании и оформлении которой также применялись нейросети), но движение в эту сторону уже не остановить, процесс запущен.

Антон Мясников, старший разработчик:

Думаю, в первую очередь это является способом продвижения бренда, позиционирования его как технологического лидера отрасли, если не глобального, то во всяком случае локального, в рамках одной страны. Такие технологии, выложенные в общий доступ, становятся доступны широкому кругу лиц, и при каждом обращении к ним, повышается узнаваемость бренда и лояльность к нему, конечно, при условии успешного взаимодействия с сервисом.

Хорошая репутация во многом важна и для сотрудников самой компании, поскольку способствует повышению мотивации, укрепляет веру в то, что компания является технологическим лидером, ей под силу решение передовых технологических задач. Это позволяет привлекать высококлассных специалистов как для решения конкретной задачи, так и в целом в штат компании. Повышает профессионализм сотрудников, занимающихся решением сложных задач.

Постановка перед собой высоких целей является стимулом к развитию, совершенствованию, способом самоутвердиться для отдельного человека и для крупной компании.

Думаю, развитие передовых технологий для крупных ИТ-компаний — не просто прихоть, а необходимое условие их успешного развития и существования в будущем.

Павел Панченко, руководитель отдела мобильной разработки:

Создавая собственные нейросети, компании решают сразу несколько задач.

Во-первых, эти продукты могут использоваться для решения задач внутри компании, с последующим выпуском апробированной технологии для широких масс. Как это было с другими продуктами, например, в случае «Яндекса» с «Яндекс.Облаком».

Что касается самой нейросети для генерации картинок, то области применения могут быть самыми разнообразными — это и автоматизация создания иллюстраций для статей и новостей, использование в разработке рекламных материалов, в веб- и мобильном дизайне. Нейросети так же могут использоваться и более опытными дизайнерами для получения дополнительного вдохновения, в ходе мозгового штурма, для получения возможности посмотреть на привычные вещи под других углом.

На российском рынке конечное число крупных игроков, способных реализовать подобный проект. Возможно, мы увидим коллаборацию нескольких компаний для создания нейронных сетей, способных конкурировать с зарубежными аналогами, возможно при поддержке государства.

Нечто похожее мы наблюдаем вокруг истории с созданием российского игрового движка, где несколько компаний объединяют свои усилия для импортозамещения ушедших из России зарубежных решений.

Дарья Чувашова, руководитель группы SAP-разработки:

Появление нейросетей в крупных компаниях уже не просто тренд. На мой взгляд, это знаменует начало больших изменений в нашем мире по типу тех, что происходили с бизнесом, производством, миром и сознанием людей с середины ХХ века и начала ХХI, когда нас «захватили» информационные технологии. Произошла фундаментальная трансформация мира, когда мы вступили в век информационных технологий. Подключение к глобальной сети интернет изменило все, даже образ мышления людей, о чем говорят многие исследователи в области нейробиологии.

Я полагаю, что-то подобное нас ожидает в будущем, когда нейросети и другие технологии ИИ войдут в нашу жизнь, в наш социум.

Сейчас сложно предсказать, как именно изменится мир, но он точно изменится. Опасаться этого не нужно, во-первых, потому, что эта эволюция технологий, рынка труда и самих людей просто неизбежна, а, во-вторых, нам нужно адаптироваться и научиться максимально полезно и эффективно применять новые технологии в нашей жизни.

Любая инновация не появляется просто так, она появляется и активно используется только тогда, когда мир и человечество к этому готово. И мы обязаны быть готовы. Мы должны подумать, как извлечь из этого максимальную пользу для себя.

Позволю себе пофантазировать и представить, что с помощью ИИ мы сможем сделать в будущем революционные открытия, делегировать нейросетям некоторые специальные задачи, а свои человеческие и пока еще самые мощные вычислительные способности направить на еще более невероятные цели — хоть на поиски новых лекарств, хоть на поиски внеземных цивилизаций. Уверена, что нас ждет только лучшее, и нейросети от «просто рисующих картинки по запросу» станут нашими помощниками в стремительно меняющемся мире. Мой нескончаемый оптимизм основывается на убеждении, что стабильность достигается с помощью умения жить в нестабильности и умения извлекать из меняющихся условий максимальную пользу.

Комментарии (12)


  1. prsdn2016
    07.04.2023 11:50
    +2

    Программист на пляже
    Программист на пляже


    1. csharpreader
      07.04.2023 11:50
      -1

      Создатель атомной бомбы когда-то тоже не мог даже двух слов сказать. А потом смог. И мало не показалось.


    1. csharpreader
      07.04.2023 11:50

      P.S. Кстати, люди на пляже – одно из многих известных слабых мест нейронок. Как и вообще люди, сидящие на чем-нибудь не твёрдом (песок, постель, снег).

      Ещё до сих пор при визуализации, например, большие проблемы с пальцами. Также, например, стабильный тупняк при запросах нарисовать в одном изображении кошку и собаку – зачастую идёт смешение двух образов. Или, скажем, при попытке нарисовать человека с собакой, собака часто идёт на поводке в другую сторону )


      1. Digger1917
        07.04.2023 11:50
        +1

        С Анжелинойй Джоли тоже серьезные проблемы :)


        1. Digger1917
          07.04.2023 11:50
          +1

          и это вы еще не просили ИИ наисовать обнаженную Джоли - это просто ужасно! Она должна на ИИ в суд подать за оскорбления!


          1. csharpreader
            07.04.2023 11:50
            +1

            Это вы ещё не добавляли в запрос слово «Томск»!


        1. csharpreader
          07.04.2023 11:50

          Очень многое зависит от подробности и точности описания, и вменяемый результат лишь с пятой попытки – привычное дело.

          Но на мой лично взгляд, у Кандинского выдача действительно явно слабее, чем у Midjourney.


      1. IBS_habrablog Автор
        07.04.2023 11:50
        +3

        Мы ввели запрос "человек, собака и кошка гуляют по снегу". Нейросети лучше всего удался снег
        image


        1. csharpreader
          07.04.2023 11:50

          Да уж )


        1. Digger1917
          07.04.2023 11:50
          +1

          класс! хвост сбоку, на поводке крякозябра! и колеи - 3 штуки.


          1. csharpreader
            07.04.2023 11:50

            Вы как будто первый раз )) Такие глюки – вообще норм для нейронок )

            Особенно смешно смотрятся попытки нарисовать монеты, банкноты и вообще что угодно с текстом – издалека ОЧЕНЬ похоже на текст, но по факту ересь )


        1. IvanPetrof
          07.04.2023 11:50

          Ну это пока так. Вспомните как все смеялись над приколами gpt/gpt2. И даже gpt3! Но внезапно, так называемый gpt3.5, вызвал шок и даже панику, т.к. оказался "умнее" среднестатистического обывателя. И шокирует это прежде всего тем, что "настоящего ума" ума в нём нет. Это по сути продвинутый попугай. Но тем не менее..