По данным Всемирного Экономического Форума, к 2025 году искусственный интеллект заменит 85 миллионов рабочих мест, в том числе — творческих. Нейронные сети уже умеют рисовать картины, писать сценарии и создавать музыку, а их произведения продают на аукционах за огромные деньги.
В этой статье разберёмся, на что ещё способны нейросети, как у них получается так хорошо подражать людям и где они смогут заменить человека. И обязательно попробуем сгенерировать что-нибудь сами.
Живопись
Васнецов писал «Спящую царевну» 40 лет, Да Винчи рисовал губы Джоконды 12 лет, а нейросети генерируют десятки образов за несколько секунд. Посмотрим, как им это удаётся и как выглядит их «творчество».
Нейросеть Google
Google был одним из первых, кто научил нейронные сети создавать картины. Ещё в 2015 году команда инженеров, среди которых был россиянин Александр Мордвинцев, разработала алгоритм компьютерного зрения Deep Dream. Он использует свёрточные нейронные сети, которые хорошо распознают образы.
DeepDream не умеет полноценно писать картины, он лишь может генерировать новые изображения на основе полученного. Но работы нейросети всё равно пользуются спросом. Например, на аукционе Christie’s картину искусственного интеллекта продали за 432 тысячи долларов.
Как это работает
Сначала Deep Dream обучают. Нейросети показывают разные изображения, и она запоминает образы: людей, животных, здания.
Затем в Deep Dream загружают фотографию. Нейронка анализирует изображение, начинает искать знакомые элементы.
Потом DeepDream рисует замеченные образы. На первых этапах нейронная сеть «смотрит» на края и углы изображений, поэтому добавляет лишь небольшие завитки и штрихи, и картинка немного искажается.
Новую картинку с искажениями Deep Mind снова анализирует и искажает. Так происходит 10–30 раз. Изображение всё больше меняется, и в итоге на нём постепенно вырисовываются объекты, которые нейросеть видела при обучении. Например, на картинке — дерево, а нейронка насмотрелась на здания, поэтому дорисует дом.
Как это выглядит
Поскольку Deep Mind в процессе обучения показали очень много картинок с животными, она видит их везде. Показываешь небо — видит птиц. Показываешь Мону Лизу — видит собаку и очень много глаз.
Обработать изображение с помощью DeepDream →
Нейросеть «Яндекса»
В 2020 году «Яндекс» создал целую виртуальную выставку картин, которые написала нейросеть. Это уже больше похоже на традиционное искусство. Нейросеть повторяет архитектуру StyleGAN2 от NVIDIA, которую изначально создавали, чтобы генерировать лица, неотличимые от настоящих.
Сгенерировать лицо несуществующего человека с помощью StyleGAN2 →
Как это работает
StyleGAN2 — нейросеть, где есть два алгоритма, которые соревнуются между собой. Это как фальшивомонетчик и Центробанк: первый постоянно придумывает новые способы подделать деньги, а второй подстраивается и учится отделять настоящее от фальшивого. Так система эволюционирует.
StyleGAN2 устроен подобным оброзом: с одной стороны есть генератор — он «рисует» картины, а с другой, дискриминатор — он вычисляет, похоже это на реальную картину или нет.
Сначала дискриминатору показывают изображения — например, с котиками, чтобы он научился их «видеть».
Потом в генератор подают «случайный шум», то есть набор чисел. Он создаёт из них изображение и отправляет дискриминатору.
Дискриминатор анализирует изображение, и если оно похоже на котиков, пропускает.
Так генератор и дискриминатор самообучаются в процессе постоянного «соревнования». А мы получаем всё более реалистичные картинки.
Как это выглядит
Специалисты «Яндекса» обучили свою нейросеть на произведениях из разных направлений живописи: от фовизма и кубизма до минимализма и стрит-арта. Поэтому результат работы их алгоритма гораздо ближе к привычному искусству, чем у Google:
Самостоятельно сгенерировать картины с помощью StyleGAN2 →
Нейросеть OpenAI
В январе 2021 года OpenAI разработала новую нейронную сеть DALL·E, которая умеет переводить текст в изображение.
Нейронные алгоритмы Text-to-Image — новый тренд 2021 года. Это гораздо больше напоминает реального художника: формулируешь ТЗ → нейросеть пишет картину.
Как это работает
DALL·E тоже сначала обучают. Ей показывают пары текст–изображение, то есть объясняют: здесь — собака, там — машина, тут — человек.
Пользователь отправляет в нейросеть текстовый запрос. Он преобразуется в набор цифр, а цифры внутри нейронки с помощью сложных формул превращаются в изображение.
Созданные изображения отбирает другая нейросеть — CLIP. У DALL·E нет своего дискриминатора, приходится подключать дополнительные функции. CLIP умеет определять, что изображено на картинке без предварительного обучения. Например, может точно сказать, что на фото кинг-чарльз-спаниель, а не бретонский эпаньоль или кокер-спаниель.
DALL·E может сгенерировать полную чушь, но если CLIP разглядит на картинке что-то знакомое, он её отберёт.
Как это выглядит
Вот, какие изображения генерирует DALL·E на сразу два запроса: «синяя клубника» и «витражи».
А вот ещё несколько интересных картин по разным запросам:
Самостоятельно сгенерировать картины с помощью DALL·E mini →
Классификация картин по стилю и жанру
У Singularis Lab есть разработка на базе сверточной нейросети, которая позволяет определить жанр и стиль картины. Для этого достаточно загрузить файл в систему, и алгоритм выдаст результат.
Как это работает
Обучение нейросети “основам изобразительного искусства”. Мы показали нейросети множество различных картин. Система запомнила характерные признаки представленных ей академических стилей и жанров и научилась определять их самостоятельно.
Загрузка изображения с любого устройства. Демка доступна с любого устройства с выходом в интернет. Вы можете загрузить любое изображение, даже фотографию вашего блокнота. Нейросеть в любом случае классифицирует его по своей базе знаний.
Нейросеть классифицирует изображение, показывает вам результат и примеры похожих картин.
Подробнее о проекте рассказываем здесь.
Поиграться с нашей разработкой вы можете здесь →
Новости и статьи
Главный научный сотрудник Narrative Science Кристиан Хаммонд считает, что к 2030 году 90% новостей будут написан искусственным интеллектом.
Западные издания уже применяют нейросети для написания новостных заметок. Для этого используют передовую модель на нейронных сетях GPT-3 — самый мощный инструмент, который умеет генерировать текст.
GPT-3 настолько хорошо подражает человеку, что OpenAI держит нейросеть в закрытом доступе. Создатели боятся, что их разработку могут использовать для распространения дезинформации.
Как это работает
Нейросеть заранее обучают. Например, на старте GPT-3 показали 45 ТБ текста из интернета: статьи из «Википедии», книги, полезные материалы.
Нейросеть запоминает, как пишут люди: о чём они говорят, какие слова чаще ставят вместе, а какие — нет..
GPT-3 принимает начало текста от пользователя и начинает пристраивать к нему каждое следующее слово. Она перебирает все известные ей слова и оценивает, какое лучше подойдёт в каждом случае. Поскольку она видела очень много примеров, предсказания GPT-3 часто оказываются удачными.
Как это выглядит
Американский студент создал целый блог, который вела нейросеть GPT-3. Тексты публиковались на известном агрегаторе новостей Hacker News.
GPT-3 настолько хорошо генерирует тексты, что одна статья даже заняла первое место в топе — пользователи посчитали её самой интересной.
Подвох заметил лишь один юзер Hacker News, но его обвинили в некорректности и попросили не обижать автора.
Ещё GPT-3 хорошо показала себя в создании новостных заголовков. У «Медузы» есть проект Neural News, в котором русскоязычная модель GPT-3 от «Сбера» занимается ровно этим: генерирует фейковые заголовки. Порой выходит очень правдоподобно:
Сгенерировать текст с помощью русскоязычной GPT-3 в Google Colab →
Сценарии
По сценариям, которые пишут нейросети, уже снимают короткометражные фильмы. Выходит странно, но по-своему интересно. На YouTube есть целый канал Calamity Ai, на который студенты калифорнийской киношколы выкладывают короткометражки по сценариям, написанным нейросетью.
Посмотреть короткометражку от нейросети вы можете здесь.
Такая нейросеть есть и у «Яндекса». В июне 2021 года компания представила сервис «Балабоба», который умеет достраивать тексты. В основе «Балабобы» — нейросеть YaLM, которая готовит ответы для «Поиска» и «Алисы».
«Балабоба» умеет генерировать сценарии фильмов, теории заговора, ТВ-репортажи, пацанские цитаты, тосты и рекламные слоганы.
Как это работает
YaLM работает по похожему с GPT-3 принципу.
«Яндекс» заранее обучил YaLM. Нейросетке показали веб-страницы с текстом на русском: статьи, новости, книги, посты в соцсетях и сообщениях на форумах.
Нейронка запомнила примеры. Она усвоила, что в предложения Толстого тянутся на полстраницы, а после «Мама мыла...» лучше поставить слово «рама», а не «бегать».
Теперь, когда пользователь пишет начало текста «Балабобе», нейронка начинает подбирать каждое следующее слово — как Т9 в смартфоне. YaLM перебирает слова и оценивает, какое лучше подойдёт для этого контекста и не нарушит ли нейросеть при этом правила русского языка.
Как это выглядит
Вот, какую концепцию для фильма «Балабоба» сгенерировал на основе зачина криминальной комедии «Карты, деньги, два ствола».
Создать синопсис фильма с помощью «Балабобы» →
Разработка
Искусственный интеллект так быстро развивается, что под угрозой оказались сами разработчики. В августе 2021 года OpenAI выпустила нейросеть Codex, которая однажды может заменить программистов.
Codex — это инструмент, который умеет преобразовывать команды на английском языке в программный код. Нейросеть лучше всего работает с Python, но спокойно может написать код на JavaScript, Go, Perl, PHP, Ruby, Swift, TypeScript и даже Shell.
Как это работает
Codex — по сути, тот же GPT-3, который просто гораздо лучше пишет код.
Сначала Codex изучает все открытые репозитории GitHub — это терабайты программного кода.
Затем нейронка анализирует код и комментарии к нему. Она запоминает, что пишет программист после определённого комментария и учитывает это при работе.
Пользователь на английском языке пишет Codex, что нужно сделать. Например, «выведи “Привет, мир”». А нейрость пишет строчку кода: print('Привет, мир'), если выбрали язык Python.
Как это выглядит
Вот, как с помощью Codex разработчик создаёт игру через команды нейросети:
OpenAI Codex работает в закрытом бета-тестировании. Чтобы попробовать нейросетку, нужно попасть в список ожидания. Для этого придётся заполнить форму и немного подождать.
Присоединиться к списку ожидания Codex →
Самому поиграться с нейросетями
Комментарии (7)
major-general_Kusanagi
08.09.2021 14:21Нейросеть в роли литературных негров?
torbasow
10.09.2021 17:43А читать они тоже за нас будут?
major-general_Kusanagi
13.09.2021 05:55Вслух читать будут.
А если серьёзно то, это может привести к тому, что нормальные книги потонут в миллионах тонн макулатуры написанной неройсетями. :(
Ещё нейросети могут входить по капчам и писать «положительные отзывы» на макулатуру. :(colscy
14.11.2021 19:22Хм, еще одна нейросеть поможет отделить зерна от плевел :) Весьма востребованная на данный момент задача.
kellas
08.09.2021 15:30К 2025 году искусственный интеллект заменит 85 миллионов рабочих мест, в том числе — творческих. Нейронные сети уже умеют рисовать картины, писать сценарии и создавать музыку, а их произведения продают на аукционах за огромные деньги.
Эти и подобные предсказания ошибочны. У каждой технологии есть свой предел/потолок. Кто-то просто предполагает что темпы повышения качества сохранятся или ускоряться, но так не происходит. Так же мыслили раньше с космосом - раз за 10 лет собрались и на луну слетали - значит через 30 уже во всю будем жить на марсе! До этого были чудесные предсказания развития механики, передвижные дома на рельсах, подвесные города на дирижаблях итп.
Увеличивать базу нейросетей и говорить о скорой замене человека, это то же самое что добираться до луны карабкаясь по дереву - можно рапортовать о прогрессе до самого конца дерева )Alexey2005
08.09.2021 18:30Ещё забывают, что нейросети — они ведь тоже не бесплатны, для их работы требуются громадные вычислительные мощности, причём по мере развития ИИ требования возрастают очень быстро. GPT-3 уже с трудом запускается на машинах стоимостью свыше 100 килорублей, а минута работы какого-нибудь GPT-10 будет стоить столько, что дешевле окажется нанять живого индуса на ближайшей копирайтерской бирже.
Собственно, стоимость ресурсов (вычислительные мощности, память) и ограничит в конечном итоге развитие ИИ.
Paranoich
Ради интереса посетил пару раз. Знаете… Аппетит пропал.
Пока «у них» не «получается так хорошо подражать людям».
Думаю, что люди покупают «картину искусственного интеллекта» только ради того, что она сделана ИИ. Возможно, через сотню лет, эти первые картины и станут исторической ценностью (первые!), но никак не художественной.
Там много слоёв или он просто по паре лет размышлял, глядя на картину?
Не слышал о таком, может кто ссылочку подкинет (гуглиться лишь что он рисовал 12 лет).