Рисуем Мону Лизу используя глубокое обучение с подкреплением

Пост написан специально для всех любителей искусства (и, возможно, машинного обучения).

На самом деле, специально для лучшего курса по ML.

В этом посте я хочу рассказать о том, как же научить машины рисовать так, как рисуют люди-художники, которые, используя небольшое количество мазков, создают фантастические картины.

Живопись является важной формой искусства, символизирует человеческую мудрость и творчество. Но людям трудно овладеть этим навыком, не потратив много времени на надлежащее обучение. Поэтому обучение машин рисованию является важной, но сложной задачей, которая помогает пролить свет на тайну живописи.

Сейчас мы с вами попробуем разобраться, как обучить искусственный интеллект последовательно наносить штрихи на холст, чтобы создать картину, похожую на заданное изображение. Будем называть машину, которая рисует, агентом. Кратко идею можно разделить на три пункта:

  1. Научить агента раскладывать изображение на составляющие: агент должен проанализировать целевое изображение, понять текущее состояние холста и иметь дальновидные планы относительно будущих штрихов.

  2. Создать пространство штрихов, которыми может пользоваться агент, учитывая различные параметры: расположение штриха, цвет, прозрачность и форма.

  3. Создать рендер (средство визуализации), который может имитировать рисование сотен штрихов на холсте.

Давайте начнем.

Как научить агента раскладывать изображение на штрихи?

Как я уже писала, цель агента - разложение заданного целевого изображения на штрихи, которые могут воссоздать изображение на холсте (с помощью рендера). Чтобы имитировать процесс рисования, агент должен уметь прогнозировать следующий штрих на основе наблюдения за текущим состоянием холста и целевым изображением. Каждый штрих должен как можно более правильно соотноситься с предыдущим и следующим, чтобы уменьшить общее количество штрихов и быстрее нарисовать картину.

Общая архитектура: на каждом шаге агент получает текущий холст и итоговое изображение, анализирует его, и выдает набор параметров штриха, затем рендер визуализирует его и получается следующее состояние холста.
Общая архитектура: на каждом шаге агент получает текущий холст и итоговое изображение, анализирует его, и выдает набор параметров штриха, затем рендер визуализирует его и получается следующее состояние холста.

Сейчас нам как раз пригодится обучение с подкреплением. Для тех, кто никогда не сталкивался с ним - обучение с подкреплением можно сравнить с дрессировкой собаки. Чтобы научить своего мохнатого друга питомца выполнять определенную команду, нужно его подкармливать вкусняшками за каждое правильное действие. Так и в машинном обучении - есть окружающая среда, которая поощряет действия агента, которые приводят к правильному результату (картине).

Более математично:

На вход в нашей задаче подается пустой холст C_0и картина I(целевое изображение) которую мы хотим нарисовать. Агент стремится найти последовательность штрихов A = (a_0, a_1, ..., a_n)такую, что рендеринг (рисование) штриха a_tна холсте C_t выдает холст C_{t+1}. Итоговый холст C_nдолжен быть визуально похож на целевое изображение I.

Мы моделируем нашу задачу как Марковский процесс принятия решений с пространством состояний S, пространством действий A, функцией перехода trans(s_t, a_t)и функцией вознаграждения r(s_t, a_t). Пространство состояний Sстроится на основе всей возможной информации, которую агент может наблюдать в окружающей среде. Мы разделим состояние на три части: s_t=(C_t, I, t), где C_t -состояние холста, I -целевое изображение и t -номер шага.

Как это все будет работать?

Наша модель будет основана на DDPG, в которой есть две нейросетки - агент и критик.

  • Агент - функция \pi, сопоставляющая состояние действию.

  • Критик - оценивает ожидаемый выигрыш для агента, который совершит действие a_tна шаге s_t, согласно уравнению Беллмана: \; \; \; \; \; \; \; \; \; \; \; \; \; \; \; \; \; \; \; \; \; \; \; \; Q(s_t, a_t) = r(s_t, a_t) + \gamma Q(s_{t+1}, \pi (s_{t+1}))
    где r(s_t,a_t) - награда, предоставляемая агенту за выполнение действия a_tв состоянии s_t. Она равняется разности L_t(разница между Iи C_t) и L_{t+1}(разница между Iи C_{t+1}). Как считать потери я расскажу чуть позже.
    В свою очередь \pi (s_t)обучен максимизировать оцененный критиком Q(s_t, \pi (s_t))

Другими словами, агент выбирает ход для каждого состояния, а критик, основываясь на текущем холсте и целевом изображении, предсказывает ожидаемую награду за штрих. Оригинальная DDPG не очень хорошо подходит для нашей задачи, ведь для разных картин - есть разное окружение, т.е. где-то мы рисуем портрет с определенными тонами, где-то пейзаж, где-то натюрморт и тд. Есть специальные модели, например, Модель Мира, которые позволяют агенту эффективно понимать, какой мир его окружает.

Мы сделаем аналогичную вещь - рендер - с помощью которой агент сможет наблюдать смоделированную среду. Тогда он сможет изучить окружающий мир и эффективно улучшить свои действия. Модель с рендером называется Model-based DDPG. Разница между ними наглядно показана на рис. ниже.

Немного меняется и Марковский процесс: теперь на шагеtкритик принимает состояние s_{t+1}, а не состояние и действие вместе. Критик по-прежнему предсказывает ожидаемое вознаграждение для агента, но теперь по следующей формуле:
\; \; \; \; \; \; \; \; \; \; \; \; \; \; \; \; \; \; \; \; \; \; \; \; V(s_t) = r(s_t, a_t) + \gamma V(s_{t+1})

Полезный мув: предсказывать сразуkпоследующих штрихов. Действительно, такой подход позволяет смотреть на будущее изображение на каждом шаге более обширно. Средство визуализации может отображатьkштрихов одновременно, что значительно ускоряет процесс рисования. Опытным путем установлено, что k=5подходит лучше всего для нашей задачи.

Пора уже сказать пару слов об архитектуре наших нейросеток

Будем использовать residual структуры, по типу ResNet-18, в качестве средства извлечения признаков для агента и критика.

архитектура агента и критика. на вход - состояние, на выход - действие/значение
архитектура агента и критика. на вход - состояние, на выход - действие/значение




И так у нас есть 3 различных слоя:
1. CoordConv
2. Resblock x8
3. FC (Fully Connected Layer)
Разница для агента и критика только в последнем слое, где у них разные размерности выхода

архитектура рендера. на вход - параметры штриха, на выход - визуализация такого штриха
архитектура рендера. на вход - параметры штриха, на выход - визуализация такого штриха






Нейронный рендер

  1. FC (полносвязный слой)

  2. Conv (свертка)

  3. Sub-pixel - специальная штука, чтобы сделать изображение более четким

Использование нейронной сети для генерации штрихов хорошо тем, что она гибка для генерации штрихов любых стилей. А какими могут быть штрихи? И какие у них параметры? Давайте разбираться.

Насчет формы - в нашем случае штрих будет представлять собой квадратичную кривую Безье (с толщиной ~ как кисть). Форма этой кривой определяется координатами контрольных точек, а цвет, толщина и прозрачность несколькими числами. Формально:
\; \; \; \; \; \; \; \; \; \; \; \; \; \; \; \; \; \; \; \; \; a_t = (x_0, y_0, x_1, y_1, x_2,y_2,r_0,t_0,r_1,t_1,R,G,B)_t,
где первые 6 чисел - координаты контрольных точек, (r_0,t_0), (r_1,t_1) - контролируют толщину и прозрачность двух конечных точек кривой, RGB - цвет.

Формула кривой Безье:
B(t) = (1-t)^2P_0 + 2(1-t)tP_1 + t^2P_2, \; \; 0 \leq t \leq 1

А как же сравнить текущее состояние холста и целевое изображение? Какая метрика?
Для этого мы используем Wasserstein GAN, улучшенная версия оригинальной GAN, в которой расстояние - Wasserstein-l. Оно так же называется Earth_mover dist.

метрика между текущим изображением и целевой картинкой
метрика между текущим изображением и целевой картинкой

Распределение \mu- распределение текущего холста, \nu- целевого изображения. Функция D - дискриминатор, липшицева с константой 1. Ее мы тоже отдельно обучаем.

Вместо этого можно использовать L_2расстояние, но как покажут эксперименты, с ним результат будет хуже.


О математике достаточно поговорили, пришло время посмотреть на картинки и результаты экспериментов.

Рассмотрим 4 датасета - MNIST (рукописные цифры), SVHN (номера домов), CelebA (лица знаменитостей) и ImageNet (просто разные картинки).

Все картинки сводятся к размеру 128x128 пикселей. На каждой итерации обучения мы по очереди обновляем критика и актера. Все модели обучаются с нуля.

Изображения MNIST и SVHN - простые структуры изображений и обычное содержимое. Так что мы обучаем одного агента, который рисует 5 штрихов для изображений MNIST, и другого, который рисует 40 штрихов, для изображений SVHN.
Изображения знаменитостей имеют более сложную структуру и разнообразное содержимое, так что нам понадобится агент с 200 штрихами (как видно на рисунке ниже, в принципе, изображение похоже, но четкость пропала).
Для последнего датасета понадобится целых 400 штрихов из-за чрезвычайно сложных структур и разнообразного содержимого. Несмотря на потерю некоторых текстур, агент по-прежнему демонстрирует хорошие результаты в разложении изображения на штрихи.
Картинка ⬇

Пара слов про скорость:
На процессоре Intel Core i7 с тактовой частотой 2,2 ГГц. и видеокарте NVIDIA можно нарисовать изображение из 200 штрихов (предсказывая по 5) примерно за 2 секунды. Достаточно быстро, не так ли?

Наша модель хорошо работает и на других типах штрихов - прямые линии, треугольники и круги. Картины похожи на целевое изображение, но кривые Безье и прямые штрихи, на мой взгляд, больше всего похожи на настоящую картину.

Чуть не забыла. Хочется еще сравнить нашу нейронную сеть и какую-нибудь другую.
Для примера

  • рисунок а) - нейросеть SPIRAL с 20 штрихами (слева) + оригинал

  • рисунок б) - наша архитектура с 20 штрихами (оригинал g)

Первая выглядит как очень сильно размытое изображение, а вторая - уже больше похожа на картину какого-нибудь художника.

Рисунки (b), (c) и (g) - это наша нейросетка с 20, 200 и 1000 штрихами соответственно. А вот (d), например, использует в качестве метрики l_2. Получается, конечно, тоже похоже на оригинал, но более размыто.

На последок хочу показать примеры рисования некоторых картин, очень залипательно!

Вот, например, рассвет:

sunrise
sunrise

А вот подсолнухи:

sunflower
sunflower

И даже звездная ночь Ван Гога!

deepdream night
deepdream night

Комментарии (14)


  1. Aquahawk
    22.05.2022 19:14
    +1

    Может быть Мону Лизу?


    1. nathaliem19 Автор
      22.05.2022 19:29

      действительно, Вы оказались правы! спасибо.


  1. peacemakerv
    22.05.2022 20:24
    +7

    Скорость демонстрации мелких штрихов выглядит очень высокой по сравнению с первыми крупными. В результате - ощущение от рисования "совы", почти моментальное. Хорошо бы притормозить отрисовку...


    1. nathaliem19 Автор
      22.05.2022 21:04

      да, мне тоже так кажется, но это гифки от авторов статьи (https://github.com/megvii-research/ICCV2019-LearningToPaint)


  1. tetelevm
    23.05.2022 09:28
    +1

    https://www.samcodes.co.uk/project/geometrize-haxe-web/

    То же, но без нейронок.


    1. nathaliem19 Автор
      23.05.2022 11:20

      о, здорово, спасибо!


  1. dyadyaSerezha
    23.05.2022 10:03
    +1

    Но людям трудно овладеть этим навыком, не потратив много времени на надлежащее обучение. Поэтому обучение машин рисованию является важной, но сложной задачей, которая помогает пролить свет на тайну живописи.

    Совершенно не вижу логики в этом "поэтому". Людям много чему надо долго учиться, но это не значит, что это надо является важной задачей для машин.

    Далее, судя по приведённым видео, ваш ИИ абсолютно не знает (точнее, не знают его создатели), как люди рисуют картины, потому что люди делают это совершенно иначе. Так что, увы и ах.


  1. Old_Fabler
    23.05.2022 10:22
    +2

    Эм...

    Вспомнился старый анекдот советских времен. Стоят отец с сыном и смотрят как художник рисует пейзаж.

    - Вот видишь сынок, как приходится мучиться человеку, когда у него нет фотоаппарата!

    Вот как объяснить, что к искусству ваше изображение не имеет никакого отношения? Да и к интеллекту, собственно, тоже.

    Художник, с помощью интеллекта, РЕШАЕТ ЗАДАЧУ ДОНЕСЕНИЯ МЫСЛИ до зрителя, через обращение к его чувствам. Какие детали усилить, какие опустить, какими художественными средствами, что бы наиболее полно раскрыть замысел картины. Вот какую задачу решает художник! И именно этим определяется сущность искусства.
    А у вас? Где речь идет о ЗАМЫСЛЕ картины?

    Не, изображения ваш комплекс делает похожие на картины художников - к этой части вопросов нет. Но чем эта работа отличается от работы попугая? Или от работы фотоаппарата?
    То что делается у вас - художники называют термином "ремесло", к искусству отношения не имеющего. Да и к интеллекту, я бы тоже эту деятельность не рискнул относить. Иначе и паука придется признать художником. А если пойти и дальше, то и мороз, рисующий узоры по оконному стеклу - тоже.


    1. funca
      23.05.2022 15:51

      Искусство здесь это создание ИИ. А что делать с картинками другой вопрос. Это как критиковать детский рисунок за наивность и непрактичность. Область очень молодая, здесь проводится много экспериментов и конечно не каждый создаёт шедевр. Основная задача скорее накопление опыта и отработка приемов для новых исследований.


  1. persikk
    23.05.2022 11:20
    +1

    Очень интересно????


  1. domix32
    23.05.2022 14:13

    Тут чувак недавно так уровни для geometry dash генерил


  1. paulvl65
    23.05.2022 14:19

    Какая практическая польза, кроме возможно прикладной от подобного обучения? То что ИИ, а точнее недоинтеллект прекрасно считает и имитирует, известно.

    Для Фотошопа есть куча плагинов, имитирующих разные стили живописи. Достаточно взять растровое изображение и оно по алгоритму крупными мазками преобразуется в заданное. Визуально аналогично показанному в статье. Это не в укор или в качестве критики. Просто мысли вслух.


  1. robomakerr
    23.05.2022 22:12

    Так вы не нарисовали, вы скопировали)


    1. paulvl65
      23.05.2022 22:31

      А ИИ нарисовало в рамках заданного алгоритма, имитация имитатора имитаторами:)
      Объективной ценности нет. (Хотя в искусстве она обычно субъективная).