Книга «Глубокое обучение в картинках. Визуальный гид по искусственному интеллекту» / forpes.ru

Главная
Книга «Глубокое обучение в картинках. Визуальный гид по искусственному интеллекту»

Книга «Глубокое обучение в картинках. Визуальный гид по искусственному интеллекту» +3

30.06.2020 12:48

ph_piter 6 2600 Источник

Привет, Хаброжители! Глубокое обучение стало мощным двигателем для работы с искусственным интеллектом. Яркие иллюстрации и простые примеры кода избавят вас от необходимости вникать в сложные аспекты конструирования моделей глубокого обучения, делая сложные задачи доступными и увлекательными.

Джон Крон, Грант Бейлевельд и замечательный иллюстратор Аглаэ Бассенс используют яркие примеры и аналогии, которые позволяют объяснить, что такое глубокое обучение, почему оно пользуется такой популярностью и как эта концепция связана с другими подходами к машинному обучению. Книга идеально подойдет разработчикам, специалистам по обработке данных, исследователям, аналитикам и начинающим программистам, которые хотят применять глубокое обучение в своей работе. Теоретические выкладки прекрасно дополняются прикладным кодом на Python в блокнотах Jupyter. Вы узнаете приемы создания эффективных моделей в TensorFlow и Keras, а также познакомитесь с PyTorch.

Базовые знания о глубоком обучении позволят создавать реальные приложения — от компьютерного зрения и обработки естественного языка до генерации изображений и игровых алгоритмов.

Сеть промежуточной глубины на основе Keras

В завершение этой главы воплотим новые теоретические познания в нейронную сеть и посмотрим, сможем ли мы превзойти предыдущую модель shallow_net_in_keras.ipynb в классификации рукописных цифр.

Первые несколько этапов создания сети промежуточной глубины в блокноте Jupyter intermediate_net_in_keras.ipynb идентичны этапам создания ее предшественницы — неглубокой сети. Сначала загружаются те же самые зависимости Keras, точно так же вносится и обрабатывается набор данных MNIST. Как можно увидеть в листинге 8.1, самое интересное начинается там, где определяется архитектура нейронной сети.

Листинг 8.1. Код, определяющий архитектуру нейронной сети с промежуточной глубиной

model = Sequential()
model.add(Dense(64, activation='relu', input_shape=(784,)))
model.add(Dense(64, activation='relu'))
model.add(Dense(10, activation='softmax'))

Первая строка в этом фрагменте кода, model = Sequential(), та же, что и в предыдущей сети (листинг 5.6); это экземпляр объекта модели нейронной сети. В следующей строке начинаются расхождения. В ней мы заменили функцию активации sigmoid в первом скрытом слое функцией relu, как было рекомендовано в главе 6. Все остальные параметры первого слоя, кроме функции активации, остались прежними: он все так же состоит из 64 нейронов, и прежней осталась размерность входного слоя — 784 нейрона.

Другое существенное изменение в листинге 8.1 по сравнению с неглубокой архитектурой в листинге 5.6 заключается в наличии второго скрытого слоя искусственных нейронов. Вызовом метода model.add() мы без всяких усилий добавляем второй слой Dense с 64 нейронами relu, оправдывая слово intermediate (промежуточная) в имени блокнота. Вызвав model.summary(), можно увидеть, как показано на рис. 8.9, что этот дополнительный слой добавляет 4160 дополнительных обучаемых параметров, по сравнению с неглубокой архитектурой (см. рис. 7.5). Параметры можно разбить на:

4096 весов, соответствующих связям каждого из 64 нейронов во втором скрытом слое с каждым из 64 нейронов в первом скрытом слое (64 ? 64 = 4096);
плюс 64 смещения, по одному для каждого нейрона во втором скрытом слое;??
в результате получается 4160 параметров: nпараметров = nw + nb = 4096 + 64 =
= 4160.

Помимо изменений в архитектуре модели мы также изменили параметры компиляции модели, как показано в листинге 8.2.

Листинг 8.2. Код компиляции нейронной сети с промежуточной глубиной

model.compile(loss='categorical_crossentropy',
                      optimizer=SGD(lr=0.1),
                      metrics=['accuracy'])

Эти строки из листинга 8.2:
??

задают функцию стоимости на основе перекрестной энтропии: loss='categorical_crossentropy' (в неглубокой сети использовалась квадратичная стоимость loss='mean_squared_error');
задают метод стохастического градиентного спуска для минимизации стоимости: optimizer=SGD;
определяют гиперпараметр скорости обучения: lr=0.1(1);
указывают, что в дополнение к обратной связи о потерях, которая предлагается библиотекой Keras по умолчанию, мы также хотим получить обратную связь о точности модели: metrics=['accuracy'](2).

(1) Вы можете попробовать увеличить скорость обучения на несколько порядков, а затем уменьшить ее на несколько порядков и понаблюдать, как это повлияет на обучение.

(2) Потеря является наиболее важным показателем, позволяющим увидеть, как изменяется качество модели с течением эпох, но конкретное значение потери зависит от характеристик данной модели и, как правило, не поддается интерпретации и не может сравниваться у разных моделей. Поэтому даже зная, что потери должны быть как можно ближе к нулю, часто очень сложно понять, насколько близка к нулю потеря для конкретной модели. Точность, напротив, легко интерпретируется и легко обобщается: мы точно знаем, что это значит (например, «неглубокая нейронная сеть правильно классифицировала 86 процентов рукописных цифр в проверочном наборе данных»), и можем сравнить с точностью любой другой модели («точность 86 процентов хуже, чем точность нашей глубокой нейронной сети»).

Наконец, мы обучаем промежуточную сеть, выполняя код в листинге 8.3.
Листинг 8.3. Код обучения нейронной сети с промежуточной глубиной

model.fit(X_train, y_train,
              batch_size=128, epochs=20,
              verbose=1,
              validation_data=(X_valid, y_valid))

Единственное, что изменилось в обучении промежуточной сети по сравнению с неглубокой сетью (см. листинг 5.7), — это уменьшение на порядок гиперпараметра epochs с 200 до 20. Как вы увидите далее, более эффективная промежуточная архитектура требует намного меньше эпох для обучения.

На рис. 8.10 представлены результаты первых четырех эпох обучения сети. Как вы наверняка помните, наша неглубокая архитектура достигла плато на уровне 86%-й точности на проверочных данных после 200 эпох. Сеть промежуточной глубины значительно превзошла ее: как показывает поле val_acc, сеть достигла 92.34%-й точности уже после первой эпохи обучения. После третьей эпохи точность превысила 95%, а к 20-й эпохе, похоже, достигла плато на уровне около 97.6%. Мы серьезно продвинулись вперед!

Разберем подробнее вывод model.fit(), показанный на рис. 8.10:

Индикатор процесса, показанный ниже, заполняется в течение 469 «циклов обучения» (см. рис. 8.5):
60000/60000 [==============================]
1s 15us/step означает, что на все 469 циклов обучения в первую эпоху потребовалась 1 секунда, в среднем по 15 микросекунд на цикл.
loss показывает среднюю стоимость на обучающих данных для эпохи. Для первой эпохи она равна 0.4744 и от эпохи к эпохе уверенно уменьшается методами стохастического градиентного спуска (SGD) и обратного распространения, а в конечном итоге уменьшается до 0.0332 к двадцатой эпохе.
acc — точность классификации на обучающих данных в данную эпоху. Модель правильно классифицировала 86.37% после первой эпохи и достигла уровня выше 99% к двадцатой. Поскольку модель может переобучиться, не следует особо удивляться высокой точности в этом параметре.
К счастью, стоимость на проверочном наборе данных (val_loss), как правило, тоже уменьшается и в конечном итоге достигает плато на уровне 0.08 в ходе последних пяти эпох обучения.
Одновременно с уменьшением стоимости на проверочных данных растет точность (val_acc). Как уже упоминалось, точность на проверочных данных составила 97.6%, что значительно выше 86% у нашей неглубокой сети.

Итоги

В этой главе мы проделали большую работу. Сначала мы узнали, как нейронная сеть с фиксированными параметрами обрабатывает информацию. Затем разобрались с взаимодействующими методами — функциями стоимости, стохастическим градиентным спуском и обратным распространением, которые позволяют корректировать параметры сети для аппроксимации любого истинного значения y, имеющего непрерывное отношение с некоторым входом х. Попутно мы познакомились с несколькими гиперпараметрами, включая скорость обучения, размер пакета и количество эпох обучения, а также с практическими правилами настройки каждого из них. В завершение главы мы применили новые знания для создания нейронной сети промежуточной глубины, которая значительно превзошла предыдущую неглубокую сеть на той же задаче классификации рукописных цифр. Далее мы познакомимся с методами улучшения стабильности искусственных нейронных сетей по мере их углубления, что позволит нам разработать и обучить полновесную модель глубокого обучения.

» Более подробно с книгой можно ознакомиться на сайте издательства
» Оглавление
» Отрывок

Для Хаброжителей скидка 25% по купону — Глубокое обучение

По факту оплаты бумажной версии книги на e-mail высылается электронная книга.

Комментарии (6)

VIkrom
30.06.2020 16:30
#21794870
Получил вчера «Чистый Agile». У «Первой Образцовой типографии» качество печати, мягко говоря, не образцовое. Почти на каждой странице есть участки с «плывущими» словами. Да и в целом качество печати так себе.

Quiensabe
01.07.2020 16:36
#21798722
Купил книгу. Вопрос — почему не использовать в электронной версии цветные иллюстрации?

Как вы предполагаете читать такие иллюстрации:
Ладно, в данном случае все предельно понятно. Но в книге есть иллюстрации на 4-5 цветов, воспринимать их в серой гамме крайне неудобно.

Понятно в бумажной версии вы экономите на цветной печати, но в электронной то почему?

Абсурда проблеме добавляет то, что цветные иллюстрации есть, и даже переведены (правда не для всех картинок, для примера выше цветной версии нет). Цветные иллюстрации выложены на гуглодиск, и на них можно перейти только по QR-кодам, впечатанным в книгу… Неужели сложно эти коды хотя бы сделать ссылками в электронной версии, чтобы не приходилось наводиться на читалку телефоном? Ну издевательство же, нет? Или хотя бы выложите иллюстрации куда-то архивом, чтобы скачать всё вместе…

Пока все это выглядит как неуважение к читателям электронной версии.
1. bashkadove
  03.07.2020 10:35
  #21805128
  Согласен с Вами. Цвет бывает определяющим в книгах по веб разработке и также очень важен в книгах по машинному обучению. Приходится порой лезть в английский вариант книг, чтобы детальнее разобраться
1. ph_piter Автор
  03.07.2020 16:38
  #21806798
  Спасибо за фидбек, начали переделывать эл версию. Ориентировочно 10 июля будет доступна.
  1. Quiensabe
    03.07.2020 17:03
    #21806894
    Вот это правильный подход!
    Надеюсь смогу 11 июля изменить/дополнить отзыв.
  1. Murmurianez
    06.07.2020 00:08
    #21813270
    Попробуйте поэкспериментировать с выпуском цветных книг для некоторых аудиторий — думаю, большинство IT-шников при покупке полезной книги на ценник вообще в последнюю очередь внимание обращает, а вот правильное донесение информации играет одну из важнейших ролей. Причём, тут цвета могут быть весьма условные — синий от красного отличать — достаточно, какой-то великой бумаги и чернил не требуется. А вот делать книги по дизайну чёрно-белыми — это вообще за гранью добра и зла.

Книга «Глубокое обучение в картинках. Визуальный гид по искусственному интеллекту» +3

Сеть промежуточной глубины на основе Keras

Итоги

Комментарии (6)

VIkrom

Quiensabe

bashkadove

ph_piter Автор

Quiensabe

Murmurianez