Искусственные нейронные сети сейчас находятся на пике популярности. Можно задаться вопросом, сыграло ли громкое название свою роль в маркетинге и применении этой модели. Я знаю некоторых бизнес-менеджеров, радостно упоминающих об использовании в их продуктах «искусственных нейронных сетей» и «глубокого обучения». Так ли рады были бы они, если бы их продукты использовали «модели с соединёнными кругами» или «машины „совершишь ошибку — будешь наказан“»? Но, вне всяких сомнений, искусственные нейросети — стоящая вещь, и это очевидно благодаря их успеху во множестве областей применения: распознавание изображений, обработка естественных языков, автоматизированный трейдинг и автономные автомобили. Я специалист по обработке и анализу данных, но раньше не понимал их, поэтому чувствовал себя мастером, не освоившим свой инструмент. Но наконец я выполнил своё «домашнее задание» и написал эту статью, чтобы помочь другим преодолеть те же самые препятствия, которые встретились мне в процессе моего (всё ещё продолжающегося) обучения.
Код на R для примеров, представленных в этой статье, можно найти здесь в Библии задач машинного обучения. Кроме того, после прочтения этой статьи стоит изучить часть 2, Neural Networks – A Worked Example, в которой приведены подробности создания и программирования нейросети с нуля.
Мы начнём с мотивирующей задачи. У нас есть набор изображений в градациях серого, каждое из которых является сеткой пикселей 2?2, в которой каждый пиксель имеет значение яркости от 0 (белый) до 255 (чёрный). Наша цель — создать модель, которая будет находить изображения с паттерном «лестницы».
На этом этапе нас интересует только нахождение модели, которая сможет логично подбирать данные. Методология подбора нам будет интересна позже.
Предварительная обработка
В каждом изображении мы помечаем пиксели , , , и генерируем входной вектор , который будет являться входными данными нашей модели. Мы ожидаем, что наша модель будет прогнозировать True (изображение содержит паттерн лестницы) или False (изображение не содержит паттерна лестницы).
ImageId | x1 | x2 | x3 | x4 | IsStairs |
---|---|---|---|---|---|
1 | 252 | 4 | 155 | 175 | TRUE |
2 | 175 | 10 | 186 | 200 | TRUE |
3 | 82 | 131 | 230 | 100 | FALSE |
… | … | … | … | … | … |
498 | 36 | 187 | 43 | 249 | FALSE |
499 | 1 | 160 | 169 | 242 | TRUE |
500 | 198 | 134 | 22 | 188 | FALSE |
Однослойный перцептрон (итерация модели 0)
Мы можем построить простую модель, состоящую из однослойного перцептрона. Перцептрон использует взвешенную линейную комбинацию входных данных для возврата оценки прогноза. Если оценка прогноза превышает выбранный порог, то перцептрон прогнозирует True. В противном случае он прогнозирует False. Если более формально, то
Давайте выразим это иначе
Здесь — наша оценка прогноза.
Графически мы можем представить перцептрон как входные узлы, передающие данные выходному узлу.
Для нашего примера мы построим следующий перцептрон:
Вот как будет работать перцептрон на некоторых из обучающих изображений.
Это определённо лучше случайных догадок и имеет здравый смысл. У всех паттернов лестниц есть в нижнем ряду тёмные пиксели, что создаёт большие положительные коэффициенты и . Тем не менее, в этой модели есть очевидные проблемы.
- Модель выдаёт на выходе действительное число, значение которого коррелирует с концепцией похожести (чем больше значение, тем выше вероятность того, что на изображении есть лестница), но нет никакой основы для интерпретации этих значений как вероятностей, потому что они могут находиться вне интервала [0, 1].
- Модель не может ухватить нелинейные взаимосвязи между переменными и целевым значением. Чтобы убедиться в этом, рассмотрим следующие гипотетические сценарии:
Случай A
Начнём с изображения x = [100, 0, 0, 125]. Увеличим с 0 до 60.
Случай B
Начнём с предыдущего изображения, x = [100, 0, 60, 125]. Увеличим с 60 до 120.
Интуитивно понятно, что случай A должен гораздо сильнее увеличить , чем случай B. Однако поскольку наша модель перцептрона является линейным уравнением, то прирост +60 в обоих случаях приведёт к приросту +0.12 .
У нашего линейного перцептрона есть и другие проблемы, но давайте сначала решим эти две.
Однослойный перцептрон с сигмоидной функцией активации (итерация модели 1)
Мы можем решить проблемы 1 и 2, обернув наш перцептрон в сигмоиду (с последующим выбором других весов). Стоит напомнить, что функция «сигмоида» — это S-образная кривая, ограниченная по вертикальной оси между 0 и 1, благодаря чему она часто используется для моделирования вероятности двоичного события.
В соответствии с этой мыслью, мы можем дополнить нашу модель следующим изображением и уравнением.
Выглядит знакомо? Да, это наша старая подруга, логистическая регрессия. Однако она хорошо послужит нам для интерпретации модели как линейного перцептрона с сигмоидной функцией активации, потому что это даёт нам больше возможностей для более общего подхода. Кроме того, поскольку мы теперь можем интерпретировать как вероятность, то нам нужно соответствующим образом изменить правило принятия решений.
Продолжим с нашим примером задачи и будем считать, что у нас получилась следующая подобранная модель:
Понаблюдаем, как эта модель ведёт себя на тех же примерах изображений из предыдущего раздела.
Нам определённо удалось решить проблему 1. Посмотрите, как она решает и проблему 2.
Случай A
Начнём с изображения [100, 0, 0, 100]. Увеличим " с 0 до 50.
Случай B
Начнём с изображения [100, 0, 50, 100]. Увеличим " с 50 до 100.
Заметьте, как кривизна сигмоиды заставляет случай A «сработать» (быстро увеличиться) с увеличением , но темп замедляется при продолжении увеличения . Это соответствует нашему интуитивному пониманию, что случай A должен отражать бОльшее увеличение вероятности паттерна лестницы, чем случай B.
К сожалению, эта модель по-прежнему имеет проблемы.
- имеет монотонную связь с каждой переменной. А что если нам нужно распознавать лестницы более светлого оттенка?
- Модель не учитывает взаимодействие переменных. Предположим, что нижний ряд изображения чёрный. Если верхний левый пиксель белый, то затемнение верхнего правого пикселя должно увеличить вероятность паттерна лестницы. Если верхний левый пиксель чёрный, то затенение верхнего правого пикселя должно снижать вероятность лестницы. Другими словами, увеличение должно потенциально приводить к увеличению или уменьшению , в зависимости от значений других переменных. В нашей текущей модели этого никак не достичь.
Многослойный перцептрон с сигмоидной функцией активации (итерация модели 2)
Мы можем решить обе вышеуказанные проблемы, добавив в нашу модель перцептрона ещё один слой. Мы создадим несколько базовых моделей, похожих на представленные выше, но мы будем передавать выходные данные каждой базовой модели на вход другого перцептрона. Эта модель на самом деле является «ванильной» нейронной сетью. Давайте посмотрим, как она может работать в разных примерах.
Пример 1: распознавание паттерна лестницы
- Построим модель, которая срабатывает при распознавании «левых лестниц»,
- Построим модель, которая срабатывает при распознавании «правых лестниц»,
- Добавим базовым моделям оценку, чтобы конечная сигмоида срабатывала только если оба значения (, ) велики
Другой вариант
- Построим модель, срабатывающую, когда нижний ряд тёмный,
- Построим модель, срабатывающую, когда верхний левый пиксель тёмный и верхний правый пиксель светлый,
- Построим модель, срабатывающую, когда верхний левый пиксель светлый и верхний правый пиксель тёмный,
- Добавим базовые модели так, что конечная сигмоидная функция срабатывала только когда и велики, или когда и велики. (Заметьте, что и не могут быть большими одновременно.)
Пример 2: распознать лестницы светлого оттенка
- Построим модели, срабатывающие при «затенённом нижнем ряде», «затенённом x1 и белом x2», «затенённом x2 и белом x1», , и
- Построим модели, срабатывающие при «тёмном нижнем ряде», «тёмном x1 и белом x2», «тёмном x2 и белом x», , и
- Соединим модели таким образом, чтобы «тёмные» идентификаторы вычитались из «затенённых» идентификаторов перед сжиманием результата сигмоидой
Примечание о терминологии
Однослойный перцептрон имеет один выходной слой. То есть построенные нами модели будут называться двуслойными перцептронами, потому что у них есть выходной слой, являющийся входом другого выходного слоя. Однако мы можем называть те же самые модели нейронными сетями, и в этом случае сети имеют три слоя — входной слой, скрытый слой и выходной слой.
Альтернативные функции активации
В наших примерах мы использовали сигмоидную функцию активации. Однако можно применять и другие функции активации. Часто применяются tanh и relu. Функция активации должна быть нелинейной, в противном случае нейронная сеть упростится до аналогичного однослойного перцептрона.
Многоклассовая классификация
Мы с лёгкостью можем расширить нашу модель, чтобы она работала в многоклассовой классификации, с помощью использования нескольких узлов в конечном выходном слое. Идея здесь заключается в том, что каждый выходной узел соответствует одному из классов , которые мы стремимся спрогнозировать. Вместо сужения выхода с помощью сигмоиды, которая отражает элемент из в элемент из интервала [0, 1] мы можем использовать функцию softmax, которая отражает вектор в в вектор в таким образом, что сумма элементов получившегося вектора равна 1. Иными словами, мы можем создать такую сеть, которая даёт на выходе вектор [, , …, ].
Использование трёх и более слоёв (глубокое обучение)
Вы можете задаться вопросом — можно ли расширить нашу «ванильную» нейронную сеть так, чтобы её выходной слой передавался на четвёртый слой (а потом на пятый, шестой и т.д.)? Да. Обычно это называется «глубоким обучением». На практике оно может быть очень эффективным. Однако стоит заметить, что любую сеть, состоящую из более чем одного скрытого слоя, можно имитировать сетью с одним скрытым слоем. И в самом деле, согласно универсальной теореме аппроксимации любую непрерывную функцию можно аппроксимировать с помощью нейронной сети с одним скрытым слоем. Причина частого выбора глубоких архитектур нейронных сетей вместо сетей с одним скрытым слоем заключается в том, что при процедуре подбора они обычно сходятся к решению быстрее.
Подбор модели под размеченные обучающие образцы (обратное распространение ошибки обучения)
Увы, но мы добрались и до процедуры подбора. До этого мы говорили о том, что нейросети могут работать эффективно, но не обсуждали то, как нейросеть подгоняется под размеченные обучающие образцы. Аналогом этого вопроса может быть такой: «Как можно выбрать наилучшие веса для сети на основании нескольких размеченных обучающих образцов?». Обычным ответом является градиентный спуск (хотя может подойти и ММП). Если продолжить работу над нашим примером задачи, то процедура градиентного спуска может выглядеть примерно так:
- Начинаем с каких-то размеченных обучающих данных
- Выберем для минимизации дифференцируемую функцию потерь,
- Выберем структуру сети. Особенно чётко нужно определить количество слоёв и узлов на каждом слое.
- Инициализируем сеть со случайными весами
- Пропускаем сквозь сеть обучающие данные, чтобы сгенерировать прогноз для каждого образца. Измерим общую погрешность согласно функции потерь, . (Это называется прямым распространением.)
- Определяем, насколько меняются текущие потери относительно небольших изменений каждого из весов. Другими словами, вычисляем градиент с учётом каждого веса в сети. (Это называется обратным распространением.)
- Делаем небольшой «шаг» в направлении отрицательного градиента. Например, если , а , то уменьшение на небольшую величину должно привести к небольшому уменьшению текущих потерь. Поэтому мы изменяем (где 0.001 — заданный «размер шага»).
- Повторяем этот процесс (с шага 5) фиксированное количество раз или пока потери не сойдутся
По крайней мере, такова основная идея. При реализации на практике возникает множество затруднений.
Затруднение 1 – вычислительная сложность
В процессе подбора среди прочего нам нужно вычислять градиент с учётом каждого веса. Это сложно, потому что зависит от каждого узла в выходном слое, и каждый из этих узлов зависит от каждого узла в слое перед ним, и так далее. Это значит, что вычисление превращается в настоящий кошмар с формулами сложных производных. (Не забывайте, что многие нейронные сети в реальном мире содержат тысячи узлов в десятках слоёв.) Решить эту задачу можно, заметив, что при применении формулы сложной производной большинство повторно использует одинаковые промежуточные производные. Если вы будете внимательно это отслеживать, то сможете избежать одних и тех же повторных вычислений тысячи раз.
Ещё одна хитрость заключается в использовании специальных функций активации, производные которых можно записать как функцию их значения. Например, производная = . Это удобно, потому что во время прямого прохода при вычислении для каждого обучающего образца нам нужно вычислять поэлементно для некоторого вектора . Во время обратного распространения мы можем повторно использовать эти значения для вычисления градиента с учётом весов, что позволит сэкономить время и память.
Третья хитрость заключается в разделении обучающих образцов на «минигруппы» и в изменении весов с учётом каждой группы, одной за другой. Например, если мы разделим обучающие данные на {batch1, batch2, batch3}, то первый проход по обучающим данным будет
- Изменять веса на основе batch1
- Изменять веса на основе batch2
- Изменять веса на основе batch3
где градиент повторно вычисляется после каждого изменения.
Напоследок стоит упомянуть ещё одну технику — использование вместо центрального процессора видеопроцессора, потому что он лучше подходит для выполнения большого количества параллельных вычислений.
Затруднение 2 – у градиентного спуска могут возникать проблемы с поиском абсолютного минимума
Это проблема не столько нейросетей, сколько градиентного спуска. Существует вероятность, что во время градиентного спуска веса могут застрять в локальном минимуме. Также возможно, что веса «перепрыгнут» минимум. Один из способов справиться с этим — использовать различные размеры шагов. Ещё один способ — увеличить количество узлов и/или слоёв в сети. (Но стоит опасаться чрезмерно близкой подгонки). Кроме того, могут быть эффективными некоторые эвристические техники, например, использование момента.
Затруднение 3 – как выработать общий подход?
Как написать генетическую программу, которая сможет подбирать значения для любой нейросети с любым количеством узлов и слоёв? Правильный ответ — никак, нужно использовать Tensorflow. Но если вы хотите попробовать, то самой сложной частью будет вычисление градиента функции потерь. Хитрость здесь в том, чтобы определить, что градиент можно представить как рекурсивную функцию. Нейронная сеть с пятью слоями — это просто нейронная сеть с четырьмя слоями, передающая данные в какие-то перцептроны. Но нейросеть с четырьмя слоями — это просто нейросеть с тремя слоями, передающая данные в какие-то перцептроны и так далее. Более формально это называется автоматическим дифференцированием.
Комментарии (12)
Denxc
15.11.2017 13:29Отлично написано!
Поясните, пожалуйста шаг 6 и 7 подробнее. Что значит «насколько меняются текущие потери относительно небольших изменений каждого из весов». Почему появляется градиент L? Ведь был изначально скаляр.
Что такоеAbstractGaze
15.11.2017 13:35Отлично переведено!
gormanalysis.com/introduction-to-neural-networks
Что-то последнее время в каждом переводе обязательно кто-то не видит этого.
Или вы к комментирующим обращаетесь?
Cobolorum
15.11.2017 13:58Разве не достаточно только этого
IF (x1<x2 and x1x4 and x3<x4 )
or (x2<x1 and x2<x4 and x1<x3 and x4<x3)
THEN stairshaoNoQ
15.11.2017 15:30Для этого наглядного учебного примера — достаточно. Для ненаглядных™ задач из реальной жизни, к которым применяются нейросеточки — не достаточно. Хотя иногда тоже достаточно, если нейросеточки не к месту применяются.
masai
17.11.2017 18:56Небольшое замечение. Глубокие перцептроны на практике особо и не встретишь, так как для сколько-нибудь сложной задачи число параметров станет просто астрономическим. И хоть в теории такой перцептрон и будет хорошо решать нашу задачу, вряд ли мы дождёмся окончания его обучения. В глубоком обучении правят бал свёртки и их друзья (например, Res-блоки).
nckma
Такой странный вопрос: одна из первых формул:
if ( w1*x1+w2*x2+w3*x3+w4*x4 > threshold )
then func=1
else func=0.
Что если изображение {x1,x2,x3,x4} представляет собой очень бледную копию искомого изображения? Тогда из-за того, что значения малы, то выражение не преодолеет порог.
Второй вопрос, как из функции w1*x1+w2*x2+w3*x3+w4*x4 получить функцию вида y=wx+b.
Третий. Что если изображения вообще нет: {0,0,0,0}, тогда y=0+b и оно всегда больше нуля, то есть образ обнаружен. Как же так?
haoNoQ
Смотря какие веса и какой порог. В целом мне кажется разумным, что на почти белой картинке скорее нарисована картина "Война в Крыму, всё в дыму, ничего не видно", чем "Лесенка".
Записать "векторно". Между w и x скалярное произведение спряталось (подразумевается в этой записи). А b — это бывший threshold, его просто в левую часть перенесли.
Смотря чему равно b, оно может быть и отрицательным, тем более что его только что из правой части перенесли.
nckma
Ага, то, что перенесли threshold теперь я понял.
А вот как Вы коэффициенты выбрали? Не понятно.
По идее, максимум будет у автокорреляционной функции, но похоже коэффициенты w выбраны каким-то иным (не описанным в статье) способом. Тем более, что якобы «лестница» у вас определяется и в перевернутом виде.
haoNoQ
В примере в самом начале не сказано откуда взялись коэффициенты, просто сказали: "давайте для примера рассмотрим такие-то коэффициенты".
А потом объясняется, что коэффициенты можно считать, например, методом градиентного спуска, минимизируя ошибку на выборке.
Ась?
P.S. Я тут ни при чём и никакие коэффициенты не выбирал, просто мимо проходил.
nckma
Под «перевернутой» я имел ввиду лестница «слева направо вверх» и «справа налево вверх» — такие у него примеры. И я честно не понимаю, как можно настроить обнаружение и того и этого одновременно.
Вроде бы лучший обнаружитель — это корреляционная функция с эталонным сигналом который обнаруживаешь на фоне помех. А тут получается сигналы, которые ищешь — могут быть разные и при этом еще зеркальные. Получается нужно бы иметь два эталонных сигнала для двух корреляционных функций.
haoNoQ
Нуу эээ даа, первая часть статьи разжёвывает тот факт, что линейным классификатором нельзя выклассифицировать лесенку. Хотя бы потому, что побитное среднее арифметическое двух опознаваемых картинок было бы в этом случае такой же опознаваемой картинкой. А среднее арифметическое двух зеркальных лесенок — это невнятный градиент из чёрного в серое.
Поэтому навешивают активационную функцию, например сигмоиду, после чего начинает иметь какой-то смысл композиция классификаторов (а то композиция линейных функций — это линейная функция, не интересно), после чего городят композицию классификаторов.