После непродолжительной, но весьма кровавой войны мне все-таки удалось откомпилировать и собрать TensorFlow для GPU с CUDA capability=3.0. Теперь можно погрузиться в него основательно, потому что машинное обучение с GPU — это быстро, легко и приятно, а без GPU — порой лишь огромная потеря времени.
Попробуем запрограммировать самую простейшую логистическую регрессию.
Начнем незамысловато — с импорта tensorflow:
Далее загружаем данные:
Функцию load_data, которая загружает ваши данные, вам необходимо будет реализовать самостоятельно.
Структура данных предельно проста:
— train_X и test_X — это numpy-массивы размерностью NxF, где N — количество анализируемых инстансов (проще говоря, точек данных), а F — количество атрибутов у каждого инстанса.
— train_Y и test_Y — это тоже numpy-массивы, но уже размерностью NxC, где С — количество классов (в самом простом случае, 2)
Таким образом, если train_Y[i] содержит вектор [1 0], это означает, что i-ый инстанс относится к классу 0 (поскольку в нулевом элементе вектора стоит 1).
Для удобства запомним важные размерности:
Теперь определим символьные переменные для будущих вычислений:
Здесь мы создаем символьную переменную X типа «float» размерностью «хоть сколько» на num_features. Количество точек данных никак не влияет на суть вычислений, поэтому можно их не фиксировать в модели. Зато потом мы сможем запускать вычисления на одной и той же модели как со 100 точками, так и с 10 миллионами.
C Y совершенно аналогичная ситуация.
Еще нужно создать переменные для хранения параметров модели:
А теперь описываем модель:
В данном случае мы используем наипростейшую линейную модель вида y=Wx+B, завернутую в softmax. В pY будет храниться результат расчета, то есть предсказанный Y, поэтому он также будет иметь размерность NxC.
Далее определяем функцию потерь:
Можно, конечно, функцию потерь и более явно описать:
После чего создаем оптимизатор:
Вместо Adam желающие могут использовать и старый добрый градиентный спуск:
До сих пор мы только описывали модель и ее параметры, но никакие вычисления пока не проводились. И вот, наконец-то, мы переходим к расчетам. Сначала создаем сессию и инициализируем все переменные.
А теперь поехали:
Здесь просто происходит вызов ранее описанного оптимизатора, которому передаются данные: символьная переменная X получает данные из train_X, а Y — из train_Y. Таким образом, в модели больше нет никакой неопределенности и все вычисления выполнимы.
В данном случае, мы проводим 40 итераций, в каждой из которых обсчитываются все имеющиеся тренировочные данные.
Если данных много, то можно разделить их на блоки (batch'и) и учить последовательно, то есть каждая эпоха будет включать цикл по всем блокам.
Для оценки качества модели надо ввести критерий оценки:
Здесь сравнивается реальный класс и предсказанный класс, после чего результат сравнения преобразуется из типа boolean в тип float (true — 1, false — 0), а затем по всем этим сравнениям берется среднее.
Обратите внимание, что предыдущая строка только определяет критерий, а не вычисляет его. Вышеописанная формула, также как и оптимизатор, зависят от символьных переменных, которые надо наполнить данными. Поэтому для выполнения расчета снова запускаем run:
Однако теперь мы уже используем тестовые, а не тренировочные данные.
Вот и все. Это было совсем несложно.
Попробуем запрограммировать самую простейшую логистическую регрессию.
Начнем незамысловато — с импорта tensorflow:
import tensorflow as tf
Далее загружаем данные:
train_X, train_Y, test_X, test_Y = load_data()
Функцию load_data, которая загружает ваши данные, вам необходимо будет реализовать самостоятельно.
Структура данных предельно проста:
— train_X и test_X — это numpy-массивы размерностью NxF, где N — количество анализируемых инстансов (проще говоря, точек данных), а F — количество атрибутов у каждого инстанса.
— train_Y и test_Y — это тоже numpy-массивы, но уже размерностью NxC, где С — количество классов (в самом простом случае, 2)
Таким образом, если train_Y[i] содержит вектор [1 0], это означает, что i-ый инстанс относится к классу 0 (поскольку в нулевом элементе вектора стоит 1).
Для удобства запомним важные размерности:
num_features = train_X.shape[1]
num_classes = train_Y.shape[1]
Теперь определим символьные переменные для будущих вычислений:
X = tf.placeholder("float", [None, num_features])
Y = tf.placeholder("float",[None, num_classes])
Здесь мы создаем символьную переменную X типа «float» размерностью «хоть сколько» на num_features. Количество точек данных никак не влияет на суть вычислений, поэтому можно их не фиксировать в модели. Зато потом мы сможем запускать вычисления на одной и той же модели как со 100 точками, так и с 10 миллионами.
C Y совершенно аналогичная ситуация.
Еще нужно создать переменные для хранения параметров модели:
W = tf.Variable(tf.zeros([num_features,num_classes]))
B = tf.Variable(tf.zeros([num_classes]))
А теперь описываем модель:
pY = tf.nn.softmax(tf.matmul(X, W) + B)
В данном случае мы используем наипростейшую линейную модель вида y=Wx+B, завернутую в softmax. В pY будет храниться результат расчета, то есть предсказанный Y, поэтому он также будет иметь размерность NxC.
Далее определяем функцию потерь:
cost_fn = tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(pY, Y))
Можно, конечно, функцию потерь и более явно описать:
cost_fn = -tf.reduce_sum(Y * tf.log(pY))
После чего создаем оптимизатор:
opt = tf.train.AdamOptimizer(0.01).minimize(cost_fn)
Вместо Adam желающие могут использовать и старый добрый градиентный спуск:
opt = tf.train.GradientDescentOptimizer(0.01).minimize(cost_fn)
До сих пор мы только описывали модель и ее параметры, но никакие вычисления пока не проводились. И вот, наконец-то, мы переходим к расчетам. Сначала создаем сессию и инициализируем все переменные.
sess = tf.Session()
init = tf.initialize_all_variables()
sess.run(init)
А теперь поехали:
num_epochs = 40
for i in range(num_epochs):
sess.run(opt, feed_dict={X:train_X, Y:train_Y})
Здесь просто происходит вызов ранее описанного оптимизатора, которому передаются данные: символьная переменная X получает данные из train_X, а Y — из train_Y. Таким образом, в модели больше нет никакой неопределенности и все вычисления выполнимы.
В данном случае, мы проводим 40 итераций, в каждой из которых обсчитываются все имеющиеся тренировочные данные.
Если данных много, то можно разделить их на блоки (batch'и) и учить последовательно, то есть каждая эпоха будет включать цикл по всем блокам.
Для оценки качества модели надо ввести критерий оценки:
accuracy = tf.reduce_mean(tf.cast(tf.equal(tf.argmax(pY,1), tf.argmax(Y,1)), "float"))
Здесь сравнивается реальный класс и предсказанный класс, после чего результат сравнения преобразуется из типа boolean в тип float (true — 1, false — 0), а затем по всем этим сравнениям берется среднее.
Обратите внимание, что предыдущая строка только определяет критерий, а не вычисляет его. Вышеописанная формула, также как и оптимизатор, зависят от символьных переменных, которые надо наполнить данными. Поэтому для выполнения расчета снова запускаем run:
accuracy_value = sess.run(accuracy, feed_dict={X:test_X, Y:test_Y})
Однако теперь мы уже используем тестовые, а не тренировочные данные.
Вот и все. Это было совсем несложно.
frol
Я сам всё ещё не успел найти время на TF, но есть tensorflow/skflow (от ilblackdragon), который упрощает API и всё, что вы описали в статье делается в skflow обёртке куда проще.