Создание торгового бота используя машинное обучение в анализе временных рядов / forpes.ru

Главная
Создание торгового бота используя машинное обучение в анализе временных рядов

Создание торгового бота используя машинное обучение в анализе временных рядов +4

27.05.2020 19:26

asmisha 5 2900 Источник

Это не техническая статья, в ней нет подробного анализа методов и теории. Просто как-то я увлекся машинным обучением и как и многие начинающие в этой теме люди, решил сделать торгового бота. Однако это выросло в нечто большее, чем просто тренировочный проект. Вот обо всем этом я и хочу рассказать.

Немного о Машинном обучении

Машинное обучение (Machine Learning; далее МО), так или иначе является составной частью отрасли Искусственного Интеллекта (Artificial Intelligence; далее ИИ), науки и технологии, которая позволяет “интеллектуальным” компьютерным системам моделировать человеческое поведение. В эту же отрасль входит и понятие Глубокое обучение (Deep Learning), затрагивающее нейронные сети и имитацию человеческого мышления.

Академическая дисциплина ИИ изучает как машине, т.е. компьютеру, решать задачи, которые подвластны лишь человеческому разуму. Это может быть такая задача, как понимание прочитанного текста, или определение ходов в игре в шашки, или решении головоломки. МО же заключается в разработке алгоритмов, которые помогают компьютеру делать вывод на основание полученной информации. Топливом ко всему в этом случае являются данные.

(с)Oracle

В информационном веке, информация и данные являются самым ценным. Всё что мы делаем, оффлайн или онлайн порождает новые данные: будь то текст, аудио, видео данные, сенсорные измерения, “умные” гаджеты и обмен данных между ними. Возможности сбора больших и новых данных стремительно увеличиваются благодаря доступности аппаратных устройств, развитию облачной инфраструктуры и, вытекающему из массового применения этих технологий, падению их стоимости. Знание, или информация, есть сила — аксиома верна но есть “но”.

Обладание огромными объемами информации ещё не приносит пользы её держателю. Но именно через алгоритмы и методы МО, большие данные (Big Data) начинают обретать смысл и пользу. Немного конкретнее, системы МО замечают закономерности и выстраивают заключения на основе множества факторов в системе данных, не будучи запрограммированными на это.

Основные случаи применения МО сегодня — распознавание объектов, компьютерное видение, анализ данных, контроль качества (мониторинг) и предиктивная аналитика.

Итак, мы знаем, что машинное обучение полагается на алгоритмы обработки данных и на сами данные. Про методы МО можно углубиться в отдельный цикл статей. Описывать их было бы сравнимо с перечислением возможных технологий в веб разработке и их применения при наличии у каждой из таких технологий своих плюсов и минусов.

Стоит лишь отметить, что со временем алгоритмы и методы обработки данных улучшаются, а данных становится всё больше, тем самым качество обработки данных становится лучше.

Из типов данных, я хотел бы уделить внимание временным рядам на примере личного проекта — автоматизированного трейдинга криптовалют.

Анализ временных рядов

Временной ряд — вид данных, которые возможно представить в виде последовательностей измерений, упорядоченных в неслучайные моменты времени.

Существуют две основные цели анализа временных рядов:
определение природы ряда и прогнозирование (предсказание будущих значений временного ряда по настоящим и прошлым значениям). Это предполагает идентификацию и описание модели ряда, и интерпретацию данных, что позволяет выводить будущее значение ряда.

Применяя методы МО для таких данных, мы получаем возможность найти более глубокие закономерности в данных. В результате мы получаем более “интеллектуальный” прогноз будущих значений.

В отличие от анализа случайных выборок данных, анализ временных рядов основывается на предположении, что последовательные значения в файле данных наблюдаются через равные промежутки времени. В других же методах нам не важна и часто не интересна привязка наблюдений ко времени.

Другими словами, для проведения анализа важно, что событие X произошло в момент времени Y. На примере курса валют, нам важна выборка, где цена привязана к определённому моменту времени. Если нарушить порядок дат в ряде дата-цена, то он станет бессмысленным.

Например, используя финансовые временные ряды, алгоритм МО может сделать прогноз о росте или упадке доходности. При обработке аудиофайлов, где временные ряды будут выражены изменениями тона в привязке к хронометражу, можно анализировать смысл произносимой речи. Учитывая метеоданные, через МО и временных рядов можно выводить комплексные прогнозы погоды.

Если же алгоритмы МО, анализируют, скажем, изображения котиков, то нам не важна привязка ко времени, или даже порядок, в котором поступают картинки.

Применение на примере трейдинга криптовалют

В своем проекте я пытался ответить на вопрос, возможно ли построение полностью автоматической торговой системы, основанной на методах машинного обучения. Для этого я нашел и собрал исторические данные по ценам биткойна, объёмам сделок, а также выставленным и отозванным ордерам.

Через некоторое время, путем проб и ошибок я пришел к определенному пониманию, как эти данные стоит интерпретировать, какую архитектуру нейронной сети использовать, как размечать данные и т.д. В частности обучение проводится с гранулярностью 10 секунд, а в качестве результирующего значения используется цена в будущем.

Сейчас в алгоритме используются несколько моделей, обученных в разное время, т.к. я постоянно совершенствовал алгоритм обучения и добавлял к нему новые собранные данные. Для реализации использовался язык программирования Python с библиотеками Keras, Scipy, Pandas.

Скрипт для исполнения трейдинговых операций выставляет ордеры на торговой платформе Bitmex в круглосуточном режиме. При возникновении сигнала на открытие позиции и совершении соответствующей сделки, скрипт будет ожидать, пока цена не достигнет уровней Take Profit или Stop Loss, либо пока не истечет время жизни сделки (Time To Live).

Главный лог файл, отображающий обработку данных в реальном времени

Алгоритм обработки данных полагается на технический анализ данных, историю торгов, предыдущие ордеры, распоряжения, и новости связанные с криптовалютой (через обработку естественного языка, или Natural Language Processing — NLP).

За основную метрику успеха берётся точность на основе количества ордеров типа Take profit в отношении общего количества ордеров. Итого прогноз считается успешным при достижении ордера Take Profit, в то время как Stop Loss и Time to Live признаются моделью как неуспешные.

Точность = (Кол-во ордеров типа Take profit) / (Общее кол-во ордеров)

Торг считается прибыльным при достижении точности отметкой 67%.

Месяц	Точность
Январь 2020	72%
Февраль 2020	70%
Март 2020	60%
Апрель 2020	70%

Ниже визуально представлены сделки, совершенные с использованием такого программного решения.

Зеленые треугольники — это успешные сделки (Take profit достигнут), красные — неуспешные (Stop loss, Time to Live). Треугольники, смотрящие вверх — это сделки на покупку, треугольники, смотрящие вниз — это сделки на продажу.

В заключении

Автоматизированный трейдинг — лишь одно из самых очевидных возможных применений анализа временных рядов. Если говорить о бизнесе, то прогнозирование разных показателей на основе собранных данных может иметь критически важное значение. На основе таких прогнозов уже сейчас можно принимать важные бизнес-решения, и в будущем объем автоматически принимаемых решений будет только расти.

Выполнения таких расчетов довольно ресурсоемкий процесс. К счастью, вычислительные мощности компьютерных систем постоянно увеличиваются. Более того, современная отрасль компьютерных наук, изучающая ИИ, направлена на создание алгоритмов, которые наиболее эффективно используют доступные вычислительные ресурсы для выявления закономерностей в накопленных данных.

Выведение и построение прогнозов невозможно без использования временных рядов. Именно этот вид данных лежит в основе прогнозов, которые помогают руководящим лицам принимать жизненно важные для бизнеса решения. Несомненно, анализ временных рядов и их обработка алгоритмами МО — неотъемлемая часть бизнес процессов будущего.

Комментарии (5)

StasTukalo
27.05.2020 23:08
#21667966
Спасибо за статью. Приятно видеть, что я не одинок в своих потугах.
Несколько вопросов:
1. используете бустинг вообще и катбуст в частности?
2. используете гпу?
3. про архитектуру сети можете рассказать?
4. курсы одного инструмента с разных бирж используете?
5. внебиржевую информацию пытаетесь как-то использовать в обучении?

Спасибо и успехов!

Docal
28.05.2020 09:15
#21668976
Подскажите где нашли историю выставленных и отозванных ордеров?
Так же занимаюсь написанием торговых стратегий на Bitmex. Начинал с нейросетей но в результате использую другие методы. Правда прибыль в бектестере отличается от прибыли в режиме лайв.
Кстати насколько процентов или долей процентов Вам удалось побить рынок? Например используя метрику profit/turnover.
Испытываете ли проблемы с нестабильность api, это когда на рынке начинаются движения и биржа не даёт поставить /изменить ордер а бросает вместо этого ошибку что API overload?

Slav2
28.05.2020 14:17
#21670476
+1
Плоховасто торгует прямо скажем. Если вы действительно снимаете данные раз в 10 секунд, то зачем открывать короткие позиции когда цена еще не начала падать? Последние 2 красных треугольника явно не в тему.

Я бы вообще отказался от анализа данных с bitmex. Максимальные обьемы торгов на binance. Bitmex торгует деривативами цена на которые опирается в первую очередь на индекс цены на других биржах. И какие бы ни стояли стаканы заказов на bitmex цена пойдет в ту же сторону, что и на binance, еще и с задержкой. Ну и какой смысл скармливать эти данные алгоритму МО? Могу сэкономить вам пару месяцев и исторические данные с Binance предоставить.

fivehouse
28.05.2020 23:13
#21672992
+3
Не хотелось бы расстраивать автора, но надеюсь мой комментарий спасет ему и другим читателям этого комментария несколько (десятков) лет жизни. Никакой ML, никакой псевдо-Artificial Intelligence, никакая BigData, никакой Python c алгоритмами не поможет, если у исследователя нет хотябы 80% понимания структуры математического объекта с которым он работает. В данном случае идет речь о временных рядах. Временные ряды это очень сложные математические объекты из реальной природы самого разнообразного типа. Существующие практические методы исследования временных рядов дают минимальные сведения об этих объектах точного, но поверхностного характера. Все другие основательные попытки рассмотрения временных рядов при попытке отрыва от банальных статистик выливаются в монументальные математические исследования и во вполне самостоятельные разделы современной передовой математики. И в конечном итоге там и остаются, не приводя ни к чему. Это означает, что либо вы должны открыть фундаментально новые методы исследования временных рядов, либо вы просто развлекаетесь с «Python, Программирование, Алгоритмы, Машинное обучение, Искусственный интеллект» обманывая себя и других пустыми надеждами на какой либо результат.
Всё ML (абсолютно все) строится на предположении, что существуют «некотрые паттерны». Их просто надо найти, запомнить и вызвать из памяти когда придет время и когда нужно будет предсказать результат. Так вот, во временных рядах НЕТ никаких паттернов. Есть «похожие движения», их легко обнаружить в исторических данных. Но они никогда достоверно не повторяются в будущем.
1. Slav2
  31.05.2020 14:27
  #21678538
  Вот математикам точно не нужно прикасаться к созданию торговых ботов. Вы не с математическими объектами имеете дело, это всего лишь описание физического объекта в математической форме. А у физических объектов есть ограничения, которые сложно увидеть, но которые влияют на поведение системы. Пример 1. На Binance есть ограничение на количество заказов информацию о которых можно получить создав запрос по API. Ордербук может содержать максимум 2000 заказов, но это будет «дорогой» запрос. Высокочастотный торговый алгоритм ограничится информацией о 500 заказов. Вы думаете это никак не влияет на будущее движение цены? Пример 2. Тот кто торгует руками зачастую используют данные с агрегаторов, таких как tradingview. Времена открытия и закрытия свеч детерминированные. Я не вникал как формируются данные (либо биржа разбивает временной ряд данными своего тикера, либо сам tradingview), но вероятность наступления событий на бирже будет зависеть от того скоро ли произойдет закрытие свечи и на каком временном интервале. Если говорить про ML то важно на каких данных обучается нейросеть. Но автор статьи подробностей не привел, даже поучиться нечему.

Создание торгового бота используя машинное обучение в анализе временных рядов +4

Немного о Машинном обучении

Анализ временных рядов

Применение на примере трейдинга криптовалют

В заключении

Комментарии (5)

StasTukalo

Docal

Slav2

fivehouse

Slav2