Торговля на альтернативных (нестандартных) данных становится модным и перспективным. На днях попал в руки любопытный датасет от Московской Биржи по популярным акциям. После поверхностного исследования удалось получить привлекательный результат c хорошими доходностями. Подробности под катом

Содержание датасета


Датасет содержит три значения pv30, pv70, pv100 на каждый день и показывает разницу покупок и продаж группы из топ 30, 70 и 100 крупнейших трейдеров за текущий день. Т.е. отвечает на вопрос, что делали сегодня крупные игроки? Больше покупали или продавали? Например, pv100 = 500 значит, что группа из топ 100 трейдеров в совокупности купила на 500 ед. больше чем продала.

На сайте биржи можно посмотреть полное описание датасета и получить исторические значения

Охват данных:

  • 10 акций: SBER, GAZP, LKOH, GMKN, MGNT, ALRS, AFLT, ROSN, SBERP, VTBR
  • 4 года: 2014 — 2017 (открытые данные на сайте биржи)

Далее, будем рассматривать данные только по SBER, результаты остальных 9 акций в приложении ниже

Обзор данных


Статистическое описание значений pv для SBER:



Данные в динамике и их распределение:



Все три величины pv30, pv70 и pv100 сильно коррелированы (>0.95) между собой и распределены близко к нормальному с центром около нуля. Наибольший интерквартильный размах у pv30.

Цена SBER и кумулятивная сумму pv100:



Доходность за сегодня сильно коррелирует со значениями pv за сегодня ~0.8. Таким образом, можно предположить, что цену двигают участники, набирающие крупную позицию. Корреляция между движением цены завтра и значением pv за сегодня ~0.1, а это значит, что есть слабая зависимость между ними и можно попытаться предсказывать направление движение цены завтрашнего дня по данным pv за сегодня.

Торговая модель


Построим простую модель, если сегодня значение pv > 0, предполагаем что цена завтра вырастет, а иначе упадет. Значения pv сравниваем с нулем, так как средние и медианные значения pv распределены около нуля. Выражаясь проще, если сегодня крупные игроки покупали (pv > 0) на следующий день мы тоже покупаем и наоборот.

Особенности модели:

  1. В модели используется только значения pv, и не используются информация о ценах активов
  2. Открывать позицию будем в 18:40 — 18:50 на аукционе закрытия и закрывать на следующий день, в то же самое время. Время открытия позиции выбрано таким, так как значения pv публикуются в 18:30
  3. Если pv > 0, открываем длинную позицию (покупаем). Если pv < 0, открываем короткую позицию (продаем)
  4. Если два и более дня подряд значение pv положительно/отрицательно, ничего не делаем (hold). Таким образом, размер открытой позиции всегда постоянен
  5. Комиссию за сделку примем равной 0.025%
  6. Ежедневные доходности будем брать от закрытия к закрытию (close to close)

Результаты торговой модели


Сравним доходности стратегии «купить и держать» (Base) и стратегии по значениям pv30, pv70 и pv100 на отрезке в 4 года по SBER:


RETURN — доходность модели за 4 года
SHARPE — коэффициент Шарпа, безрисковая доходность rf = 6%
CAGR — среднегодовой темп роста
MAX DRAWDOWN — максимальная просадка
TRADES — количество совершенных сделок
GAIN/LOSS DAYS — количество дней, когда угадали и не угадали движение цены
Сравнение моделей в динамике:



Поквартальное сравнение доходностей базовой модели «купить и держать» против индикатора pv



Аналогичные результаты по остальным девяти инструментам можно посмотреть в приложении ниже.

Портфель акций


На примере SBER мы получили высокую доходность относительно самого актива, но тем не менее наблюдаем большую просадку за весь 2015 год. Такая картина наблюдается и по остальным акциям в разные моменты (см. приложение). А что если раскидать деньги по всем десяти акциям? Тогда, вероятно, сможем избежать крупных просадок.

Раскидать можно поровну, а можно и в пропорции соответствующей ликвидности и емкости инструмента. Тыкнув пальцем в небо Исходя из ликвидности и простоты ради выбрал такие веса: {SBER: 0.25; GAZP, LKOH: 0.15; GMKN, MGNT: 0.1, ROSN, ALRS, SBERP, AFLT, VTBR: 0.05} и сравнил доходности стратегий «купить и держать» и pv100:



Портфель из 10 бумаг управляемый значением pv100 показал доходность 35% годовых и меньшую просадку, чем стратегия «купи и держи».

Перебирая веса можно получить и 15% и 50%, но важно то, что раскидывая средства по множеству активов мы избегаем крупных просадок в нашей торговой модели.

Наблюдения, оставленные за рамками данного материала


  • Производные значения на основе pv также показывают хорошую доходность (хорошая = выше рынка): sma с короткими периодами, импульсы, нормирование на объем и др. подобные приемы из теханализа
  • В периоды пониженной волатильности лучше проявляют себя импульсы значений pv
  • Значения pv имеют хорошую чувствительность к редким сильным движениям цены, т.е. процент угадывания движений цены более 3% достигает ~75%, в то время как общий процент угадываний ~50%
  • Распределение pv по дням недели различается, особенно сильно пн от пт. Вероятно, в начале недели идет набор позиции, а к концу закрытие
  • В торговой модели, рассмотренной выше, значение pv сравнивали с 0, хотя 0 не самая оптимальная точка при максимизации доходности
  • Каждый из 10 акций имеет свои особенности по значениям pv

Мои выводы


Гипотеза следования за крупными игроками по значениям pv с лагом в один день показала результат выше рынка на отрезке 2014-2017. Утверждать, что так будет всегда, было бы самонадеянно. Что будет на новых данных? С одной стороны, нет веских оснований, почему все может сломаться, а с другой, кто знает:) Для большей уверенности нужно больше точек и свежие данные.

Модель можно было бы сделать более комплексной и получить фантастические доходности, подстроившись под имеющиеся данные, но тогда высок риск оверфита.

Пара вопросов в зал, что думаете:

  • Почему эти данные могут работать?
  • Почему эти данные могут не работать?

Приложение

Приложение


GAZP








LKOH








GMKN








MGNT








ROSN








ALRS








SBERP








AFLT








VTBR







Комментарии (36)


  1. gtbear
    13.03.2019 19:23

    выглядит хорошо, а учитываются налоги и транзакционные издержки?


    1. hv_xs Автор
      14.03.2019 11:40

      Налоги неизбежны, транзакционные тут не учитывались, и они зависят от объема транзакции


  1. UnrealQW
    13.03.2019 20:23
    +2

    Либо я невнимательно читал, либо в статье нечетко написано: биржа публикует данные pv в конце каждого дня? Т.е. на следующий день (вечером) можно эти данные уже анализировать? А это точно так, учитывая, что на МБ на акции действует режим Т+2?

    Комиссии почему такие низкие? У ВТБ, например, такие 0,025% можно получить при торговле от 5 млн рублей в день. А при таких условиях сам факт торговли уже будет сдвигать цену. И комиссии не ограничиваются брокером — биржа тоже свой процент берет.

    По-моему, для интрадея теоретические 35% годовых — мало. «Гладко было на бумаге, да забыли про овраги» — в реале много подводных камней.

    P.S. И можно «приложение» затолкать под спойлер? — мешают.


    1. hv_xs Автор
      14.03.2019 11:47

      В описании сказано, что данные за сегодня публикуются в тот же день, перед закрытием. От сюда и логика модели, посмотрел данные за сегодня и на закрытии открыл позицию

      Комиссии у брокеров отличаются, и как правильно заметили, зависит от оборота. Можете подставить свою комиссию)

      Про спойлер — благодарю, хорошая идея)


  1. slava_k
    13.03.2019 20:37
    +7

    Спасибо за статью.

    Эти объемы по акциям с секции основного рынка? Расчеты по ценам как T+0 или T+2?

    Без определенного уровня доступа, исходные списки сделок с объемами сделок нет возможности получить. Следовательно, нет и возможности проверить достоверность расчетов индексов pv30, pv70 и pv100. Так как это не торговые индексы с открытым алгоритмом/составом (и на основе цен, которые можно проверить), я бы не стал доверять подобным выборкам данным.

    Также стоит учитывать, что:
    — акции российских эмитентов могут торговаться не только на Московской Бирже;
    — крупные игроки работают по рынку через своих брокеров с множеством ордеров в различные периоды времени (насколько я знаю, требование к такому поведению у маркетмейкеров и особых игроков, крупных держателей пакетов акций);
    — объемы деривативов на акции (фьючерсы и опционы) существенно влияют на цену базового актива, особенно перед экспирациями и в интервале отсечек (дивиденды).

    Поэтому, как минимум данные по приведенным выше объемам являются неполными и могут отражать неверное представление об объеме большинства или их сентимента цен по различным акциям.

    Не сочтите за излишнее недоверие, но, в связи с тем, что ваш профиль был зарегистрирован менее суток назад и тема статьи довольно специфическая, то хотелось бы узнать:
    — являетесь ли вы сотрудником Московской Биржи (если да, то кто конкретно),
    — имеете ли вы аффилированные отношения с Московской Биржей,
    — имеете ли вы какое-либо отношение к продажам подписок на данные Московской Биржи, использованные в статье?


    1. hv_xs Автор
      14.03.2019 12:09

      Благодарю за обширный комментарий

      С моей стороны, как исследователя данных, все проще. Если ты никак не можешь повлиять на исходные данные, то тут два пути: данные улучшают модель — используешь, данные не улучшают модель — забиваешь на них и идешь искать другое. По большому счету, мне не важно, что значат и как рассчитываются pv. Касательно неполноты картины (объемов) это естественно.
      Приходилось строить модели, когда входные данные никак не описаны (засекречены) и это не мешало правильно отбирать признаки в модель и использовать.
      А торговля на этой площадке считается аффилированностью?)


      1. slava_k
        14.03.2019 12:49

        Качество моделей во многом зависит от качества входных данных. Если это качество под сомнением в плане достоверности, то и модели получатся с тем же доверительным уровнем. Да, может что-то найдется, но это будет ошибочный результат. Если подобные модели лежат в основе торговых систем, работающих на реальных деньгах — это прямой путь к убыткам. Потому нельзя полагаться даже на собственное мнение о предполагаемом качестве данных, пока на руках не будет всего необходимого про то, откуда они, на основе чего рассчитываются, как рассчитываются, какой возможный диапазон исторической волатильности по данным (чтобы сформировать alert-ы на случай ЧП и принудительно отключить наращивание объемов сделок) и прочее.

        Просто посчитать модели по данным как разминка для мозгов это всегда полезно, но для серьезной работы с данными нужны только подтвержденные факты, в т.ч. подкрепленные договорами с поставщиками услуг, чтобы максимально снизить возможные риски торговли в юридическом плане.

        Просто торговля как физлица через брокера на Мосбирже — не является аффилированностью. Мой вопрос во многом был простимулирован подозрительно возросшей с начала этого года активностью всяких околорыночных лиц и представителей некоторых брокеров, уже не ограничивающихся просто рассылкой спама и звонков с номеров, зарегистрированных на несуществующих или давно почивших физлиц, но и задалбыванием всех знакомых, данные о которых можно было достать из соцсетей и прочие откровенно агрессивные действия мошеннического характера (представление себя от чужого лица, к примеру). Также активизировалось написание статей в рунете про продажу различных синтетических данных (по аналогии с этой статьей) и различного реферрального мусора по автоследованию. И это я еще не упомянул различные негосударственные ПИФы, которые слава богу пока ограничиваются просто спамом и звонками от их некомпетентных представителей, любой вопрос которым по характеристикам предлагаемых ими услугам вызывает полный ступор.


      1. slava_k
        14.03.2019 13:05

        Если вам интересно изучать ценовые dataset-ы с целью поиска интересных событий и возможных закономерностей, то предлагаю посмотреть на то, как себя ведет цена при пробое определенного среднего значения ценовой волатильности, скажем 400%. Каково при этом соотношение вероятности продолжения движения и вероятности отката. Также в каком диапазоне в процентах от движения цен наиболее вероятно нахождение цены в следующие 15 минут, к примеру. Оценить характеристики импульса движения, определить некоторые опорные точки в ценовых интервалах для приближенной постройки функции (Лагранж, Ньютон, линейно-кусочным) и последующей оценке коэффициентов 1 и 2 производных. Что значения этих коэффициентов может показать в плане оценки характеристик движения, как это потом можно применить для фильтрации несущественных событий, резких шпилей при низколиквидном рынке и что из всего этого можно было бы забрать в модель принятия решений по торговле и что в модель риск-менеджмента.

        Из всех систем за последние лет 8 (их было больше двух сотен) остались на плаву только системы, работающие на анализе пробоев и резком изменении свойств волатильности рынка. И за это время подобный подход работает как на фонде, так и на форексе (речь о наиболее высоколиквидных инструментах). Под такое поведение даже есть фундаментальное обоснование почему так (рынок деривативов по объему на порядки больше и уровни стоимости страховки зависят от волатильности базового инструмента).

        Если у вас цель не просто что-то посчитать, а нечто большее, то для экономии времени изучайте уже пройденные грабли другими, не тратя время на поиск, к примеру, чего-то стоящего в анализе паттернов в свечном представлении.

        Все новое и рабочее для рынка быстро идет в работу, при наборе объема начинает упираться в неэффективность стратегии (либо комиссии, либо недостаточный объем торгов по инструменту для стратегии, либо нестабильность ликвидности и её временнЫх характеристик и прочее). Ну а все нерабочее из идей дальше продолжает монетизироваться через статьи и книжную публицистику. Именно поэтому нет особого смысла в изучении книг по трейдингу, разве что для формирования понимания как все устроено, а не для поиска идей.


        1. Alexey_mosc
          14.03.2019 13:53

          А мне просто стал интересен вопрос использования данных 2 уровня в моделировании. Ленту сделок можно собрать потиково для биржи, за неделю будет уже огромное количество информации. Конечно, там не будет разбивки по игрокам, но сумму по направлениям посчитать вполне реально.


          1. Voila2000
            14.03.2019 17:10

            А что вы имеете ввиду под суммой по направлению без привязки к участнику торгов? У тика по инструменту есть только цена, объем и время заключения сделки


            1. Alexey_mosc
              14.03.2019 17:32

              Э, ну, я думаю, если в MetaTrader 5 есть, то уж в других, более старых, клиентах тоже должно быть. Я же говорю про тик на ЛЕНТЕ СДЕЛОК. Вот так, примерно: www.metatrader5.com/ru/releasenotes/terminal/1357

              Ну вот, я сказал о том, что фильтрануть больших/маленьких игроков я конеш не смогу, но общим скопом взять сумму и сделать group by по полю type, например, за минуту, вообще смогу в легкую…


              1. Voila2000
                14.03.2019 17:43

                Понятно. Для каждого тика фиксируется прошла ли сделка по цене спроса или предложения.


                1. Alexey_mosc
                  14.03.2019 17:46

                  Да и можно проссуммировать по buy/sell.

                  Так вот, стакан это ожидания толпы в будущем, а Лента — факт действий в прошлом. Вопрос — есть ли между этими распределениями какая-то связь (так как цена в будущем это и есть центр распределения стакана). Мутно выразился, то смысл, надеюсь, ясен.


        1. robomakerr
          14.03.2019 16:45

          рынок деривативов по объему на порядки больше

          Вы это о форексе? цифрами можете подтвердить?


          1. Voila2000
            14.03.2019 17:20

            Деривативы, это производные финансовые инструменты. Например фьючерсы, опционы, форварды. Могут существовать на основе любого базового актива. Например валютные пары, акции или товар (золото, нефть, кукуруза и т.п.).
            А что вы подразумеваете по словом форекс?


            1. robomakerr
              14.03.2019 18:55

              Я спрашивал, имеются ли в ввиду деривативы на валютные пары, когда утверждается что «рынок деривативов по объему на порядки больше».


              1. slava_k
                14.03.2019 20:43

                Если под forex деривативами понимать не просто деривативы на валютные пары, но и свопы на них, кросс-свопы, CDS, CDS^2 и прочее уже структурное (у всего, что имеет валюту как изначальный базовый актив расчета) то как минимум объем деривативов сопоставим по порядку с мировым ВВП (~%80 трлн). Только по interest rate contracts ~$10 трлн market value. По всему остальному точную информацию детально сложно собрать.

                Возможно я неправ с различием на порядки, но, как минимум рынок всех forex-деривативов сопоставим с мировым ВВП. То есть рынки соразмерны, не исключаю, что объем рынка деривативов больше, вопрос в том, что учитывать для расчета.

                Частично оценку только валютных деривативов можно взять отсюда:
                www.bis.org/statistics/d6.pdf. В Total определено 95,798 billions, $95 трлн (данные на первое полугодие 2018). То есть только по этой цифре можно утверждать, что объем рынка forex-деривативов (и это только деривативы на валютные пары, что не есть весь рынок forex) больше мирового ВВП.

                В детализацию проверки утверждения не имею цели глубоко копать, тем более что-то доказывать кому-то, т.к. не вижу в этом смысла. У всех всегда есть возможность проверить любое утверждение, затратив на это свое личное время.


          1. slava_k
            14.03.2019 17:52

            Можете посмотреть на деривативные контракты на нефть и сравнить их с поставочными прямыми контрактами. Считать это все на данный момент времени нет, но приведу информацию от нашего ЦБ на 17 год:
            www.cbr.ru/Content/Document/File/32965/91-96_Жуков.pdf
            Цитата оттуда:

            "… В физическом эквиваленте объем рынка «бумажной» нефти за январь–июль 2017 г. превысил уровень мировой добычи сырой нефти более чем в 18 раз. ..."

            Объем добычи можно считать как объемом базового актива, «бумажную нефть» как объем фьючерсных и опционных контрактов. По данным ЦБ объем деривативов на порядок больше. Я могу ошибаться, но на момент начала кризиса 2009 соотношение по нефти было около 40 к 1 или даже больше (80+ к 1 если г/г).

            По некоторым иным инструментам, в основном синтетическим (индексы в т.ч.), различие между объемами торгов базового актива и деривативов на него действительно различается на порядки. Цифр у меня нет под рукой, но, к примеру, можно посмотреть на рынок CDS и его деривативы (CDO и иные, неструктуризированные вариации), объемы в 2009 году соотносились четырьмя порядками.


          1. slava_k
            14.03.2019 18:07

            К слову, на форексе из деривативов есть не только фьючерсы и опционы, но и CFD, фьючерсы на CFD и более замороченные структурные инструменты. И по ним в большинстве случаев ситуация аналогичная: если базовый актив популярный и ликвидный, а также создан рынок деривативов, то объемы торгов ими различаются на порядки в сравнении с базовым активом.

            Ситуация, когда рынок деривативов по объему меньше рынка базового инструмента, как правило, бывает только при 1) полном дефолте источника эмиссии такого инструмента (компания и ее акции), когда идет судебные процессы по учету прав требования на активы и страховки по деривативам покрыты, новой эмиссии нет или она уже запрещена, и 2) массовый дефолт маркетмейкеров по таким деривативам, такое пока не происходило в полном объеме, даже в последние кризисы, но теоретически возможно (запрет расчетов по контрактам со стороны регулятора/правительства, война и пр. фарс-мажор).


            1. robomakerr
              14.03.2019 18:54

              С нефтью-то понятно. Но из вашего поста как будто следует, что и для форекса «рынок деривативов по объему на порядки больше».


              1. slava_k
                14.03.2019 21:12

                Я не автор этого поста. По теме комментарий выше.


  1. jahr
    13.03.2019 23:13
    +2

    Почему эти данные могут работать?

    Самое простое объяснение: крупные игроки на российской бирже на самом деле — инсайдеры. Иными словами — мошенники.) Хотя по новому закону обсуждать это теперь нельзя.)


  1. galqiwi
    14.03.2019 00:05
    +1

    Если попытаться получить эти данные с www.moex.com, надо согласиться с тем, что:

    Материалы и информация (целиком или в какой-либо части) НЕ МОГУТ БЫТЬ ИСПОЛЬЗОВАНЫ В КАКИХ-ЛИБО ИНВЕСТИЦИОННЫХ ИЛИ КОММЕРЧЕСКИХ ЦЕЛЯХ, В ТОМ ЧИСЛЕ ДЛЯ СОЗДАНИЯ КАКИХ-ЛИБО ФИНАНСОВЫХ ИНСТРУМЕНТОВ, ПРОДУКТОВ ИЛИ ИНДЕКСОВ.


    1. galqiwi
      14.03.2019 00:11

      А потом оставить телефон и номер паспорта (плюс внизу есть что-то про тариф)

      5000 долл. США* / месяц – в соответствии с тарифом за оказание информационной услуги по предоставлению Информационно-аналитического бюллетеня


    1. slava_k
      14.03.2019 13:11

      Юридические ограничения на использование это очень важный момент, уже на основе этого ценность таких данных для реальной работы — нулевая. Или даже отрицательная при трате времени на анализ данных.


  1. dshap
    14.03.2019 00:18
    +1

    Новый способ продвижения продуктов Московской Биржи!? Без выкладывания датасета невозможно проверить :)


  1. Beshere
    14.03.2019 08:48

    О господи, еще один. Не будет это работать, не будет. Если коротко — самые важные (прибыльные/убыточные) моменты на бирже происходят при сдвиге базовых параметров системы, которую вы так кропотливо изучали(обучали сеть) до этого сдвига. Всё, после этого события все данные можете выкидывать на помойку вместе с деньгами, которые вы потеряли.


    1. Voila2000
      14.03.2019 11:39

      Вы правы, абсолютно с вами согласен. Хотя можно ведь и не гнаться за важными моментами, а заниматься арбитражем или другими сложносочиненными стратегиями. Менее доходными, но, в некоторых пределах, чуть более устойчивыми к «сдвигам базовых параметров системы».
      Кстати, сама по себе идея открывать позицию вечером, перенося её через торговый день на другой стороне земного шара, кажется мне уже весьма авантюристичной :)
      Как впрочем и идея повторять движения управляющих самыми активными счетами на бирже.


      1. Beshere
        14.03.2019 12:08

        Да поймите, что «можно не гнаться за важными моментами» и приторговывать по 0.03 процента в день, когда рынок спокоен. Любой робот такое может. Можно просто при экономическом росте купить и держать бумагу выбранную наугад.

        Но при наступлении «важного момента» вы потеряете всё вместе с заработанным. Я проходил это всё сам и не раз, кстати.

        Советую другую стратегию. Когда всё хорошо, копить ликвидность. А вот когда биржи начинают закрывать, на улице стреляют, по телеку лебединое озеро. Тогда достаём котлету и скупаем всё подряд. Таким образом вы не акциями торгуете, а деньгами. Их в кризис нет на рынке вы продаёте их дорого.

        Риск, конечно, остаётся. Страна может и не выйти из кризиса при вашей жизни. Но так хотя бы есть смысл рисковать деньгами — большой риск, большой куш. Купил сбер по 17, продал через полтора года по 150.

        Никакой алгоритм вам такого не насчитает.


        1. Voila2000
          14.03.2019 12:42

          Опять со всем согласен. И про робота, и про риск изменения характера рынка. Совет ваш дельный, только каждый раз, имея не руках немного ликвидности и мысля схожим образом, у меня не хватало духу так поступить.


        1. slava_k
          14.03.2019 13:39

          Когда на улице стреляют и по телевизору показывают противоестественные вещи, то ваша торговая стратегия может разбиться о резко возросший риск «утраты законности» предполагаемых массовых закупок, т.е. полной потери средств и невозможности доказать право владения купленным.

          Как правило, в таких панических ситуациях скупают массово только те, кто уже гарантированно решил вопрос по охране законности своих приобретений на самом верхнем уровне «власти».


  1. Accounter
    14.03.2019 12:13

    Почему нет 2018 года? Ломает все красивые графики?


    1. UnrealQW
      14.03.2019 15:37

      Надо платить за эти данные.


  1. Neveil
    14.03.2019 12:13

    Если бы это реально работало, я бы не стал это публиковать)


    1. hv_xs Автор
      14.03.2019 12:16

      Так сперва нужно выяснить работает или нет)


  1. UnrealQW
    14.03.2019 15:37
    +1

    Хм… Я немного погуглил и нашел статью топикстартера на английском, опубликованную 28 февраля… Статья удалена (интересно почему?), но гугл-кеш помнит. По-моему, статья изначально была на английском, но ее перевели на русский с купюрами вроде месячной стоимости.