Предисловие

В этой статье мы рассмотрим параметрическую модель, которая была адаптирована к данным английской лиги и кубка Англии по футболу за период с 1992 по 1995 год. Эта модель основана на стремлении использовать потенциальную неэффективность рынка ставок на футбол, и она была проанализирована с использованием коэффициентов букмекерских контор за период с 1995 по 1996 год. Методика основана на модели пуассоновской регрессии, но усложнена структурой данных и динамическим характером выступлений команд. Показано, что оценки максимального правдоподобия могут быть получены с помощью вычислений, и, что модель дает положительную отдачу при использовании в качестве основы стратегии ставок.

1. Введение

Ставки на исход футбольных матчей в Великобритании имеют давнюю традицию, наиболее популярную в виде футбольных пулов, которые обычно включают выбор матчей, которые, как считается, с наибольшей вероятностью завершатся вничью. Букмекерские конторы предлагают коэффициенты на различные исходы матча. В простейшем варианте используется только результат матча, в том смысле, что это победа команды, играющей дома, или команды, играющей на выезде, или ничья. Более сложные ставки также могут быть сделаны на счет или на результаты таймов. Таким образом, при совершении ставок задача состоит в том, чтобы найти "хорошие ставки"(переоценённые), в которых рассматриваемая вероятность выигрыша выше соответствующей вероятности, определяемой коэффициентами букмекерских контор, так чтобы ожидаемый доход был положительным. Наша задача детально сравнить коэффициенты букмекеров с расчетными вероятностями, чтобы можно было использовать любые предполагаемые недостатки в спецификации букмекеров. Следовательно, статистическая модель, способная точно предсказывать вероятности исхода футбольных матчей, потенциально может стать основой прибыльной стратегии ставок. В данной статье разрабатывается модель, отвечающая этому требованию. Различные предложения по моделированию результатов футбольных матчей; рассмотрены в разделе 2. Однако для стратегии ставок, вероятности должны оцениваться в зависимости от конкретной команды, чтобы можно было рассчитать вероятности различных исходов матча между двумя конкретными командами на определенную дату. Такая степень разрешения выходит за рамки большинства опубликованных моделей. Исключением из этого правила является модель Махера (Maher, 1982), (рассмотренная здесь: Может ли распределение Пуассона описать статистику футбольных матчей), которая предполагает независимое распределение Пуассона для количества голов, забитых каждой из команд хозяев поля и команд гостей, с использованием значений, специфичных для прошлых результатов каждой команды. Это лежит в основе нашего подхода к моделированию. Однако, пытаясь разработать модель, которая была бы не просто разумным описанием данных, но и потенциально позволяла бы получать более точные оценки вероятностей, чем субъективные оценки, предлагаемые букмекерскими конторами, нам пришлось изменить и усовершенствовать эту базовую структуру модели. Эти изменения учитывают колебания результатов отдельных команд, а также позволяют оценивать результаты матчей в кубковых соревнованиях, в которых команды из разных лиг играют друг с другом. Одним из следствий этих изменений является то, что простые уравнения для оценки максимального правдоподобия больше недоступны, но, несмотря на высокую размерность модели, мы показываем, что оценки максимального правдоподобия все еще доступны численно. На основе разработанной модели рассчитываются вероятности исходов каждого матча и сравниваются с коэффициентами букмекерских контор; это лежит в основе спецификации стратегии ставок, которая, как мы показываем, дает положительную отдачу, используя исторические данные. Доступные нам данные описаны в разделе 3. В разделе 4 разрабатывается статистическая модель, основанная на базовой структуре модели Maher’а (1982). Применение модели к полученным нами данным описано вместе с некоторыми примерами результатов в разделе 4. Полезность модели в качестве основы для стратегии ставок описана в разделе 5. И, наконец, в разделе 6 предлагаются изменения, которые, по нашему мнению, приведут к дальнейшим улучшениям.

2. Контекст

Удивительно, но в небольшом количестве работ рассматривалось использование статистических методов для моделирования футбольных данных. Футболу в Американской национальной футбольной лиге (НФЛ) уделяется гораздо больше внимания, но различия между этими двумя видами спорта означают, что методы моделирования для футбола НФЛ естественным образом не распространяются на европейский футбол.

Первые упоминания о статистическом моделировании футбольных данных сосредоточены главным образом на распределении количества голов, забитых в игре. Moroney, (аж 1956) кратко рассмотрел эту проблему и предположил, что, хотя распределение Пуассона обеспечивает адекватную оценку, можно добиться улучшений, работая с отрицательным биномиальным распределением. Reep (1971) аналогичным образом исследовали влияние отрицательного биномиального распределения на результаты футбольных матчей и других игр с забитыми голами. Они пришли к выводу, что "в игре преобладает случай", и не нашли способа предсказать результаты в рамках своего класса моделей, учитывая присущий наблюдаемым данным шум. Напротив, Hill (1974) применил простой сравнительный тест для определения мест в финальной лиге с прогнозами экспертов и продемонстрировал значительную корреляцию. Более сложный анализ такого рода был проведен Fahrmeir, (1994), который применил недавно разработанные методы для зависящих от времени упорядоченных парных сравнений к данным по немецкому футболу.

Эти моменты иллюстрируют очевидную дихотомию: в долгосрочной перспективе несложно достаточно точно предсказать, какие команды, скорее всего, добьются успеха, но разработка моделей с достаточно высоким разрешением, позволяющих использовать эту возможность для прогнозирования отдельных матчей, значительно сложнее. Насколько нам известно, единственной работой, в которой выводится модель футбольных результатов в матче между конкретными командами, учитывающая различное качество участвующих команд, является работа Махера (1982). Он получил оценки максимального правдоподобия для модели, в которой результаты команд хозяев и гостей в любой игре являются независимыми распределениями Пуассона, а средние значения моделируются как функции предыдущих результатов соответствующих команд. Этот подход лежит в основе нашей модели в разделе 4.

Имея в виду несколько иные приложения, в нескольких работах рассматривалось влияние конкретных обстоятельств на выступления команд: Barnett and Hilditch, (1993) применили стандартные непараметрические тесты, чтобы выяснить, давали ли искусственные газоны, впоследствии запрещенные в английской лиге, значительное преимущество команде. команда хозяев поля; Ridder (1994) исследовали влияние удаления игрока на исход футбольного матча. В других работах использовались статистические модели для описания самих аспектов отдельных матчей: Chedzoy (1995) неофициально исследовал время забивания голов; Reep and Benjamin (1968) смоделировали количество и тип пасующих ходов в игре; Clarke and Norman (1995) исследовали преимущество игры дома.

Что касается стратегий ставок, то в экономической литературе есть множество статей, посвященных эффективности и использованию рынков ставок. Многие статьи посвящены ставкам на скачки и в NFL, а в некоторых также рассматриваются ставки на футбольные матчи, хотя статистическая методология в них практически не используется.

3. Данные

По каждому сыгранному футбольному матчу доступно огромное количество информации. Разумеется, записываются не только результаты, но и время забитых мячей, бомбардиры, положение команды в чемпионате на момент игры и так далее. На результативность отдельной команды в любой конкретной игре также могут повлиять многие внешние факторы: например, новые игроки, подписавшие контракт, или увольнение менеджера. Хотя эта информация также доступна, ее труднее формализовать, а ее качественная ценность субъективна. Наша модель использует только историю результатов матчей каждой команды, которую мы собрали за 3-летний период, хотя возможность включения других форм данных рассматривается в разделе 6.

Наши данные, включают в себя результаты 6629 матчей чемпионата и кубка за сезоны 1992-93, 1993-94 и 1994-95. Также доступны данные за 1995-96 годы, но они используются в качестве проверочной выборки для последующей проверки полезности модели при ее использовании в качестве основы для стратегии ставок. Данные за период с 1992 по 1995 год дают точные эмпирические оценки различных агрегированных характеристик. В таблице 1 представлена относительная частота результатов матчей, выраженная в процентах, от 0-0 до 4-4. В круглых скобках указаны стандартные ошибки, рассчитанные на основе базовой мультиномиальной модели. В результате обобщения, соотношение частот побед хозяев, ничьих и выездных матчей составляет 46:27:27. Таким образом, эмпирическая оценка вероятности того, что случайно выбранный матч приведет, например, к победе хозяев, составляет 0,46. Благодаря размеру базы данных эти эмпирические оценки позволяют получить точные оценки вероятности случайных совпадений.

В последующих разделах наша цель - получить оценки для матчей, которые выбираются не случайным образом, а с учетом специфики команды. На данном этапе можно проверить предположение о том, что предельное распределение результатов случайных матчей является пуассоновским. Сопоставление распределения Пуассона с суммированными результатами домашних и выездных матчей, приведенными в таблице 1, показывает, что по любому критерию, модель Пуассона практически идеально соответствует данным об итоговых результатах.

Таблица 1. Эмпирические оценки вероятности для функций совместной и предельной вероятности
Таблица 1. Эмпирические оценки вероятности для функций совместной и предельной вероятности

Это дает некоторую уверенность в том, что модель регрессии Пуассона, разработанная в разделе 4, по крайней мере, соответствует нашим данным, несмотря на опасения, высказанные другими исследователями по поводу общей адекватности предположения Пуассона. Еще одно предположение базовой модели, приведенной в разделе 4, заключается в том, что результаты домашних и выездных матчей не зависят друг от друга. Чтобы оценить обоснованность этого предположения, в таблице 2 приведены

\frac{ {\tilde{f}(i,j)} }{ {\tilde{f}_H(i)} {\tilde{f}_A(j)} }

для каждого счета хозяев и гостей (i,j),i=0,...,6 \text{ и }j=0,..., 5,\text{ где } \tilde{f}, \tilde{f}_H, \tilde{f}_A - суммарная и предельная эмпирические функции вероятности для результатов хозяев и гостей соответственно. Bootstrap standard errors указаны в круглых скобках. Таблица 2 показывает, что предположение о независимости между оценками является обоснованным, за исключением оценок 0-0, 1-0, 0-1 и 1-1.

Таблица 2. Оценки соотношений наблюдаемой совместной функции вероятности и эмпирической функции вероятности, полученные в предположении о независимости результатов хозяев поля от результатов гостей. Для наглядности цифры умножены на 100. В круглых скобках указаны стандартные ошибки.
Таблица 2. Оценки соотношений наблюдаемой совместной функции вероятности и эмпирической функции вероятности, полученные в предположении о независимости результатов хозяев поля от результатов гостей. Для наглядности цифры умножены на 100. В круглых скобках указаны стандартные ошибки.

Основываясь только на оценках и ошибках, оценка 0-3, по-видимому, значительно занижена моделью независимости. Однако, рассматривая это в контексте всех остальных результатов, мы считаем, что это произошло из-за ошибки выборки. Модификация предположения о независимости в свете этих наблюдений рассматривается в разделе 4.

4. Модель и результаты

4.1. Описание модели

С целью разработки прибыльной стратегии ставок в статистической модели футбольных матчей требуются различные функции. Например:

(а) модель должна учитывать различные возможности обеих команд в матче;

(б) следует учитывать тот факт, что команды, играющие дома, как правило, имеют некоторое преимущество - так называемый "домашний эффект";

(в) наиболее разумная мера оценка способностей команды, скорее всего, будет основываться на краткой оценке ее результатов за последнее время;

(d) природа футбола такова, что возможности команды, вероятно, лучше всего характеризуются отдельными показателями ее способности атаковать (забивать голы) и ее способности защищаться (не пропускать голы);

(e) при подведении итогов выступления команды по последним результатам следует учитывать принимайте во внимание способности команд, с которыми они играли.

Нецелесообразно получать эмпирические оценки вероятностей исходов матчей, учитывающие все эти ограничения. Вместо этого мы используем статистическую модель, которая структурно включает в себя каждую из этих характеристик. В основе нашей работы лежит модель, предложенная Maher'ом (1982), с изменениями, позволяющими одновременно включать неполные наборы данных и данные из разных подразделений, а также учитывать колебания в силе команды.

Основное допущение модели Maher'а состоит в том, что количество голов, забитых хозяевами поля и гостями в любой конкретной игре, являются независимыми пуассоновскими переменными, средние значения которых определяются соответствующими качествами каждой из сторон в атаке и обороне. Более конкретно, в матче между командами с индексами i \text{ и } j \text{ пусть } X_{ij} \text{ и } Y_{ij} - это количество голов, забитых хозяевами поля и гостями соответственно. Тогда

X_{i,j} ~ Poisson(\alpha_i \beta_j \gamma), \\ Y_{i, y} ~ Poisson(\alpha_j \beta_i)  \\ (4.1)

где X_{i.j} \text{ и } Y_{i,j} независимы, \alpha_i, \beta_i>0, \text{ } \forall i, \alpha_i измеряет уровень "атаки" команд, \beta_i измеряет уровень "защиты", \gamma > 0 - это параметр, который учитывает домашний эффект. На самом деле, Maher (1982) включил более общую спецификацию модели, чем эта, допускающую раздельные настройки для хозяев и гостей, а также параметры атаки и защиты для каждой команды. Однако, как и Maher (1982), мы пришли к выводу, что модель (4.1) является адекватным упрощением, хотя в этой модели все еще есть допущения, которые не были подтверждены детальным изучением данных. Важным моментом является то, что, хотя детали модели могут быть неточными, общая структура должна быть достаточно точной, чтобы можно было разработать стратегию ставок с ожидаемой (и реализованной) прибылью. Однако некоторые аспекты модели легко улучшить. Рассмотрим сначала предположение о независимости. Maher (1982) предложил использовать двумерную регрессию Пуассона в качестве расширения базовой модели, но это семейство не может отразить отход от независимости для игр с низким коэффициентом выигрыша, который мы определили в разделе 3. Вместо этого мы предлагаем следующую модификацию модели (4.1).:

Pr( X_{i,j}=x, Y_{i,j}=y )= \tau_{\lambda,\mu}(x,y) \frac{ \lambda^x exp(-\lambda) }{ x! } \frac{ \mu^y exp(-\mu) }{ y! }  \ \ \ \ (4.2)

где

\lambda = \alpha_i \beta_j \gamma, \\ \mu = \alpha_j \beta_i \\ (4.4)

и

\tau_{\lambda, \mu}(x,y)= \begin{cases} 1-\lambda\mu\rho \text{ if }x=y=0, \\ 1 + \lambda\rho \text{ if }x=0, y=1, \\ 1 + \mu\rho \text{ if }x=1, y=0, \\ 1 - \rho \text{ if }x=y=1, \\ 1 \text{ otherwise. } \end{cases}

В этой модели, \rho, где

max(1/\lambda, -1/\mu) \leqslant \rho \leqslant  min(1/\lambda \mu, 1)

вводится как параметр зависимости: \rho=0 соответствует независимости, но в противном случае распределение независимости нарушается для событий x \leqslant 1 \text{ и  } y \leqslant 1 . Легко проверить, что соответствующие предельные распределения остаются пуассоновскими со средними значениями \lambda \text{ и } \mu соответственно. Другим недостатком модели является ее статичность - параметры атаки и защиты каждой команды считаются постоянными во времени. Этот вопрос будет рассмотрен в разделе 4.3.

4.2. Результаты модели

Из модели (4.2) следует, что для n команд необходимо оценить параметры атаки \left\{\alpha_1,...,\alpha_n \right\}, параметры защиты \left\{\beta_1,...,\beta_n \right\}, параметр зависимости \rho и параметр домашнего эффекта \gamma. Чтобы предотвратить чрезмерную параметризацию модели, мы накладываем ограничение

n^{-1} \sum_{i=1}^n \alpha_i = 1

Для системы английских лиг, которая включает в себя Премьер-лигу и дивизионы 1-3 Футбольной лиги, n ≈ 92, таким образом, модель имеет 185 идентифицируемых параметров.

Базой нашего инференса является функция правдоподобия. При совпадениях, индексированных K = 1,..., N, и соответствующих оценках (x_k, y_k), она принимает вид

L( \alpha_i, \beta_i, \rho, \gamma,  i = 1,...,n )= \prod_{k=1}^N \tau_{\lambda_k,\mu_k} (x_k,y_k) exp(-\lambda_k) \lambda_k^{x_k} exp(-\mu_k) \mu_k^{y_k} \\ (4.3)

где

\lambda_k= \alpha_{i(k)} \beta_{j(k)} \gamma \\ \mu_k = \alpha_{j(k)} \beta_{i(k)} \\(4.4)

\text{и }i(k) \text{ и }j(k) обозначают соответственно индексы команд хозяев и гостей, играющих в матче k. Предполагая, что каждая команда играла с любой другой командой одинаково часто, и в более простом случае независимости результатов хозяев поля от результатов гостей \rho=0, Махер (1982) получил систему линейных уравнений, корнями которой являются оценки максимального правдоподобия. Для достижения большей общности мы ограничиваемся прямой численной максимизацией уравнения (4.3). Почти ортогональность многих комбинаций параметров означает, что вычисление является простым, несмотря на большую размерность модели.

В уравнении (4.3) в вероятность включены команды из всех четырех дивизионов. Это имеет два следствия: во-первых, параметры для каждой команды должны отражать относительное качество различных дивизионов, и, во-вторых, эти параметры можно оценить только при наличии информации о матчах между командами разных дивизионов. К счастью, поскольку в начале нового сезона существует некоторая мобильность между командами разных дивизионов из-за повышения в классе и вылета из него, проблема идентификации параметров решена. Ситуацию также улучшает включение результатов кубковых матчей, в которых команды из разных дивизионов играют друг с другом. Затем, поскольку параметры откалиброваны для всех дивизионов, модель можно корректно использовать для оценки вероятностей исходов матчей с участием команд разных дивизионов, как, например, в кубковых играх. Эти моменты проиллюстрированы таблицей 3, в которой приведены средние показатели атаки и защиты команд в каждом дивизионе.

Таблица 3. Средние параметры атаки и защиты для команд в каждом дивизионе
Таблица 3. Средние параметры атаки и защиты для команд в каждом дивизионе

Как и ожидалось, средний рейтинг атаки и защиты команд повышается с повышением статуса лиги, что определяется увеличением и уменьшением средних значений и соответственно.

4.3 Улучшения модели

Структурным ограничением модели (4.3) является то, что параметры являются статичными, т.е. предполагается, что команды имеют постоянный уровень performance, определяемый параметрами \alpha_i \text{ и } \beta_i с течением времени. В реальности результаты команды, как правило, динамичны и меняются от одного периода времени к другому, и это следует учитывать в модели. В частности, результаты команды, скорее всего, будут более тесно связаны с ее результатами в последних матчах, чем в предыдущих. В принципе, такое поведение можно было бы смоделировать, формализовав стохастическое изменение параметров модели; это рассматривается в разделе 6. Однако, учитывая размерность модели и то, что нам всегда нужно будет оценивать параметры в определенный момент времени, когда мы делаем ставку, мы используем более упрощенный подход. Таким образом, мы предполагаем, что параметры, в широком смысле, локально постоянны во времени и что историческая информация имеет меньшую ценность, чем свежая информация, и мы определяем оценки параметров для каждого момента времени t, которые основаны на истории результатов матчей до момента времени t. Модифицируя уравнение (4.3), мы строим `псевдовероятность" для каждого момента времени t,

L( \alpha_i, \beta_i, \rho, \gamma,  i = 1,...,n )= \\ \prod_{k \in t} \left\{ \tau_{\lambda_k,\mu_k} (x_k,y_k) exp(-\lambda_k) \lambda_k^{x_k} exp(-\mu_k) \mu_k^{y_k} \right\} ^{\phi(t-t_k)} \\ (4.5)

где t_k - время, когда был сыгран матч k, при A_t =  \left\{ k:t_k < t \right\}, \lambda_k \text{ и } \mu_k соответствуют уравнениям (4.4) и \phi являются не растущей функцией времени. Это представляет собой небольшое злоупотребление обозначениями, поскольку параметры \alpha_i, \beta_i, \rho  \text{ и } \gamma сами зависят от времени.

Максимизация уравнения (4.5) в момент времени t приводит к оценкам параметров, которые основаны на играх только до момента времени t. Таким образом, модель способна отражать изменения в производительности команды. Более того, изменение значения \phi позволяет в большей или меньшей степени зависимость от исторических данных.

4.4 Выбор глубины истории.

Существуют различные возможные варианты весовой функции в уравнении (4.5). Одним из возможных вариантов может быть:

\phi(t)= \begin{cases} 1,\ \ \ t \le t_0\\ 0,\ \ \ t > t_0 \end{cases}

в этом случае в момент времени t все результаты за последние t_0 единиц времени будут иметь одинаковый вес в выводе. Вместо этого мы работаем с моделью

\phi(t) = exp(-\xi t)

в которой все предыдущие результаты, взвешенные в геометрической прогрессии в соответствии с параметром \xi > 0, включаются в вывод в момент времени t. Статическая модель (4.3) возникает как частный случай \xi = 0, в то время как использование все больших значений дает относительно больший вес самым последним результатам. Оптимизация выбора является проблематичной, поскольку уравнение (4.5) описывает последовательность независимых "вероятностей", в то время как нам требуется, чтобы общая прогностическая способность модели была максимальной. На самом деле, в последующих разделах мы сосредоточим внимание на прогнозировании результатов матчей, а не на счете. Поэтому целесообразно оптимизировать \xi для прогнозирование результатов. Прежде всего, обратите внимание, что вероятность победы хозяев в матче k оценивается как

p_k^H =  \sum_{l,m \in B_H} Pr(X_k=l, Y_k=m)

где B_H=\left\{(l,m):l > m\right\}, а вероятности выигрыша определяются исходя из максимизации модели (4.5) при t(k)†, времени матча k. Аналогичные выражения справедливы для p_k^A \text{ и } p_k^D, вероятностей победы гостей и ничьей соответственно. Теперь определим

S(\xi)= \sum_{k=1}^N ( \delta_k^H log p_k^H + \delta_k^A log p_k^A + \delta_k^D log p_k^D ) \ \ \ \ (4.7)

где, например, \delta_k^H=1, если матч k является победой хозяев, и \delta_k^H=0 в противном случае, а значения p_k^H,  p_k^A \text{ и } p_k^D являются оценками максимального правдоподобия из модели (4.5), при этом весовой параметр установлен на \xi. Учитывая только результаты, а не счёт матчей, уравнение (4.7) является аналогом прогноза профиля логарифмического правдоподобия. График S(\xi) \text{ для } \xi , с временными единицами, равными половине недели, приведен на рис. 1.

Рисунок 1.  versus : максимум появляется при  = 0.0065
Рисунок 1. S(\xi) versus \xi: максимум появляется при \xi = 0.0065

Функция максимизируется при \xi=0.0065, и все последующие результаты приводятся в соответствии с этим выбором \xi, хотя на самом деле результаты надежны в достаточно большом диапазоне значений - \xi.

4.5 Оценка параметров и результатов.

4.5. Parameter Estimates and Results

Полный набор оценок параметров, полученных путем максимизации уравнения (4.5) при \xi = 0.0065 в каждый момент времени t, дает представление об изменении показателей каждой команды с точки зрения способностей к защите и атаке. Для точной оценки параметров требуются данные по крайней мере за 60 полнедельных отрезков, поэтому оценки получены для t в диапазоне от 60 до 174. Для краткости мы показываем только часть результатов (за полным набором результатов за сезон 1996 года обращайтесь к М. Диксону). В таблицах 4 и 5 приведены оценки максимального правдоподобия параметров атаки и защиты на 5 августа 1995 г. для команд, которые в 1995-96 гг. находились соответственно в Премьер-лиге и дивизионе 2.

Таблица 4. Оценки максимального правдоподобия и стандартных ошибок для параметров  атаки и защиты на 5 августа 1995 года для команд Премьер-лиги (в сезоне 1995-96)
Таблица 4. Оценки максимального правдоподобия и стандартных ошибок для параметров атаки и защиты на 5 августа 1995 года для команд Премьер-лиги (в сезоне 1995-96)
Таблица 5. Оценки максимального правдоподобия и стандартных ошибок для параметров  атаки и защиты на 5 августа 1995 года для команд Дивизиона 2 (в сезоне 1995-96)
Таблица 5. Оценки максимального правдоподобия и стандартных ошибок для параметров атаки и защиты на 5 августа 1995 года для команд Дивизиона 2 (в сезоне 1995-96)

Кроме того, на рис. 2 показана соответствующая последовательность оценок \alpha(t) \ и \ \beta(t)† по времени для трех команд. Неравномерность в этих оценках говорит о том, что результаты команд действительно динамичны. Также показана последовательность оценок параметра домашнего эффекта \gamma(t)†, который, как и следовало ожидать, остается почти постоянным с течением времени. Период с t = 82 \ до \ t=90 соответствует летнему перерыву в футбольном сезоне.

Рисунок 2. (a)(b) Временные ряды оценок максимального правдоподобия параметров атаки и защиты для Sheeld United (____), Norwich (..........) и Everton (- - -); (c) изменение параметра общего домашнего эффекта со временем
Рисунок 2. (a)(b) Временные ряды оценок максимального правдоподобия параметров атаки и защиты для Sheeld United (____), Norwich (..........) и Everton (- - -); (c) изменение параметра общего домашнего эффекта со временем

Кроме того, в таблице 6 приведены выборка матчей и оценки максимального правдоподобия их исходов. Стандартные ошибки оценок исхода, особенно оценки вероятности ничьей, невелики по сравнению со стандартными ошибками оценок параметров атаки и защиты.

Таблица 6. Оценки максимального правдоподобия для вероятностей результата матча
Таблица 6. Оценки максимального правдоподобия для вероятностей результата матча

5. Стратегия ставок

Насколько полезна модель, описанная в разделе 4, при использовании ее в качестве основы для стратегии ставок с учетом коэффициентов, предоставляемых букмекерскими конторами? Подробное исследование стратегий ставок на футбол с фиксированными коэффициентами приведено в работах Pope and Peel(1989) и Dixon and Pope (1996). Здесь мы рассматриваем этот вопрос со ссылкой на новый набор результатов, соответствующий сезону 1995-96, для которого у нас есть как результаты, так и коэффициенты букмекеров. Сначала мы используем модель (4.5) с значением \xi=0.0065 в каждый новый момент времени t для получения текущих оценок параметров. Затем, сравнивая предполагаемые вероятности результата с коэффициентами букмекерских контор на следующую неделю, мы определяем, на какие игры наиболее выгодно делать ставки. Затем мы рассчитываем чистую прибыль от такой стратегии. Типичный набор коэффициентов букмекеров на конкретный матч может быть следующим (8:13, 12:5, 4:1) победа хозяев, ничья и победа гостей соответственно. Таким образом, в данном примере ставка в размере 13 единиц на победу хозяев принесла бы выигрыш в размере 8 единиц, если бы такой исход произошел. Коэффициенты o_1:o_2 преобразуются в вероятность p по формуле:

p=o_2/(o_1+o_2)

Примечание @cappelchi: Это так называемая базовая нормализация, я чаще использую Модель Shin'a для получения вероятностей из коэффициентов. О модели Shin’a и её преимуществах читайте в моей предыдущей статье: “Точность спортивных прогнозов на основе коэффициентов ставок.”.

Приведенный выше набор коэффициентов соответствует набору вероятностей (0.62, 0.29, 0.20), сумма которых равна 1.11. Это явление является стандартным на рынках ставок: если букмекеры точны в своих расчетах вероятности, у них есть встроенный коэффициент выигрыша (комиссия), соответствующий их ожидаемому выигрышу, который в приведенном выше примере равен 11%. Чтобы выиграть деньги у букмекеров, в смысле получения положительной ожидаемой прибыли, требуется определение вероятностей, которое является достаточно более точным, чем те, которые получены на основе коэффициентов, чтобы превзойти ожидания букмекеров. Сначала мы мультипликативно изменяем коэффициенты букмекерских контор таким образом, чтобы они в сумме равнялись 1. Обозначим эти вероятности для матча k через b_k^H,b_k^D \ и \ b_k^A для победы хозяев, ничьей и победы гостей соответственно, и аналогично пусть \hat{p}_k^H, \hat{p}_k^D \ и \ \hat{p}_k^A являются соответствующими оценками максимального правдоподобия для этого матча в соответствии с моделью (4.5). Сравнение двух наборов оценок вероятности для каждого из исходов приведено на рис. 3 для каждого совпадения в нашей базе данных. В целом, существует разумное соответствие между оценками вероятности, но вариабельность этих графиков указывает на потенциальный положительный эффект, если наши модельные вероятности точны.

Рисунок 3. Модельные оценки вероятности, построенные на основе коэффициентов для всех матчей, в которых были доступны коэффициенты: (а) победы хозяев; (б) ничьи; (в) победы гостей
Рисунок 3. Модельные оценки вероятности, построенные на основе коэффициентов для всех матчей, в которых были доступны коэффициенты: (а) победы хозяев; (б) ничьи; (в) победы гостей

Если модельные вероятности были безошибочными, то ожидаемый выигрыш от ставки на единицу ставки на победу хозяев, например, равен

\sum (G) = p_k^H/b_k^H - 1 \ \ \ \ (5.1)

Если b_k^H - это истинная вероятность того, что ожидаемая прибыль будет 0.00 или -0.11, если учитывать комиссию букмекеров. На самом деле ни \ p_k^H \ ни \ b_k^H не являются истинной вероятностью, но мы получаем положительную доходность, если наши оценки точнее, чем у букмекеров.

Из уравнения (5.1) следует, что естественной стратегией ставок для любой конкретной игры k является ставка на победу хозяев, например, если

\hat{p}_k^H/ \hat{b}_k^H >r

где \tilde{b}_k^H обозначает немасштабированную букмекерами вероятность победы хозяев в матче k при некотором заранее определенном значении r > 1, с соответствующей стратегией для ставок на победы гостей или ничьи. Увеличение r приводит к более строгому режиму ставок, но, следовательно, к меньшему количеству ставок. Эффект от различных вариантов выбора r можно увидеть на рис. 3, на котором линия показана при r = 1.0, 1.2, 1.3.​

При определенном выборе r точки, находящиеся выше этой линии, соответствуют матчам, на которые данная стратегия ставок применяется. это привело бы к тому, что была бы сделана ставка на этот конкретный исход с заданным значением r.

Успешность этой стратегии ставок можно оценить, рассчитав наблюдаемую доходность, если бы такая стратегия была принята, с учетом результатов матчей, которые действительно имели место. На рис. 4 это показано как функция от r, а также 90%-ые доверительные интервалы, полученные с помощью bootstrap.

Рисунок 4. Наблюдаемая средняя доходность рассчитывается исходя из отношения вероятностей модели к вероятностям букмекеров (- - - -, доходность -0.11, ожидаемая доходность при случайных ставках, которая обусловлена тем, что букмекеры берут 11% за каждый матч; ........., 90% bootstrap интервалы): средняя доходность рассчитывается только при наличии более 10 ставок.
Рисунок 4. Наблюдаемая средняя доходность рассчитывается исходя из отношения вероятностей модели к вероятностям букмекеров (- - - -, доходность -0.11, ожидаемая доходность при случайных ставках, которая обусловлена тем, что букмекеры берут 11% за каждый матч; ........., 90% bootstrap интервалы): средняя доходность рассчитывается только при наличии более 10 ставок.

В сюжете присутствует значительная вариативность, из-за чего трудно сделать окончательные выводы. Однако при r=1.2 наша стратегия ставок приводит к доходности, которая значительно отличается от -0.11, ожидаемой доходности при случайной стратегии ставок, обусловленной позицией букмекеров, и имеет положительную ожидаемую абсолютную доходность при любом r > 1,1. Именно в этом смысле мы заявляем, что модель и выводы, приведенные в разделе 4, соответствуют нашей заявленной цели - разработать модель для оценки результатов футбольных матчей, которая является основой стратегии ставок с положительной отдачей.

Примечание @cappelchi:Как правило модель заваливается в сторону высоких коэффициентов, так как высоковероятные события чаще всего недооцениваются букмекерами и заработать на них сложно. Плюс информационный инсайд лучше всего монетизируется на высоких коэффициентах.

6. Заключение

Наша цель состояла в том, чтобы разработать метод оценки вероятности футбольных результатов с потенциалом достижения положительной ожидаемой доходности при использовании в качестве основы стратегии ставок с учетом коэффициентов букмекерских контор. Наша базовая модель проста - это двумерное распределение Пуассона для количества голов, забитых каждой командой, с параметрами, связанными с прошлыми достижениями, но изменения, необходимые для повышения реалистичности и точности модели, делают соответствующие выводы тяжелой вычислительной нагрузкой. Тем не менее, расчеты легко выполнимы, а полученная в результате модель точна во многих отношениях.

Наша стратегия ставок также проста: мы делаем ставки на все исходы, для которых отношение модели к вероятностям букмекеров превышает определенный уровень. Мы показали, что для достаточно высоких уровней эта стратегия дает положительную ожидаемую доходность, даже с учетом встроенного смещения коэффициентов букмекерских контор.

Простота нашей модели и связанной с ней стратегии ставок привлекает. Однако, чтобы еще больше повысить эффективность нашего подхода, мы считаем, что могут потребоваться дальнейшие модификации. Одна из возможностей заключается в дальнейшем совершенствовании модели пуассоновской регрессии. Стохастически обновляемые параметры являются естественной идеей в этом контексте, но детальная реализация может оказаться сложной. Smith (1981) рассмотрел структуру динамической регрессии для простых пуассоновских моделей, но обобщение этих идей в масштабе модели (4.5) не является немедленным. Расширение области применения нашей модели для включения дополнительной информации о ковариатах является второй областью для разработки. Количественная ценность таких данных не всегда очевидна, поэтому для такого развития событий может потребоваться байесовская структура, позволяющая использовать их субъективную ценность. Третья возможность - это режим ставок. До сих пор мы уделяли внимание ставкам с фиксированными коэффициентами на исход матча. Это приводит к стратегии ставок, при которой на самом деле делается относительно немного ставок. Поскольку букмекерские конторы предлагают коэффициенты на результаты конкретных матчей, вероятности которых также рассчитываются с помощью нашей модели, можно разработать стратегию ставок, основанную на результатах матчей. Если говорить более радикально, то существует несколько вариантов ставок в "рыночном стиле" для футбольных матчей, где прибыль от забитых мячей покупается и продается как товары (например, Jackson (1994) и Dixon and Robinson (1996)); реализация нашей модели рыночных стратегий в таком варианте является еще одной возможностью.

Стремление к научному совершенствованию нашей модели и стратегии ставок с чисто случайным побочным результатом в виде выигрыша денег у букмекеров побуждает нас развивать очевидный успех существующей модели различными способами, рассмотренными выше.

Комментарии (9)


  1. doitagain
    23.08.2024 21:07

    Успокойтесь, нельзя оцифровать людей, нужно просматривать матчи и оценивать эмоции-состояние участников, плюс фактор договорника


    1. cappelchi Автор
      23.08.2024 21:07

      Благодарю вас, я спокоен, цифровать людей не буду. Вам успехов!


  1. MasterMentor
    23.08.2024 21:07

    Прям sqrt(Эдвард Торп^2 + Майкл Шеклефорд^2)

    «Если вы такие умные, почему такие бедные»: математик Эдвард Торп обыграл казино и заработал $800 млн на Уолл-стрит

    https://vc.ru/story/172206-esli-vy-takie-umnye-pochemu-takie-bednye-matematik-edvard-torp-obygral-kazino-i-zarabotal-800-mln-na-uoll-strit

    Шеклефорд, Майкл известный как "Мастер случайностей"

    https://ru.wikipedia.org/wiki/Шеклефорд,_Майкл

    PS В общем, встретимся на пирушке на яхте Абрамовича, ребята!


    1. cappelchi Автор
      23.08.2024 21:07

      такое можно под любой статьёй на Хабре написать и не ошибётесь.


  1. Batalmv
    23.08.2024 21:07

    Все это прекрасно, но - результат матчей обусловлен случайностями в куда большей степени, чем объективными факторами :)


    1. cappelchi Автор
      23.08.2024 21:07

      Тогда откуда берутся коэффициенты букмекеров?


      1. Batalmv
        23.08.2024 21:07

        Я думаю банально от соотношения поставленных денег + маржа. Условно поставили лям на один вариант а два - на второй. Итого три. Выплатим максимум 2.8, остальное себе. Значит по первому исходу ставим 2.8, по второму - 1.4

        И при любом раскладе букмекер в выигрыше


        1. cappelchi Автор
          23.08.2024 21:07

          Классная идея, кстати! Если бы ещё было можно сначала собрать деньги, а потом выставить кэфы, букмекеры бы золотились!!


          1. Batalmv
            23.08.2024 21:07
            +1

            Ну, вы наверное больше знаете о внутренней кухне таких контор (я же могу только предполагать), но банальная логика говорит о том, что процесс "сбора" денег занимает продолжительное время, а коефициенты меняются со временем.

            Что дает основания предположить, что одна из причин корректировки - соотношение поставленных сум в определенный момент времени.

            Т.е. чисто математически расчитать выигрышный коефициент исходя из того, как поставили сейчас выглядит несложной задачей

            А локальные флуктуации закрываются маржой и общей диверсификацией рисков.

            ---------

            Понятно, что как-то надо рассчитать начальные и все такое, но попытка описать математически спорт выглядит довольно таки наивно, а уж играть с букмекерами - еще более наивно. Хотя я не могу отрицать, что есть люди, которые на этом делают бизнес, так как никто не идеален. Но вряд ли они будут писать свои успешные стратегии тут :)