Важное 1: Данная статья является разбором статьи 2003 года Dimitris Karlis'а и Ioannis Ntzoufras'а "Analysis of sports data by using bivariate Poisson models".

Важное 2: Данная статья будет интересна в основном тем кто использует или понимает как использовать распределения Пуассона в моделях машинного обучения и для предобработки данных для прогнозирования результатов спортивных событий.

Предисловие

Модели, основанные на двумерном распределении Пуассона, используются для моделирования спортивных данных. Но обычно используются независимые распределения Пуассона для моделирования количества голов двух конкурирующих команд. Мы заменим предположение о независимости рассмотрением двумерной модели Пуассона и ее расширений. Предложенные модели учитывают корреляцию между двумя оценками, что является правдоподобным предположением в спорте, когда две команды-соперницы соревнуются друг с другом. Обсуждается эффект от введения даже незначительной корреляции. Использование только двумерного распределения Пуассона может улучшить соответствие модели и прогнозирование количества ничьих в футбольных матчах.Модель расширена за счет учета коэффициента инфляции для диагональных членов в двумерном совместном распределении.Эта инфляция повышает точность оценки ничьих и, в то же время, позволяет получить сверхдисперсные, по сравнению с простым распределением Пуассона, маргинальные распределения. Приведены свойства предложенных моделей, а также процедуры интерпретации и оценки. Приведена иллюстрация моделей с использованием наборов данных по футболу и водному поло.

Обожаю водное поло, сам играю много много лет. Всех зову в бассейн, смотреть, болеть, участвовать.
Обожаю водное поло, сам играю много много лет. Всех зову в бассейн, смотреть, болеть, участвовать.

1. Введение

Распределение Пуассона получило широкое признание в качестве простого подхода к моделированию распределения количества голов в спортивных состязаниях с участием двух конкурирующих команд. Хотя несколько исследователей (см., например, Lee (1997) и Karlis and Ntzoufras (2000)) показали существование (относительно низкой) корреляции между количеством голов, забитых двумя соперниками, это игнорировалось в большинстве подходов к моделированию, поскольку оно требует более сложных методов и техники. Maher (1982) (см. мой разбор) обсуждал этот вопрос, а Dixon and Coles (1997) (читай разбор здесь) расширили независимую модель Пуассона, косвенно введя тип зависимости. В командных видах спорта, таких как футбол и водное поло, разумно предположить, что две переменные результата коррелируют, поскольку две команды взаимодействуют во время игры. Более того, в некоторых спортивных играх два соперника пытаются забить последовательно, и, таким образом, скорость игры одной команды дает больше возможностей забить обеим командам. Типичным примером является баскетбол: корреляции результатов Национальной баскетбольной ассоциации и Евролиги за сезон 2000-2001 годов составляют 0,41 и 0,38 соответственно.

Альтернативу независимой модели Пуассона можно построить, предположив, что две переменные результата соответствуют двумерному распределению Пуассона (см. Kocherlakota and Kocherlakota (1992)). Маргинальные распределения являются простыми распределениями Пуассона, в то время как случайные величины теперь являются зависимыми. Maher (1982) упоминал двумерное распределение Пуассона, но его использование в основном игнорировалось, главным образом из-за вычислительной нагрузки при построении такой модели. Остальная часть статьи изложена следующим образом: Во-первых, в разделе 2 мы кратко представляем двумерное распределение Пуассона и обсуждаем его применимость при моделировании спортивных данных, особенно для футбольных матчей. Двумерное распределение Пуассона позволяет улучшить соответствие модели количеству ничьих, о чем сообщают некоторые исследователи (например, см. Maher (1982) и Lee (1997)). Интересной особенностью двумерной пуассоновской модели является тот факт, что распределение разности двух переменных совпадает с распределением разности двух независимых пуассоновских переменных. Однако параметры имеют совершенно иную интерпретацию. Более того, неправильное использование независимого Пуассона приводит к существенным различиям. Эффект такой неточной спецификации проиллюстрирован на простом примере. Оценка максимального правдоподобия параметров производится с помощью алгоритма EM. В разделе 3 предлагаются расширения с помощью инфляционных моделей. Поскольку ничья представлена диагональными членами в двумерном распределении, добавление инфляционного члена по диагонали позволяет более точно рассчитать количество ничьих. В разделе 4 предложенные модели иллюстрируются примерами из футбола и водного поло. Наконец, заключительные замечания можно найти в разделе 5.

2. Двумерное распределение Пуассона и его применение в спорте.

2.1 Двумерное распределение Пуассона

Рассмотрим случайные величины X_k, \ k = 1, 2, 3, которые следуют независимым пуассоновским распределениям с параметрами \lambda_k > 0. Тогда случайные величины X = X1 + X3 и Y = X2 + X3 совместно следуют двумерному распределению Пуассона BP(\lambda_1, \lambda_2, \lambda_3) с совместной функцией вероятности

P_{X<Y}(x,y) =  P(X=x, Y=y) = \\ exp \left\{  -( \lambda_1 + \lambda_2 + \lambda_3 ) \right\} \frac{ \lambda_1^x \ \lambda_2^y } {x! \ y!} \ \sum_{k=0}^{min(x,y)} \begin{pmatrix}  x \\ k \end {pmatrix} \begin{pmatrix}  y \\ k \end {pmatrix} k! \begin{pmatrix}  \frac{ \lambda_3 }{ \lambda_1 \ \lambda_2 } \end {pmatrix} ^k \ \ \ \ (1)

Это двумерное распределение позволяет установить взаимосвязь между двумя случайными величинами. В некоторой степени каждая случайная величина соответствует распределению Пуассона с E(X)= \lambda_1 +  \lambda_3 и E(Y) =  \lambda_2 +  \lambda_3. Более того, cov(X, Y) = \lambda_3, и, следовательно, \lambda_3 является мерой зависимости между двумя случайными величинами. Если λ3 = 0, то две переменные независимы, и двумерное распределение Пуассона сводится к произведению двух независимых распределений Пуассона (называемому двойным распределением Пуассона). Всестороннее рассмотрение двумерного распределения Пуассона и его многомерных расширений приведено в работах Kocherlakota and Kocherlakota (1992) and Johnson et al. (1997).

Вероятно, это распределение будет использовано для моделирования зависимости в командных видах спорта. Естественная интерпретация параметров двумерной пуассоновской модели заключается в том, что \lambda_1 и \lambda_2 отражают "чистую" игру каждой команды, в то время как \lambda_3 отражает игровые условия (например, скорость игры, погоду или состояние стадиона).

2.2. Вероятность разницы

Давайте теперь определим разницу Z = X - Y голов, забитых двумя командами. Поскольку

P(Z = z) =  P(X - Y = z) =  \\ P(X_1 + X_3 - X_2 - X_3 = z) =  P(X_1 - X_2 = z)

функция вероятностного анализа спортивных данных Z не зависит от \lambda_3 и равна функции, полученной из двух независимых распределений Пуассона. Таким образом, Z соответствует разностному распределению Пуассона с параметрами \lambda_1 и \lambda_2, обозначаемыми как PD(\lambda_1, \lambda_2), заданными формулой:

P_Z(z) =  P(Z = z) =  exp \{ -( \lambda_1 + \lambda_2 ) \}( \frac{ \lambda_1 }{ \lambda_2 } )^{z/2} \ \ \  I_z \{ 2 \sqrt( \lambda_1 \lambda_2 ) \} \ \ \ \ (2)

z = ..., −3, −2, −1, 0, \ 1, \ 2, \  3,..., где I_r(x) обозначает модифицированную функцию Бесселя (см. Abramowitz and Stegun (1974)), определяемую:

I_r(x) = \begin {pmatrix} \frac{x}{2} \end {pmatrix}^r \sum_{k=0}^{\infty} \frac{ (x^2/4)^k }{ k!\Gamma(r + k + 1) }

Частный случай двух независимых распределений Пуассона для случая равных средних был получен Irwin (1937), тогда как общий случай был рассмотрен Skellam (1946). Интересные ссылки на разностное распределение Пуассона можно найти у Johnson et al. (1992). Keller (1994) рассчитал вероятность выигрыша в игре, предполагая независимые распределения Пуассона как для X, так и для Y.

Хотя распределение (2) подразумевает, что вероятность выигрыша (Z > 0) не зависит от параметра \lambda_3, независимая оценка количества голов для каждой команды приводит к завышению параметров модели. Следует иметь в виду, что, поскольку параметры \lambda_1 и \lambda_2 оцениваются по предельным распределениям, параметр ковариации \lambda_3 является ошибочным. В следующем разделе мы рассмотрим влияние такого неправильного определения.

2.3. Эффект ошибки

Давайте предположим, что истинной базовой моделью является двумерная пуассоновская модель, но вместо этого мы используем двойную пуассоновскую модель. Тогда мы предполагаем, что разность Z = X−Y ∼ PD(\lambda_1+\lambda_3, \lambda_2+\lambda_3) вместо правильного Z ∼ PD(\lambda_1, \lambda_2). Это неправильное определение имеет довольно большой эффект, даже если ковариация λ3 составляет всего 0,10, что примерно соответствует наблюдаемой ковариации в футболе.

На рисунке 1 показано относительное изменение вероятности ничьей между двумя конкурирующими командами при рассмотрении двух независимых распределений Пуассона по сравнению с двумерной моделью Пуассона с малым параметром ковариации \lambda_3.

Рисунок 1. Относительное изменение вероятности ничьей, когда две конкурирующие команды имеют предельные средние значения, равные  и  в диапазоне от 0.1 до 2.0: разные линии соответствуют разным уровням ковариации .
Рисунок 1. Относительное изменение вероятности ничьей, когда две конкурирующие команды имеют предельные средние значения, равные \lambda_1 = 1 и \lambda_2 в диапазоне от 0.1 до 2.0: разные линии соответствуют разным уровням ковариации \lambda_3.

А именно, независимая модель Пуассона предполагает, что X \sim Poisson(1) тогда как Y \sim Poisson(\lambda_2). Конкурирующая модель предполагает, что (X, Y) \sim BP(1 − \lambda_3, \lambda_2 − \lambda_3, \lambda_3). Обратите внимание, что для обеих моделей предельные средние значения одинаковы, но двумерная пуассоновская модель предполагает также существование ковариации \lambda_3. Мы позволяем значению \lambda_2 изменяться от 0.1 до 2.0 для различных значений ковариационного члена \lambda_3 = 0.05, 0.10, 0.15, 0.20. Эти значения ковариации довольно малы, но близки к тем, которые наблюдаются в реальных футбольных данных.

На рисунке 1 показано, что для обычно наблюдаемого диапазона значений в футбольных данных вероятность ничьей в рамках двумерной пуассоновской модели больше, чем соответствующая вероятность в рамках двойной пуассоновской модели, даже если \lambda_3 довольно мала. Например, если мы рассмотрим двумерную пуассоновскую модель с \lambda_3=0.05 и \lambda_1 = \lambda_2 = 1, то мы ожидаем почти на 3,3% больше ничьих, чем при соответствующей независимой пуассоновской модели, тогда как если \lambda_3 увеличится до 0.20, мы ожидаем на 14% больше ничьих. Также ясно, что чем больше \lambda_3, тем больше относительное изменение. Это может объяснить тот эмпирический факт, что наблюдаемое количество розыгрышей обычно больше, чем предсказано в рамках независимой пуассоновской модели.

2.4 Оценка

В этом разделе мы сосредоточимся на оценке параметров двумерного распределения Пуассона. Cтандартные процедуры оценки модели без ковариат были предложены Kocherlakota and Kocherlakota (1992). Здесь мы рассмотрим более реалистичные модели, которые включают ковариаты. Модели двумерной пуассоновской регрессии были недавно описаны в работах Kocherlakota and Kocherlakota (2001) и Ho и Singer (2001). В первом случае представлен подход Ньютона–Рафсона для максимизации вероятности, в то время как во втором описывается обобщенный метод наименьших квадратов.

Рассмотрим общий случай двумерной пуассоновской регрессии. Для i-го наблюдения модель принимает вид

(X_i, Y_i)  \sim BP( \lambda_{1i}, \lambda_{2i}, \lambda_{3i}) ), \\ log(\lambda_{ki}) =  w_{ki}\beta_k, \ \ \ \  k = 1, 2, 3, \ \ \ \ (4)

i = 1, . . . , n обозначает номер наблюдения, w обозначает вектор объясняющих переменных для i-го наблюдения, используемого для моделирования \lambda_{ki}, а \beta_k обозначает соответствующий вектор коэффициентов регрессии. Очевидно, что на каждый параметр двумерного распределения Пуассона могут влиять различные характеристики и переменные. По этой причине объясняющие переменные, которые используются для моделирования каждого параметра \lambda_{ki}, могут не совпадать. Оценка параметров для такой модели не является простой. Поэтому мы используем алгоритм EM для получения оценок максимального правдоподобия.

Чтобы построить алгоритм EM для модели двумерной пуассоновской регрессии, мы используем трехмерный редукционный вывод двумерного распределения Пуассона. По этой причине для каждого наблюдения i мы дополнительно вводим скрытые переменные X_{1i}, X_{2i} и X_{3i}, для которых мы предполагаем распределение Пуассона с параметрами \lambda_{1i}, \lambda_{2i} и \lambda_{3i} соответственно. Более того, мы предполагаем, что X_i = X_{1i} + X_{3i} и Y_i = X_{2i} + X_{3i}.

Алгоритм EM основан на оценке ненаблюдаемых данных с помощью их условных ожиданий на шаге E, а затем максимизирует правдоподобие полных данных на шаге M. Следовательно, на этапе E мы получаем апостериорное математическое ожидание X_{1i}, X_{2i} \ и \ X_{3i} с учетом данных и текущих значений параметров, а затем, на этапе M, мы максимизируем правдоподобие полных данных путем подгонки трех моделей пуассоновской регрессии. Теперь цель состоит в том, чтобы оценить коэффициенты регрессии \beta_k для κ = 1, 2, 3. Полный алгоритм доступен авторам по запросу. Этот EM алгоритм очень гибкий, и многие варианты двумерной модели Пуассона могут быть дополнены небольшими изменениями.

3. Инфляционное двумерное распределение Пуассона

Двумерная модель Пуассона вводит корреляцию между переменными, но предельные распределения по-прежнему являются пуассоновскими. В качестве улучшения по сравнению с простой двумерной моделью Пуассона мы можем рассматривать сочетания двумерных распределений Пуассона, конечных или бесконечных. Такие сочетания могут иметь различные формы, в зависимости от изменяющихся параметров и распределения комбинации. Однако такие модели имеют очень сложную структуру и, следовательно, не очень полезны для практического применения в спортивном моделировании.

Тип инфляционной модели был использован Dixon and Coles (1997) для моделирования футбольных матчей. Первоначально они предположили наличие двух независимых распределений Пуассона, а затем скорректировали ожидаемые значения результатов (0-0, 1-0, 0-1, 1-1) с помощью дополнительного параметра. Мы предлагаем альтернативные модели, которые, в то же время, учитывают корреляцию между переменными и сверхдисперсное (по сравнению с пуассоновским) предельное распределение, а также еще больше улучшают точность подсчета ничьих.

Если оценка 0-0 занижена моделью, то мы можем увеличить вероятность в ячейке (0,0), добавив параметр. В таком случае используется модель, аналогичная предложенной Li et al. (1999). Мы предлагаем более общую формулировку модели, которая увеличивает вероятности ничьих. Ничья между двумя командами представлена результатами на диагонали таблицы вероятностей. Чтобы скорректировать превышение количества ничьих, мы можем добавить инфляционный компонент на диагональ функции вероятности. Эта модель является расширением простой модели с нулевой инфляцией, которая допускает превышение только в (0,0) розыгрышах. Для обобщения мы считаем, что исходной моделью является двумерная модель Пуассона. При таком подходе диагональная завышенная модель определяется как

P_D(x,y) =  \begin {cases} (1-p)BP( x,y| \lambda_1, \lambda_2, \lambda_3 ), \ \ \ \ x \ne y \\ (1-p)BP( x,y| \lambda_1, \lambda_2, \lambda_3 ) +  pD(x, \Theta), \ \ \ \ x = y \end {cases} \ \ \ \ (5)

где D(x, \Theta) - дискретное распределение с вектором параметров θ. Такие модели могут быть решены с помощью EM алгоритма.

Полезными вариантами для D(x, \Theta) являются пуассоновские, геометрические или простые дискретные распределения, такие как распределение Бернулли. Геометрическое распределение может представлять большой интерес, поскольку его мода 0 и оно быстро затухает. В качестве дискретного распределения мы рассматриваем P = (X=j)=\theta_j для j = 0, 1, 2, . . . , J, где

 \sum_{j=0}^J \theta_j = 1; \ \ J \leqslant3

обычно достаточно для футбольных данных, тогда как J = 0 соответствует моделям с нулевым инфляцией. Хотя были разработаны и подробно исследованы одномерные модели пуассоновской регрессии с нулевой инфляцией (см., например, Lambert (1992) и Bohning et al. (1999)), многомерные расширения, аналогичные моделям, предложенным в этой статье, относительно редки, за исключением Li et al. (1999), Gan (2000) и Wahlin (2001).

У таких моделей есть два важных свойства. Во-первых, предельные распределения модели с диагональной инфляцией являются не распределениями Пуассона, а смесью распределений с одной пуассоновской составляющей. Во-вторых, если \lambda_3 = 0 (что соответствует двум независимым распределениям Пуассона), полученное в результате распределение определяет степень зависимости между двумя рассматриваемыми переменными. По этой причине диагональная инфляция может исправить как чрезмерную дисперсию, так и проблемы корреляции, возникающие при моделировании футбольных матчей.

4. Использование в спорте.

Тест отношения правдоподобия (Likelihood-ratio test (LRT)) — это статистическая процедура для оценивания степени соответствия данным двух статистических моделей, одна из которых строится на множестве всех доступных переменных выборки, а другая только на некотором их подмножестве.

Информационный критерий Акаике (Akaike's information criterion (AIC)) - критерий для выбора лучшей из нескольких статистических моделей, построенных на одном и том же наборе данных и использующих логарифмическую функцию правдоподобия. Критерий является не статистическим, а информационным, поскольку основан на оценке потери информации при уменьшении числа параметров модели. Критерий позволяет найти компромисс между сложностью модели (числом параметров) и ее точностью. 

Байесовский информационный критерий (Bayesian information criterion (BIC)) - критерий выбора статистической модели из некоторого конечного набора. Предпочтение отдается модели с минимальным значением критерия. В основе подхода лежит тот факт, что при увеличении числа параметров модели значение функции правдоподобия растет, но при этом возможно наступление эффекта переобучения. Когда параметров модели оказывается слишком много, доля каждого из них в объясняющей способности модели становится малой и они теряют свою значимость.

4.1. Моделирование футбольных результатов.

Во многих источниках в этой области предполагается, что количество голов, забитых каждой командой, соответствует распределению Пуассона (среди прочих, Maher (1982), Lee (1997), Rue and Salvesen (2000)). Такие модели имеют общую форму

X_{i} \sim Poisson(\lambda_{1i}), \\ Y_{i} \sim Poisson(\lambda_{2i})\log(λ_{1i}) =  \mu + home +  att_{h_i} +  def_{g_i} +  home.att_{h_i} + \\ home.def_{g_i} +  att.def_{h_{i}g_{i}} +  home.att.def_{h_{i}g_{i}}\log(λ_{2i}) =  \mu + att_{g_i} +  def_{h_i} +  att.def_{g_{i}h_{i}}

для i = 1, 2, . . . , n, где n - количество игр или наблюдений, i - индекс игры (наблюдения), h_i и g_i указывают на команду хозяев и команду гостей в игре i, X_i и Y_i - голы, забитые хозяевами (h_i) и команда гостей (g_i) в игре i, \lambda_{1i} и \lambda_{2i} - это соответствующее ожидаемое количество голов, \mu - постоянный параметр, home - это параметр домашнего эффекта, и, наконец, att_k и def_k отражают наступательные (или атакующие) и оборонительные действия команды k. Karlis and Ntzoufras (2000) исследовали такие модели в общем логарифмически-линейном режиме, что также позволяет осуществлять выбор модели.

Хотя мы применили предложенные нами модели к различным наборам данных, здесь мы сосредоточимся на данных итальянской серии А за сезон 1991-1992 годов и приведем некоторые краткие сведения о данных Лиги чемпионов за сезон 2000-2001 годов. При выборе и подгонке моделей использовались классический критерий отношения правдоподобия (LRT) и его асимптотическое значение \chi^2 p - value, а также информационный критерий Байеса (BIC) и информационный критерий Акайке (AIC). Мы приняли более простую структуру для параметров, участвующих в линейных предсказателях \lambda_1 и \lambda_2. Следовательно, для каждой игры i \ \ (i = 1, . . . , n),

(X_i, Y_i) \sim  BP( \lambda_{1i},  \lambda_{2i},  \lambda_{3i} ) \\ \log(lambda_{1i}) =  \mu + att_{h_{i}} +  def_{g_{i}} \\ \log(\lambda_{2i}) =  \mu + att_{g_{i}} + def_{h_{i}} \\ (6)

Чтобы обеспечить идентифицируемость приведенных выше параметров модели, мы можем использовать любой стандартный набор ограничений. Здесь мы предлагаем использовать ограничения типа "нулевая сумма" или "corner", в зависимости от интерпретации, которую мы предпочитаем. Для этого примера мы выбрали ограничения типа "нулевая сумма" для простоты интерпретации. Таким образом, общий постоянный параметр определяет \lambda_1 и \lambda_2, когда две команды одинаковой силы играют на нейтральном поле. Параметры атаки и защиты выражаются как отклонения от команды со средними возможностями в атаке или обороне.

Для параметров ковариации \lambda_{3i} мы рассмотрели различные версии линейного предиктора, которые можно обобщить следующим образом

\log(\lambda_{3i}) =  \beta^{con} +  \gamma_1 \beta_{h_i}^{home} +  \gamma_2 \beta_{g_i}^{away},

де \beta^{con} - постоянный параметр, а \beta_{h_i}^{home} и \beta_{g_i}^{away} - параметры, зависящие от команды хозяев и команды гостей соответственно. Параметры \gamma_1 и \gamma_2 являются фиктивными бинарными индикаторами, принимающими значения 0 или 1, в зависимости от рассматриваемой модели. Следовательно, когда \gamma_1 = \gamma_2 = 0, мы рассматриваем постоянную ковариацию, когда (\gamma_1, \gamma_2) = (1, 0), мы предполагаем, что ковариация зависит только от хозяев поля и так далее.

Параметр \lambda_3 можно интерпретировать как случайный эффект, который аддитивно влияет на предельное среднее значение и отражает условия игры. Альтернативная структура матрицы может быть легко реализована, если имеется дополнительная информация, или если мы предполагаем, что атакующие способности различаются в домашних и выездных матчах, или если эффект от игры дома варьируется от команды к команде.

Модели с диагональной инфляцией подходят для чемпионатов с большим количеством розыгрышей, которые не могут быть зафиксированы с помощью моделей с двойным Пуассоном или даже двумерных пуассоновских моделей. Здесь мы проиллюстрируем диагональную инфляцию на примере данных итальянской серии А за сезон 1991-1992 годов. Система начисления очков в том сезоне давала 2 очка за победу и 1 очко за ничью. Эта система часто приводит к превышению количества ничьих. Мы рассмотрели различные модели, включая двойную пуассоновскую, двумерную пуассоновскую и диагонально-инфляционную модели, используя несколько диагональных распределений.

Таблица 1. Подробная информация о моделях итальянской серии А сезона 1991-1992.  |  |  |
Таблица 1. Подробная информация о моделях итальянской серии А сезона 1991-1992.
†H0:\lambda_3 = 0 | ‡H0:\lambda_3 = constant | §H0: p =0
*H0: \theta_2=0 | **H0: \theta_3 = 0

наиболее подходящей моделью является двумерная модель Пуассона номер 8 с дополнительным параметром для ничьей 1 - 1, который изначально был сильно недооценён.

Таблица 2. Оценки ничьих для каждой модели. †Best-fitted model.
Таблица 2. Оценки ничьих для каждой модели. †Best-fitted model.

Выбранная модель прошла AIC, BIC и LRT для проверки гипотезы H0: p = 0, где p - коэффициент инфляции (p-value меньше 0.01). Подробная информация о процедуре выбора модели приведена в таблице 1. Обратите внимание, что модели с нулевой инфляцией и геометрической диагональной инфляцией не улучшили вероятность, поскольку оценки 0 - 0 не были занижены. Более того, улучшение, обеспечиваемое диагональным компонентом Пуассона, было статистически значимым при добавлении к простой модели Пуассона, но не при добавлении к двумерной модели Пуассона.

Степень соответствия была оценена путем сравнения предложенной нами модели с полной моделью, которая точно соответствует данным. Согласно LRT, предложенная нами модель достаточно хорошо соответствует нашим данным (p-value 0.85). Более того, показатели AIC и BIC для полной модели составляют 2204.0 и 4928.7 соответственно. Оба эти критерия указывают на выбор нашей модели по сравнению с альтернативной полной моделью.

В таблице 3 приведены оценки параметров простой пуассоновской модели и выбранной двумерной модели Пуассона с диагональной инфляцией.

Таблица 3. Оценочные параметры для двойной и двумерной моделей Пуассона для данных итальянской серии А за 1991-1992 годы. †Ожидаемое количество голов может быть рассчитано с помощью уравнений (7) и (6) для модели 1 и уравнений (8) и (6) для модели 2.
Таблица 3. Оценочные параметры для двойной и двумерной моделей Пуассона для данных итальянской серии А за 1991-1992 годы. †Ожидаемое количество голов может быть рассчитано с помощью уравнений (7) и (6) для модели 1 и уравнений (8) и (6) для модели 2.

Ожидаемое количество голов по этой модели в игре i с участием хозяев поля h_i и гостей g_i составляет:

E(X_i)=\lambda_{1i} \\ E(Y_i)=\lambda_{2i} \\ (7)

где \lambda_{1i} и \lambda_{2i} задаются выражением (6). Для двумерной модели Пуассона с диагональным расширением(инфляцией) в качестве инфляции использовалось распределение Бернулли с параметром \theta_1. Ожидаемое количество голов при использовании этой модели может быть рассчитано как

E(X_i)= (1-p) ( \lambda_{1i} + \lambda_{3i} ) +  p \theta_1, \\ E(Y_i)= (1-p) ( \lambda_{2i} + \lambda_{3i} ) +  p \theta_1, \\ (8)

где \lambda_{1i} и \lambda_{2i} рассчитаны с использованием выражения (6), а p - расчетная пропорция смешивания.

Приблизительное количество ничьих приведено в таблице 2. Обратите внимание, что простая модель Пуассона очень хорошо учитывает количество ничьих 0 - 0, но значительно недооценивает количество ничьих 1 - 1. В отличие от этого, двумерная модель Пуассона переоценивает ничью 0 - 0, поскольку это снижает предполагаемые возможности команд, как описано в разделе 2. Наконец, выбранная модель, по-видимому, является компромиссом между показателями 0 - 0 и 1 - 1. Это ближе к наблюдаемым данным, поскольку точно оценивает количество ничьих 1 - 1 и немного завышает количество ничьих 0 - 0.

Стоит отметить, что система начисления очков была изменена, чтобы поощрять команды не довольствоваться ничьими; и сегодня победа стоит 3 очка, а ничья - всего 1 очко. Это привело к сокращению количества ничьих в последних чемпионатах. Обратите внимание, что LRT для тестирования смешанных моделей с различным количеством компонентов, как известно, не подходит (см., например, Lindsay (1995)). Таким образом, выбор модели может основываться на AIC. В данных о Лиге чемпионов за сезон 2000-2001 годов были указаны различные модели. Наиболее подходящей моделью была двумерная модель Пуассона с постоянной \lambda_3, поддерживаемая LRT, которая отвергает гипотезу H0: \lambda_3 = 0 (p-value = 0,042) и AIC. Модели с нулевым и диагональным расширением не улучшили подгонку модели. Это объясняется главным образом тем, что эти модели полезны только в том случае, если выбранная модель занижает количество ничьих.

4.2. Моделируем результаты водного поло.

В этом разделе мы представляем реализацию двумерных моделей Пуассона для ВОДНОГО ПОЛО. Этот вид спорта был выбран из-за относительно небольших результатов (что позволяет использовать дискретные распределения) и большой корреляции между результатами соревнующихся команд. Полезную информацию можно найти по ссылкам www.usawaterpolo.com и www.hickoksports.com. Основная цель игры - забрасывать голы. Обычно забрасывается около 8 голов каждой командой, при этом показатели команд-соперниц сильно коррелируют.

Здесь мы применили двумерные пуассоновские модели к данным командного чемпионата Европы, который проходил во Флоренции в сентябре 1999 года. 12 национальных команд провели в общей сложности 50 игр. В нашем анализе мы учитывали только результаты в основное время, игнорируя дополнительное время. Эффект от такого сокращения минимален, поскольку было зафиксировано всего две ничьи.

Модель, которую мы рассматриваем, была аналогична соответствующей модели для футбольных матчей без параметра, оценивающего домашний эффект:

(X_i, Y_i) \sim  BP( \lambda_{1i},  \lambda_{2i},  \lambda_{3i} ) \\ \log(\lambda_{1i}) =  \mu + att_{o_{1i}} +  def_{o_{2i}} \ \ \  (9) \\ \log(\lambda_{2i}) =  \mu + att_{o_{2i}} + def_{o_{1i}} \ \ \ \ \ \ (10)

для i = 1, . . . , 50; здесь o_{1i} и o_{2i} - показатели, соответствующие первой и второй упомянутым командам-соперницам в игре i. Для \lambda_3 мы рассмотрим два случая; в первом \lambda_3 является постоянной величиной, тогда как во втором \lambda_3 определяется как

\log(\lambda_{3i}) = m + team_{o_{1i}} +  team_{o_{2i}} \ \ (11)

для каждой игры между командами o_{1i} и o_{2i}, где team_k - это влияние команды k на \lambda_3. Для получения этих данных мы не рассматривали модели с нулевой и диагональной инфляциями, поскольку ничьи в водном поло редки. Как и в случае с футбольной реализацией, мы можем использовать ограничения типа "нулевая сумма" или "corner", в зависимости от того, какую интерпретацию мы предпочитаем. Здесь мы рассматривали “corner” ограничения, используя Германию в качестве базовой команды. Постоянный параметр определяет параметры \lambda_1 и \lambda_2, когда Германия играет с командой, обладающей одинаковыми атакующими и оборонительными способностями. Кроме того, параметры атаки (att_k) и защиты (def_k) отражают различия в атакующих или оборонительных способностях каждой команды по сравнению с командой Германии (базовой командой).

В результате были применены три модели (двойная пуассоновская, двумерная пуассоновская с постоянной ковариацией и двумерная пуассоновская с ковариацией, зависящей от соперничающих команд). Все три использованных критерия (LRT, AIC и BIC) показали, что наилучшей моделью является двумерная модель Пуассона с постоянной \lambda_3;

Таблица 4. Подробная информация о моделях для кубка Европы по водному поло 1999 года. |  |
Таблица 4. Подробная информация о моделях для кубка Европы по водному поло 1999 года.
†H0 : \lambda_3 = 0 | ‡H0 : \mu = 0 | §H0 : \lambda_3 = constant

Значения AIC и BIC для полной или избыточной модели (508,4 и 726,4 соответственно) также указывали на выбор нашей модели по сравнению с полной моделью. Было обнаружено, что параметр ковариации \lambda_3 равен 5,55, что указывает на значительную ковариацию результатов команд-соперниц.

Было обнаружено, что параметр, оценивающий оборонительную способность Венгрии, имеет очень большое отрицательное значение. Это означает, что предсказанные значения пропущенных Венгрией голов имеют тенденцию быть постоянными для всех команд-соперниц и равны параметру ковариации \lambda_3 (вместо \lambda_2 + \lambda_3). Любое значение оборонительной способности Венгрии, меньшее, чем -20,0, приводит к идентичным подобранным значениям и вероятности. По этой причине, а также во избежание неидентификации, мы установили оборонительную способность Венгрии равной -20,0. Хотя это может означать, что модель не дает хорошей или разумной оценки оборонительных способностей венгерской команды, это не так. Если мы выделим данные, касающиеся защиты венгерской команды (7,3,6,3,6,4,5,12), то увидим, что они недостаточно распределены по сравнению с распределением Пуассона (среднее значение - 5,75; дисперсия - 8,50). Критерий дисперсии (см. критический обзор Karlis and Xekalaki (2000)) не отвергает гипотезу о распределении Пуассона. Следовательно, постоянное среднее значение для защиты венгерской команды кажется правдоподобным. Для остальных групп наблюдаемые данные чрезмерно разбросаны, и поэтому вполне вероятно предположить, что среднее значение не является постоянным. Обратите внимание, что эта проблема с числами возникает в основном из-за большого количества параметров, относящихся к объему данных, доступных в таких соревнованиях, и несбалансированности структуры данных. По этой причине в полносезонных лигах у нас не будет таких проблем.

Чтобы избежать возможной чрезмерной параметризации, мы также рассмотрели модель с Венгрией в качестве базовой команды и соответствующей константой (которая является показателем общей результативности Венгрии), равной 0. Это можно интерпретировать следующим образом: если Венгрия играет с командой, которая обладает одинаковыми атакующими и оборонительными способностями, то ожидаемое количество забитых мячей будет равно 1 голу, добавленному к параметру ковариации \lambda_3, т.е. E(X) = E(Y) = 1 + \lambda_3 . Преимущество такой модели заключается в том, что она не предполагает постоянного ожидаемого количества пропущенных Венгрией голов.

Сравнивая две модели с \chi^2-тестом (H0 : µ = 0; p-значение 0.38), BIC или AIC, мы приходим к выводу, что следует выбрать модель с Венгрией в качестве базовой команды и соответствующей константой, равной 0. Подробную информацию о параметрах двух окончательно отобранных моделей смотрите в таблице 5; примерные значения для игр Венгрии приведены в таблице 6.

Таблица 5. Оценочные параметры для двойной и двумерной моделей Пуассона для данных кубка Европы по водному поло 1999 года.†Базовый уровень - Венгрия. Ожидаемое количество голов   и ;  и  задаются уравнениями (9) и (10) для обеих моделей. Для модели 1 :
Таблица 5. Оценочные параметры для двойной и двумерной моделей Пуассона для данных кубка Европы по водному поло 1999 года.
†Базовый уровень - Венгрия. Ожидаемое количество голов \lambda_{1i} + \lambda_{3i} и \lambda_{1i} + \lambda_{2i}; \lambda_{1i} и \lambda_{2i} задаются уравнениями (9) и (10) для обеих моделей. Для модели 1 :  \lambda_3 = 0
Таблица 6. Оценочные параметры для двойной и двумерной моделей Пуассона для Кубка Европы по водному поло 1999 года.†Венгрия - базовый уровень.
Таблица 6. Оценочные параметры для двойной и двумерной моделей Пуассона для Кубка Европы по водному поло 1999 года.
†Венгрия - базовый уровень.

5. Обсуждение

В настоящей работе для моделирования спортивных данных было использовано двумерное распределение Пуассона и его расширения. Двумерное распределение Пуассона позволяет получить корреляцию между результатами соревнующихся команд, что вполне вероятно для некоторых командных видов спорта. Для дальнейшего улучшения аспектов моделирования также предлагаются модели с диагональной инфляцией. Предложенные модели обеспечивают лучшее соответствие футбольных данных, поскольку они могут обрабатывать как корреляцию, так и сверхдисперсию. Кроме того, они улучшают соответствие по диагонали наблюдаемой таблицы результатов, которая отражает связи между двумя соперниками. В соответствии с предложенными моделями мы можем расширить модель двойного Пуассона, либо рассмотрев двумерную модель Пуассона, либо увеличив диагональные элементы совместной функции вероятности. Обе модели включают корреляцию, но последняя также вносит увеличенную дисперсию.

Была подробно описана оценка максимального правдоподобия для двумерных моделей пуассоновской регрессии. Алгоритм EM, предложенный в этой статье, может быть легко расширен для включения более сложных моделей. Такие модели были описаны в работах Kocherlakota and Kocherlakota (2001). Кроме того, мы расширили многомерные модели Пуассона с нулевой инфляцией, предложенные Li et al. (1999), определив более общие модели инфляции, которые могут быть использованы в производстве или маркетинге. Алгоритм EM, который был предложен для таких моделей, может быть весьма полезен для применения таких моделей в реальных данных.

Референсы:

Dixon, M. J. and Coles, S. G. (1997) Modelling association football scores and inefficiencies in the football betting market. Appl. Statist., 46

Karlis, D. and Xekalaki, E. (2000) A simulation comparison of several procedures for testing the Poisson assumption. Statistician, 49

Kocherlakota, S. and Kocherlakota, K. (1992) Bivariate Discrete Distributions. New York: Dekker. Kocherlakota, S. and Kocherlakota, K. (2001) Regression in the bivariate Poisson distribution. Communs Statist. Theory Meth.

Li, C. S., Lu, J. C., Park, J., Kim, K. and Peterson, J. (1999) Multivariate zero-inflated Poisson models and their applications. Technometrics, 41

Maher, M. J. (1982) Modelling association football scores. Statist. Neerland., 36

Rue, H. and Salvesen, Ø. (2000) Prediction and retrospective analysis of soccer matches in a league. Statistician, 49

Комментарии (2)


  1. morozyan
    29.08.2024 17:06
    +1

    Двумерный Пуассон и дисперсия это, конечно, хорошо, но количество неизвестных для независимого наблюдателя параметров, влияющих на исход конкретного футбольного матча, перевалит за десяток для стабильных клубов из топ-5 европейских чемпионатов (для всех остальных команд количество параметров будет еще больше), что делает расчет математических моделей практически бесполезным.

    Простая эвристика - топ-клуб победит в игре - даст результат с вероятностью в 0,7-0,75. Как много есть математических алгоритмов дающих сильно лучший результат?


    1. cappelchi Автор
      29.08.2024 17:06

      Не совсем понял в чем ваш вопрос. Разные клубы дают разный результат с разной вероятностью, еще очень важно какой коэффициент дают на эту вероятность букмекеры.