Образец дерева регрессии для данных чемпионатов мира по футболу 2002?2014 годов. В качестве переменной-отклика используется количество голов

Специалисты по машинному обучению из Германии сравнили три разных модели для предсказания результатов будущего чемпионата мира по футболу 2018 года:

  • модели регрессии Пуассона;
  • методы random forests (случайных лесов);
  • методы ранжирования (по силе команд исходя из спаррингов за 2010-2018 года и по коэффициентам в букмекерских конторах).

Первые два основаны на информации о ковариатах, а последний непосредственно на реальной фактической силе команд. Учёные пришли к выводу, что в рамках этого сравнения наиболее эффективными методами прогнозирования на обучающих данных являются методы ранжирования и случайные леса. Но с помощью комбинированного подхода — сочетая свойства random forests с ранкингом команды — учёным удалось существенно улучшить предсказательную силу системы.

Эту комбинацию методов исследователи выбрали в качестве окончательной модели. На основе её оценок были многократно смоделированы все матчи чемпионата мира по футболу 2018 года. Рассчитаны вероятности для каждого матча, вероятности прохода каждой команды в каждую следующую стадию турнира и наиболее вероятный исход турнира.

Авторы отмечают, что в научной прессе ранее было опубликовано несколько удачных моделей, предсказывающих результаты чемпионата мира и Европы. Разработчики этих моделей применили систему также для прогнозирования исхода ЧМ-2018.

Так, компьютерная модель Zeileis, Leitner и Hornik (2018) выдаёт наибольшие статистические вероятности победы для Бразилии (16,6%), Германии (15,8%) и Испании (12,5%).

Модель экспертов из швейцарского банка UBS (Audran, Bolliger, Kolb, Mariscal, Pilloud, 2018) рассчитала наиболее вероятным победителем Германию (24,0%), Бразилию (19,8%) и Испанию (16,1%). Данная статистическая модель в качестве входных данных использовала четыре фактора, после чего вероятности рассчитывались по результатам 10 000 симуляций Монте-Карло.

Метод random forests — принципиально новый подход. Алгоритм случайных деревьев заключается в использовании ансамбля решающих деревьев. Здесь сочетаются метод бэггинга и метод случайных подпространств для задач классификации, регрессии и кластеризации. Другими словами, для прогнозирования матчей ЧМ-2018 он подходит очень хорошо. Основная идея метода случайных деревьев заключается в использовании большого ансамбля решающих деревьев, каждое из которых само по себе даёт очень невысокое качество классификации, но за счёт их большого количества результат получается хорошим.

Немецкие специалисты тщательно проанализировали все предложенные модели и их итоговую предсказательную силу. Затем были выделены конкретные предсказательные факторы, которые максимально влияют на предсказательную силу модели. В конце концов, после такой подготовительной работы учёные применили спроектированную модель (случайные леса + ранжирование) на данных ЧМ-2018.

Для каждого матча модель может выдать ожидаемое количество забитых мячей каждой командой. На основании этой информации был рассчитан исход всех 48 матчей на групповой стадии. Итоговое положение команд в группах вычислялось в строгом соответствии с регламентом FIFA. Затем таким же образом рассчитали результаты матчей в стадии плей-офф. Для учёта дополнительного времени выдаваемой программой результат по количеству голов, забитых каждой командой, умножался на 1,33. Если по результатам дополнительного времени опять фиксировалась ничья, то программа симулировала серию пенальти путём «бросания монетки».

Данная стратегия использовалась для 100 000 симуляций всех матчей чемпионата. На основании этих данных рассчитывалась вероятность выхода из группы и победы в турнире.

По итогам групповой стадии программа выдала следующую картину:



У сборной России довольно высокие шансы пройти в 1/8 финала (50,4%), но там она должна встретиться со сборной Испании, где с вероятностью 87% победит последняя. В таблице показана самая вероятная сетка плей-офф по итогам 100 000 симуляций.



Общие шансы России на проход в четвертьфинал — 10,5%, в полуфинал — 2,4%, в финал — 0,4%.



Для победителя турнира данная модель выдала результат, отличный от результата предыдущих программ моделирования. Она отдала максимальную вероятность Испании (17,8%). За ней следуют Германия, Бразилия, Франция и Бельгия.

Научная статья опубликована 8 июня 2018 года на сайте препринтов arXiv.org (arXiv:1806.03208v3).

Комментарии (10)


  1. unseriously
    14.06.2018 17:31
    +1

    Не совсем понятно: на картинке, где плей-офф победитель Германия, а в тексте говорится, что выиграет Испания?


    1. Protos
      14.06.2018 18:08
      +1

      Там речь что предыдущие программы ставили на Испанию


  1. postgres
    14.06.2018 19:23

    Вернусь к этой статье в июле — проверить.


  1. Nathan_Foxy
    14.06.2018 20:06

    Херня ваш алгоритм. Россия таки победила =D


    1. postgres
      14.06.2018 20:49
      +1

      * так тут и не сказано что Россия вылетит в групповом отборе, ровно наоборот…


    1. arman_ka
      15.06.2018 11:16

      Что она победила? СА? где тут написано, что Россия не победит её? она почти что на последней месте в рейтинге, чё вы так сразу загордились? о боже обыграли слабую команду 5:0


  1. Alek_roebuck
    14.06.2018 23:04

    Не знаю, написано ли это в оригинальной статье, но из изложенного здесь совершенно непонятно, что именно использовалось в качестве метрики эффективности модели. Непонятно, какие ковариаты использовались. Непонятно, почему случайные леса противопоставляются ранжированию: ничто не мешает делать ранжирование методом случайных лесов.

    На первый взгляд, статья выглядит примерно так: «Чуваки поигрались с тремя моделями, им по каким-то необъяснённым причинам понравилась вторая, а вот и предсказание модели с симпатичными флажками в таблице».


  1. facha
    15.06.2018 03:04

    Модель простовата. Я бы применил нейронные сети. В прошлый раз живой осминог неплохо себя показал


  1. tram25
    15.06.2018 11:16

    авторы статьи — немцы


  1. Rebeiro
    15.06.2018 11:16

    договорные матчи тоже учитывались?