В американском футболе атакующей команде дается 4 попытки, чтобы пройти 10 ярдов и тогда команда имеет право продолжить атаковать (владеть мячом). И очень часто, перед розыгрышем 4-ой попытки, тренерам приходится решать - попытаться добрать оставшееся до минимальных 10 ярдов с риском не дойти и отдать сопернику мяч в текущей точке поля, либо сразу пробить ногой по мячу, запнув мяч подальше, обезопасив так себя в защите. Чтобы облегчить принятие этого решения и повысить его эффективность в этой статье мы построим байесовскую модель.
Необходимая подготовка: базовые знания теоремы Байса и уверенные знания правил и терминологии американского футбола.
Термины американского футбола из статьи
Правила американского футбола (видео)
Попытка - базовый розыгрыш, начинается по команде квотербека, заканчивается через несколько секунд после остановки игрока с мячом.
Тачдаун - ситуация, когда атакующая команда донесла мяч до зачетки соперника - противоположного края поля.
Пант - пробитие по мячу ногой с целью отвести мяч как можно дальше от своей зачетки.
Владение - в американском футболе на поле одновременно владеть мячом может только одна команда. Владением называется время, когда команда владеет мячом и пытается набрать очки.
Пик-сикс - результативное действие в защите. Когда удается в защите перехватить мяч и занести тачдаун.
Линия скриммиджа - текущее положение мяча перед попыткой.
Задача
Выбрать бить пант или играть на 4-ой попытке в ситуации "4 и j ярдов" на позиции поля в i ярдов от своей зачетки.
События
Из постановки задачи следует, что мы должны рассматривать два владения (своего текущего и следующего за текущим, которое получает соперник). За время этих двух владений может произойти 4 события, полностью описывающие значимые и возможные расклады (может произойти несколько событий):
если играем 4-ую попытку:
A: наша команда занесет тачдаун по итогам двух владений
B: наша команда пропустит тачдаун по итогам двух владений (включая ответный тачдаун на наш занесенный)
если бьем пант:
C: наша команда пропустит тачдаун по итогам двух владений
D: наша команда занесет тачдаун по итогам двух владений (пик-сикс)
Решение
Общая идея
Таким образом, задача сводится к сравнению четырех вероятностей:
P(A): вероятности занести прямой тачдаун при выборе сыграть 4-ую попытку,
P(B): вероятности пропустить тачдаун при выборе сыграть 4-ую попытку,
P(C): вероятности пропустить тачдаун при выборе панта,
P(D): вероятности занести тачдаун при выборе панта.
И выбор, играть 4-ую попытку или нет сводится к решению неравенства:
События, которые влияют на вероятности в левой части неравенства, являются: занесенный и пропущенные тачдауны по итогам двух владений, а так же набранный первый даун по итогам розыгрыша 4-ой попытки.
Эти события статистически зависимы, будем использовать формулу Байеса. Задача может быть описана и в терминах обычной теории вероятности (и даже сведется к ней), но для того, чтобы показать полноту зависимостей вероятностей, будем использовать теорему Байеса.
Событиями в правой части неравенства являются пропущенный тачдаун и занесенный тачдаун по итогам двух владений, а так же количество ярдов, на которое наша команда отодвинет соперника при панте. Последнее событие (ярды, на которые будет отодвинута линия скриммиджа после панта) мы примем за константу и возьмем среднее значение из статистики. Таким образом, эти события статистически независимы, поэтому будем использовать здесь обычные безусловные вероятности.
Розыгрыш 4-ой попытки
Вероятность занести тачдаун при решении играть 4-ую попытку, или P(A), зависит от того, будет ли успешной 4-ая попытка. А так же зависит от того, как успешно наша команда реализует ситуацию первого дауна, на конкретном участке поля, в тачдаун. Эти вероятности полностью описывают все возможные исходы, и самое удобное, могут быть взяты из накопленной (для собственной команды) статистики:
P(X): статистическая вероятность пройти j ярдов за одну попытку,
P(A|X): статистическая вероятность занести тачдаун с i-того ярда поля (из ситуации 1-10).
Здесь мы пренебрегаем возможными набранными ярдами на 4-ой попытке и для простоты принимаем i как текущую отметку второго маркера.
Переходя к терминам теоремы Байеса мы полагаем P(A|X) апостериорной вероятностью при условии события X, а P(A) полагаем искомую априорную вероятность.
Таким образом базовая формула теоремы Байеса:
где P(X|A) - это вероятность реализовать 4-ую попытку при условии, что наша команда занесет тачдаун, а это, согласно здравому смыслу, равно единице. Таким образом, наша искомая априорная вероятность:
В итоге P(A) мы считаем простым перемножением вероятности пройти j ярдов на вероятность занести с i-того ярда из ситуации 1-10. Обе вероятности берем из статистики.
Вероятность пропустить тачдаун при решении играть 4-ую попытку, или P(B), - это сумма двух априорных вероятностей:
P(Y): вероятности пропустить тачдаун при неудачном розыгрыше 4-ой попытки (с места её розыгрыша, из ситуации 1-10 для атаки соперника). Причем вероятность неудачного розыгрыша 4-ой попытки равен 1 - X.
P(Z): вероятности пропустить тачдаун в случае удачного розыгрыша 4-ой попытки, например, при смене владения на следующих драйвах и даже после нашего тачдауна в ответном владении с возврата начального удара.
Эти две вероятности априорные, то есть мы должны учесть вероятность удачного розыгрыша 4-ой попытки. То есть в случае неудачного розыгрыша 4-ой попытки:
и в случае удачного розыгрыша 4-ой попытки:
Для упрощения, примем за P(Z|X) простую статистическую вероятность пропустить тачдаун после пробития начального удара. Еще немного упрощая мы можем свести вероятность пропустить после начального удара к вероятности пропустить с 30 + k ярдов, то есть с места, куда мы в среднем отдвигаем пантом с места пробития начального удара.
Эти вероятности полностью описывают все возможные исходы, и самое удобное, могут быть взяты из накопленной (для собственной команды) статистики.
Таким образом, опять же использую теорему Байеса:
А общий ущерб (мы ведь находимся уже в уязвимой ситуации при игре 4-ой попытки и считаем, в каком случае ущерб будет меньшим) от решения играть 4-ую попытку:
Смысл выражения сводится к подсчету разницы вероятных тачдаунов за два владения.
Пант
При розыгрыше панта мы фактически отказываемся от своей попытки (из двух рассматриваемых нами) и подсчет сводится к вероятному ущербу при игре нашей команды в защите.
Для этого нам нужно знать откуда соперник начнет свое владения и вероятность пропустить тачдаун. Для упрощения вероятность занести тачдаун при владении соперника (пик-сикс) будем считать равно нулю. Таким образом P(D) = 0.
Альтернативно можно взять это значение из статистики
Для упрощения мы будем считать, что наша команда при панте отодвигает соперника на одно и то же, среднее расстояние. Итак, из накопленной статистики мы берем:
k: среднее количество ярдов, на которое наша команда отодвигает соперника пробитием панта с учетом возврата,
P(С): статистическая вероятность пропустить тачдаун с i+k ярда поля (из ситуации 1-10).
Стоит обратить внимание, что P(С) берется для i+k ярда, то есть для текущей позиции на поле плюс среднее количество ярдов после панта.
Итог
Для принятия решения о том, стоит ли играть 4-ую попытку или пробивать пант надо сравнить возможный ущерб (с учетом и возможной пользы) от первого решения и возможный ущерб от второго. Причем, все данные мы можем взять из накопленной статистики. К тому же внимательный читатель заметит, что P(Y|(1-X)), P(Z|X) и P(C) суть одно и то же, только берутся для разных i или позиций на поле.
Таким образом, имея статистику розыгрышей собственной команды и указав текущее положение команды на поле перед 4-ой попыткой (количество ярдов до первого дауна и положение линии скриммиджа) можно оценить шансы и выбрать наиболее эффективный исход.
Для демонстрации идеи я написал скрипт в jupiter notebook, где можно поиграться с показателями и положением на поле, плюс графики, показывающие распределение шансов в случае панта или игры 4-ой попытки.
Надеюсь, тема не настолько ультра узкая, чтобы вообще никому не была полезной. Но для себя было интересно поупражняться в практическом, до почвенного уровня, применении Байесовских моделей. Если где-то ошибся - пишите, внесу изменения или дополнения в статью.
Копирайт на обложку
Картинка обложки взята здесь: Design вектор создан(а) freepik - ru.freepik.com
sunsexsurf
Правильно ли считать не «общее» среднее количество ярдов, которое проходит команда за попытку, а «среднее именно с этим соперником»? И да, оч круто все. Фактически, «вешаем камеру над полем -> детектим наших ребят -> считаем, на сколько ярдов они в среднем прогуливаются (среднее, наверное, можно пересчитывать после каждой атаки (попытки). А можно усеченное или медиану брать. А можно и как-то еще „чистить“, не суть) -> в онлайне выводим результаты.
Stepik Автор
Да, так правильнее. Либо кластеризовать соперников по стилю игры и брать статистику кластера. Действительно. от качественной статистики зависит гораздо больше. Но это уже за пределами самого байеса.
На счет сбора статистики, в том числе в реальном времени, сейчас специальные люди этим занимаются. Все еще)