Байесовский вывод и метод максимизации правдоподобия в задаче о бросках монетки / forpes.ru

Главная
Байесовский вывод и метод максимизации правдоподобия в задаче о бросках монетки

Байесовский вывод и метод максимизации правдоподобия в задаче о бросках монетки +7

01.04.2022 21:43

Assistant_Branch_Manager 4 3100 Источник

Давайте представим, что мы бросаем монету и смотрим, какой стороной она выпадает — орлом или решкой. Все, что мы знаем о монете, — это то, что результаты бросков независимы, и у нас нет способа на них повлиять. Есть ли у нас способ предсказать, какой стороной выпадет монета при следующем броске?

Результат броска — это случайная величина. Если обозначить «решку» числом 0, а «орел» числом 1, то мы можем описать распределение этой случайной величины как $x \in\{0, 1\}$ . Такое распределение называется распределением Бернулли:

$p(x|{\mu}) = \mu^{x}(1-\mu)^{1-x} \text{, где } \mu \text{- это вероятность }x=1$

Математическое ожидание и дисперсия этого распределения равны, соответственно:

$E[x] = \mu$

$V[x] = \mu(1-\mu)$

Но что если мы имеем дело не с отдельным броском монеты, а с серией бросков? Известно распределение величины $inline$ — числа бросков, где $inline$ из общего количества бросков $inline$ . Данное распределение называется биномиальным распределением.

$Bin(m|\mu, N) = \binom{N}{m}\mu^m(1-\mu)^{N-m}$

где

$\binom{N}{m} \equiv\frac{N!}{(N-m)!m!}$

Так как броски монеты — это независимые события, мы можем вычислить математическое ожидание и дисперсию биномиального распределения как суммы соответствующих параметров распределения Бернулли:

$E[m] \equiv \sum_{m=0}^{N}mBin(m|\mu, N) = N\mu$

$V[m] \equiv \sum_{m=0}^{N}(m-E[m])^2Bin(m|\mu, N) = N\mu(1-\mu)$

Предсказание следующего броска

На практике параметры биномиального распределения нам неизвестны. Вместо этого нам могут быть доступны результаты серии бросков этой монеты $D = \{x_1, x_2, ...., x_N\}$

Как же мы можем использовать эти данные для предсказания результатов следующего броска?

Метод максимизации правдоподобия

Классический подход к решению этой задачи — оценить параметры распределения по выборке. В нашем случае необходимо оценить один параметр биномиального распределения — $\mu$ . Это можно сделать с помощью принципа максимизации правдоподобия. Идея этого метода — найти такое значение параметров распределения, при которых наблюдаемая выборка будет наиболее вероятной.

Поскольку броски монеты — независимые события, вероятность выборки $inline$ можно представить как произведение всех вероятностей отдельных событий из этой выборки:

$p(D|\mu) = \prod_{i=1}^{N}p(x_i|\mu) = \prod_{i=1}^{N}\mu^{x_i}(1-\mu)^{1-x_i}$

Для удобства максимизировать можно не саму вероятность выборки $inline$ , а логарифм этой вероятности. Тогда можно воспользоваться свойством логарифмирования, звучащим как «логарифм произведения равен сумме логарифмов»:

$\ln{p(D|\mu)} = \sum_{i=1}^{N}\ln{p(x_i|\mu)} = \sum_{i=1}^{N}(x_i\ln\mu + (1-x_i)\ln(1-\mu))$

Для нахождения максимума этой функции от $\mu$ , нужно взять ее производную по $\mu$ и приравнять ее к нулю:

$\frac{\partial{(\ln{p(D|\mu)})}}{\partial{\mu}} = \sum_{i=1}^{N}(\frac{x_i}{\mu} + \frac{x_i - 1}{1-\mu}) = 0$

$(1-\mu) \sum_{i=1}^{N}x_i + \mu\sum_{i=1}^{N}x_i - \mu N = 0$

$\sum_{i=1}^{N}x_i = \mu N$

$\mu = \frac{1}{N} \sum_{i=1}^{N}x_i$

Таким образом, мы получили оценку параметра $\mu$ , который и является вероятностью события $inline$ в следующем броске. Если обозначить число событий $inline$ в выборке $inline$ как $inline$ , то мы получим предсказание на основе этой выборки:

$p(x=1|D) = \frac{m}{N}$

Такое предсказание кажется разумным, однако, оно сталкивается с проблемами на небольших выборках. Что, если мы подкинули монету 3 раза, и монета трижды выпала «орлом»? По нашей оценке, вероятность в следующий раз получить «орла» равна 100%, так как $inline$ . Кажется, что такой результат противоречит здравому смыслу. Для решения этой проблемы можно перейти от частотного анализа к байесовскому подходу.

Байесовский вывод

Байесовский подход позволяет по-другому взглянуть на величины, с которыми мы работаем. В вышеуказанном частотном подходе мы предполагали, что существует «истинное» фиксированное значение $\mu$ , которое мы оцениваем по выборке из распределения с этим параметром $\mu$ . В байесовском подходе мы считаем, что параметр $\mu$ это случайная величина с неизвестным распределением. При этом у нас есть априорное знание об этом распределении, которое мы можем учитывать. А наблюдаемая выборка $inline$ позволяет получить апостериорное распределение параметра $\mu$ .

Апостериорное распределение получается умножением априорного распределения на вероятность выборки (или функцию правдоподобия). Вероятность выборки пропорциональна произведению членов $\mu^{x}(1-\mu)^{1-x}$ . Если мы выберем априорное распределение, которое также пропорционально членам этого вида, то апостериорное распределение будет иметь такую же функциональную форму, как и априорное. Это ценное свойство, которое мы хотим обеспечить.

Но как правильно выбрать априорное распределение? Описанное выше априорное распределение задается в виде бета-распределения:

$Beta(\mu|a, b) = \frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}\mu^{a-1}(1-\mu)^{b-1} \text{, где } \Gamma(x) \text{ - это гамма-функция}$

Коэффициент $\frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}$ нужен для нормализации распределения, то есть, чтобы $\int_0^1Beta(\mu|a, b)d\mu = 1$ .

Математическое ожидание бета-распределения равно:

$E[\mu] = \frac{a}{a+b}$

Для вычисления апостериорного распределения нужно умножить априорное распределение на функцию правдоподобия. Оставляя только члены, зависимые от $\mu$ , получаем, что апостериорное распределение пропорционально:

$p(\mu|a, b, m, N) \propto \mu^{m+a-1}(1-\mu)^{N-m+b-1}$

Мы получили бета-распределение $Beta(\mu|m+a, N-m+b)$ и уже знаем коэффициент для его нормализации. Теперь мы можем получить апостериорное распределение параметра $\mu$ :

$p(\mu|a, b, m, N) = \frac{\Gamma(a+b+N)}{\Gamma(m+a)\Gamma(N-m+b)}\mu^{m+a-1}(1-\mu)^{N-m+b-1}$

Здесь может возникнуть вопрос: «Какой смысл имеют параметры $inline$ и $inline$ ?». Из распределения выше видно, что это априорное представление о доле объектов $inline$ и $inline$ в выборке. Можно сказать, что каждый новый бросок монеты обновляет наше знание об этих долях и корректирует предыдущую оценку распределения параметра $\mu$ .

Теперь имея выборку $inline$ и апостериорную оценку распределения $\mu$ , мы можем проинтегрировать по этому распределению для предсказания результата следующего броска:

$p(x=1|D) = \int_0^1p(x=1|\mu)p(\mu|D)d\mu = \int_0^1\mu p(\mu|D)d\mu$

Это в точности схоже с определением математического ожидания бета-распределения $p(\mu|D)$ , значит:

$p(x=1|D) = \frac{m+a}{N +a +b}$

Такое предсказание устойчиво к маленьким выборкам. Даже если $inline$ или $inline$ в маленьких выборках, полученная оценка результата не будет вырождаться в 0% или 100% благодаря влиянию априорных значений $inline$ и $inline$ .

Связь предсказаний из байесовского вывода и метода максимума правдоподобия

Теперь давайте сравним предсказания, полученные методом максимума правдоподобия и байесовским выводом. При увеличении размера выборки предсказание из байесовского вывода стремится к предсказанию по методу максимума правдоподобия:

$\lim_{m, N->\inf} \frac{m+a}{N +a +b} = \frac{m}{N}$

Это иллюстрирует тот факт, что с увеличением размера выборки влияние априорных значений на результат снижается. Предсказание для $\mu$ , полученное байесовским выводом, всегда лежит между априорным предсказанием $\frac{a}{a+b}$ и оценкой метода максимума правдоподобия $\frac{m}{N}$ .

Иллюстрация эволюции байесовской оценки с ростом выборки

Ниже можно пронаблюдать, как меняется апостериорное распределение $p(\mu|D)$ с увеличением выборки $inline$ из распределения с заданным $\mu=\frac{1}{3}$ . В качестве априорного распределения выбрано бета-распределение $Beta(\mu|a=1, b=1)$ , то есть распределение со средним значением $E[\mu] = \frac{1}{2}$ .

Можно увидеть, что с увеличением размера выборки, $E[\mu]$ начинает двигаться от априорного значения $\frac{1}{2}$ к истинному значению $\mu=\frac{1}{3}$ . Также уменьшается дисперсия распределения $p(\mu|D)$ , указывающая на то, что оценка $\mu$ становится более «уверенной».

Список литературы

Bishop, Christopher M. Pattern Recognition and Machine Learning. New York :Springer, 2006.
Deep Learning (Ian J. Goodfellow, Yoshua Bengio and Aaron Courville), MIT Press, 2016.

Комментарии (4)

akhalat
01.04.2022 21:58
#24225061
+1
Так как броски монеты — это независимые события, мы можем вычислить математическое ожидание и дисперсию биномиального распределения как суммы соответствующих параметров распределения Бернулли:

В формуле для мат. ожидания сразу после этого абзаца, m под суммой лишняя.
Да и суммы должны идти с m=1, а не с 0.
1. Assistant_Branch_Manager Автор
  01.04.2022 22:23
  #24225105
  Спасибо, поправил, что я имел в виду. В левой части просто определения матожидания и дисперсии.
  m здесь - это количество событий x=1 в серии бросков длины N, поэтому меняется от 0 до N
  1. akhalat
    01.04.2022 23:44
    #24225229
    В самом начале у вас всё верно и логично было написано: сумма мат. ожиданий случайных величин есть мат. ожидание от их суммы, и то же самое для дисперсии, т.к. величины независимые.

YuryZakharov
02.04.2022 01:23
#24225333
+1
Все, что мы знаем о монете, — это то, что результаты бросков независимы,
и у нас нет способа на них повлиять.

Если мы не знаем, честная ли монета, то, наверное,

Есть ли у нас способ предсказать, какой стороной выпадет монета при следующем броске?

не имеет смысла, n'est-ce pas?