Всем привет! Сегодня я хотел бы рассказать про метод максимального правдоподобия и информацию Фишера и еще несколько смежных тем, которые активно используются в машинном обучении и анализе данных. Расскажу я об этом просто, понятно и без воды, но с практическими примерами, в том числе на Python.
Сейчас я кратенько и водянисто расскажу о проблематике, а потом перейдем непосредственно к теме. Обещаю всю воду оставить исключительно здесь)
Итак, в свое время, на осознание метода максимального правдоподобия и информации Фишера я потратил достаточно большое количество времени и усилий, так как все, что находилось по этой теме в Интернете, было очень скомкано, намешано, лишено практического смысла и, ну, просто как-то фрагментировано. На данный момент, ситуация не сильно поменялась (если это не так, буду рад увидеть материалы в комментариях). Тем не менее, в конце статьи я оставлю дополнительные материалы, которые раскрывают то, что описано в статье либо глубже, либо компактнее, либо с другой стороны.
В данной статье я постараюсь изложить информацию таким образом, чтобы даже относительно малоподготовленный читатель смог понять как все устроено и работает на практике, и так, как предпочел, чтобы тему объяснили мне, то есть предоставлю инструментарий, объясню как им пользоваться в разных ситуациях и покажу это на практике.
Все же, некий бэкграунд у читателя должен быть:
средний уровень статистики, в целом;
дискретные и непрерывные распределения;
смысл производных первых двух порядков;
простейшие преобразования векторов и матриц;
свойства логарифмов;
понимание смысла пределов и асимптотики.
На этом, вроде бы, все, присаживайтесь поудобнее, заварите кофейку и достаньте печеньки, нам предстоит интересный путь.
P.S. Я достаточно формальный человек, но хотел бы написать эту статью на максимально понятном языке для простоты восприятия и нивелирования эффекта отторжения. Так что не бросайтесь камнями, формальщины в Интернете как раз-таки полно. С другой стороны, после скроллинга, не пугайтесь обилием формул, большинство из них относятся к разделу с примерами.
Содержание
Введение
В современном мире анализа данных и машинного обучения статистические методы занимают центральное место в построении надёжных и интерпретируемых моделей. И здесь как раз крайне важными темами являются метод максимального правдоподобия и информация Фишера, которые вместе образуют теоретическую и практическую базу для оценки параметров, анализа неопределённости и построения доверительных интервалов в широком спектре приложений.
Метод максимального правдоподобия (ММП) является фундаментальным подходом, предназначенным для получения оценок параметров, обладающих оптимальными асимптотическими свойствами (Свойства оценок правдоподобия) при соблюдении регулярных условий (Условия регулярности). Вся мощность данного метода проявляется в задачах, где минимизируются показатели ошибок вроде MSE, MAE, logloss, Huber loss и другие. Также, с помощью ММП мы можем оценить какое распределение лучше описывает наши данные. Для этого необходимо оценить параметры обоих распределений с использованием данного метода и сравнить значения функции правдоподобия.
Информация Фишера позволяет количественно оценить, насколько данные «информативны» относительно неизвестных параметров, то есть насколько много они содержат в себе информации. Данный показатель служит основой для определения асимптотической дисперсии оценок, полученных методом максимального правдоподобия. Этот показатель критически важен при анализе чувствительности моделей, построении доверительных интервалов и проведении гипотез тестирования, что достаточно актуально при работе с алгоритмами классификации и регрессионными задачами.
Хотел бы подчеркнуть, что по ходу статьи я буду ссылаться на условия регулярности, но каждый раз расписывать их не буду, а размещу их, вместе со следствиями и подробным разбором в конце статьи в разделе Условия регулярности статистической модели. Если хотите, можете подробно с ними ознакомиться там, однако понимание всех условий скорее вишенка на торте, а не крайняя необходимость, так что решайте сами. В любом случае, я там все расписываю достаточно понятным языком шаг за шагом.
Метод максимального правдоподобия
Теория
Правдоподобие (likelihood function) — это вероятность получить наблюдаемую выборку при конкретном значении параметра.
Оценка максимального правдоподобия — значение параметра, которое максимизирует правдоподобие.
Интуиция метода заключается в том, что существует некая генеральная совокупность, из которой к нам в руки попала некоторая выборка. Мы же, как исследователи, хотим понять каким образом устроена генеральная совокупность. Для этого мы делаем предположение, что выборка, которая к нам пришла, соответствует определенной модели. В простейшем случае, мы можем сформулировать предположение так: выборка к нам пришла из распределения с плотностью . Параметр
является константой, мы его не знаем и пытаемся оценить по выборке.
Поясню, чтобы не путаться в обозначениях, что под может подразумеваться как один, так и несколько параметров, то есть:
Если у нашей модели один параметр, он обозначается как
, где
— скаляр.
Если у модели несколько параметров, они тоже обозначаются как
, где
— вектор.
Но причем тут "максимальное" правдоподобие? Дело в том, что главная задача ММП заключается в том, чтобы максимизировать вероятность появления имеющейся выборки по параметру . То есть мы пытаемся оценить
так, чтобы вероятность получить текущую выборку из определенной модели была максимальной.
Ключевым понятием данного метода является функция правдоподобия, поэтому давайте выпишем ее математическую постановку. Строго говоря, если мы работаем с дискретным распределением, тогда постановка будет следующей:
если же речь идет о непрерывном распределении, тогда:
При этом, если выполняется условие независимости выборки, тогда мы можем разделить функцию плотности непрерывного распределения на маленькие множители:
Хорошо, но какое значение параметра более правдоподобно, а какое менее?
С этим все крайне просто. Говорят, что значение параметра более правдоподобно, нежели значения параметра
, если выполняется условие:
Таким образом, вспоминая, что ключевой задачей является максимизация правдоподобия приходим к следующей постановке:
Более формально это записывается как:
Здесь под MLE подразумевается maximum likelihood estimation, то есть оценка максимального правдоподобия.
Теперь, когда у нас имеется постановка, ммы можем приступить к поиску той самой оптимальной оценки. Однако, для начала, давайте поймем, что, на самом деле, максимизация функции равносильна максимизации натурального логарифма от нее. В свою очередь, полученный натуральный логарифм максимизировать гораздо проще, потому что по свойствам логарифма произведения превращаются в суммы, а с суммами работать намного удобнее. Таким образом, давайте откорректируем постановку:
Итак, далее, чтобы решить данную задачу, мы должны взять производную от функции максимального правдоподобия и найти соответствующий экстремум. Математически, мы можем записать это следующим образом:

В целом, первый этап пройден! Возможно, на данный момент, интуиция все еще не совсем ясна, но ниже я опишу по-этапно алгоритм решения и приведу несколько наглядных примеров с дискретным и непрерывным распределениями.
Полная схема
Теперь, когда мы изучили постановку задачи, давайте строго сформулируем алгоритм действий, а затем испытаем его на двух примерах.
-
Определяем функцию плотности:
-
Формулируем функцию правдоподобия:
-
Сокращаем функцию и устанавливаем параметры для максимизации:
-
Логарифмируем функцию правдоподобия :
-
Дифференцируем функцию правдоподобия по параметру
:
-
Приравниваем к нулю и ищем решения:
Пример с непрерывным распределением
Теперь, переходя от теории к практике, давайте посмотрим на несколько примеров. Один из них будет для дискретного случая, а другой — для непрерывного. Суть примеров будет заключатся в том, что мы попытаемся найти оценку параметров распределений методом максимального правдоподобия.
Для первого примера возьмем нормальное распределение, которое имеет 2 параметра: и
. Убедимся, что
, а
. Таким образом, параметр
будет представлять из себя вектор.
-
Определяем функцию плотности:
-
Формулируем функцию правдоподобия:
-
Сокращаем функцию и устанавливаем параметры для максимизации:
-
Логарифмируем функцию правдоподобия:
-
Дифференцируем логарифмическую функцию правдоподобия по параметру
:
-
Производная по
:
-
Производная по
:
-
-
Приравниваем к нулю и ищем решение:
-
Получаем решение:
Таким образом, мы приходим к тому, что привычные нам формулы для нахождения оценочных среднего и дисперсии являются оптимальными с точки зрения ММП.
Пример с дискетным распределением
Следующий пример будет раскрывать принцип работы ММП с дискретным распределением, а именно с распределением Бернулли.
Допустим, что у нас есть некоторая выборка наблюдений о том, любит ли человек кофе или нет. В данном случае, вариант ответа “Люблю кофе” — 1, а “Не люблю кофе” — 0. Респонденты были опрошены независимо. Таким образом, наша выборка имеет следующий вид: ,
,
,
,
.
Давайте построим таблицу вероятностей, которая будет выглядеть следующим образом:
Таким образом, нашей задачей здесь является найти ML-оценку (maximum likelihood) для параметра .
-
Приступим к простейшим преобразованиям (здесь шаги 1-3 объединены для краткости):
-
Прологарифмируем выражение:
-
Теперь нам необходимо найти производную по
:
-
Далее над
появляются колпачки (не забываем про это), так как мы приступаем к оцениванию параметра:
-
Пользуясь простейшими преобразованиями получаем следующее решение:
Вот и все! Неплохая получилась история: интересная, весёлая, порой немного грустная, а главное поучительная...
©️ Огузок
А мы двигаемся дальше к информации Фишера)
Информация Фишера
Одним из важнейших аспектов является то, как функция правдоподобия ведет себя вблизи точки максимума, то есть в ее окрестностях. Например, в окрестностях точки максимума функция может быть плоской, тогда, при перемещении вдоль функции в ее окрестностях, правдоподобие не будет меняться. Такая ситуация будет нам говорить о том, что текущая выборка предоставляет мало информации о значениях параметров.
В идеале, нам хочется, чтобы функция правдоподобия была выпуклой и очень острой, чтобы максимум был как можно более ярко выраженным. Считается, что чем более очевиден максимум функции, то есть чем более он выражен, тем больше выборка содержит в себе информации о параметрах модели. При увеличении количества наблюдений (то есть размера выборки), мы накапливаем информацию, что напрямую влияет на пикообразность функции правдоподобия.
За выпуклость функции, как известно из математического анализа, отвечает вторая производная. В статистике, вторая производная от функции правдоподобия называется наблюдаемой информацией Фишера.
Информация Фишера — это мера того, сколько информации наблюдаемые данные содержат о неизвестном параметре модели.
Представьте, что у вас есть две связанные между собой величины, например, рост и вес человека. Зная рост, можно примерно предсказать вес, и наоборот. То есть одна величина несет информацию о другой. Информация Фишера позволяет измерить, насколько много информации одна величина дает о другой.
Далее приведенные формулы будут подразумевать выполнение условий регулярности 1-5, которые на практике выполняются почти всегда. Плюс ко всему, на практике проще оценить информацию Фишера вторыми производными. А с канонической постановкой информации Фишера можно ознакомиться в Следствии №2 в Условия регулярности.
-
Наблюдаемая информация Фишера (Observed Fisher information) — это информация о параметре
, которую несет конкретная реализация
случайной величины
. Она вычисляется по формуле:
Помним, что функция правдоподобия раскрывается и подставляются конкретные
. Таким образом,
— это конкретное наблюдаемое значение случайной величины
.
Если же требуется оценить несколько параметров модели, формально говоря, вектор параметров, тогда информация Фишера будет представлена матрицей Гессе (гессианом).
Важно понимать, что употребляя в формулах
(гессиан), мы должны интерпретировать это как многомерный случай.
-
Ожидаемая/Теоретическая информация Фишера (Expected Fisher information) — это среднее количество информации, которое случайная величина
дает о неизвестном параметре
некоторого распределения. Так, если мы хотим взять не наблюдаемую, а теоретическую информацию, тогда нам необходимо взять математическое ожидание от гессиана, такая матрица будет называться информационной матрицей Фишера:
Смысл этой формулы в том, что информация тем больше, чем сильнее
меняется при изменении параметра
. Вторая производная логарифма как раз измеряет эту чувствительность. Соответственно, такую величину следует интерпретировать как крутизну функции правдоподобия для одного наблюдения.
Важно отметить различия:
наблюдаемая информация Фишера зависит от конкретного значения наблюдений;
ожидаемая (теоретическая) информация Фишера зависит исключительно от конкретного вида модели, подобранного для наблюдений, и отражает какую информацию вносит в правдоподобие одно наблюдение в среднем.
Теперь откатимся немного назад и с текущими знаниями проговорим пару моментов.
-
Следствием выдвинутых условий регулярности является то, что мы можем вывести формулу для информации Фишера, в двух разных вариантах, а именно:
Эта формула используется для одного теоретического наблюдения, при расчете наблюдаемой информации Фишера, знаки математического ожидания сгорают и
меняется на
.
-
Важно понимать, что теоретическая информация Фишера по всем наблюдениям это
в то время, как при подсчете эмпирической информации по всей выборке придется по-честному посчитать вторую производную от при каждом
и сложить их все, так как разные наблюдаемые значения, несут в себе разную информацию.
Таким образом, если к нам приходят наблюдения из хвостов выборки, они будут нести больше информации Фишера, чем те, что приходят к нам из средиземья. Это происходит по той причине, что наблюдения пришедшие из крайнеземья дают нам больше информации о вариативности.
На этом с информацией Фишера aka дисперсией функции счетчика у нас все) Осталось только обсудить эффективность
Неравенство Рао-Крамера
Далее, важным фактом является то, что, если функция плотности распределения удовлетворяет условиям регулярности №1-4 и является несмещенной оценкой параметра
, тогда выполняется так называемое неравенство Рао-Крамера:
И на этом моменте давайте договоримся записывать
в подобных случаях как
, а не в виде
, подразумевая многомерный случай.
Этим неравенством подразумевается, что если модель регулярная, тогда мы не сможем получить оценку со "слишком быстро" стремящейся к нулю дисперсией. В свою очередь, дисперсия оценки является некоторой мерой ее эффективности, говорящая о том, как быстро она сходится к необходимому качеству.
Важно отметить, что вне условий, выдвинутых для формулирования неравенства Рао-Крамера, существуют "сверхэффективные" оценки, чья дисперсии стремится к нулю быстрее, нежели для тех оценок, которые удовлетворяют поставленным условиям. В частности, для (равномерного распределения с неизвестным правым концом) оценка
стремится к нулю как
, в то время, как для регулярных моделей
стремится к нулю как
, то есть медленнее, по той причине, что
, где
— размер выборки.
Довольно часто можно перепутать смысл неравенства Рао-Крамера и информации Фишера. Неравенство Рао-Крамера говорит о дисперсии
(ML-оценки), а информация Фишера — о дисперсии
(функции счетчика), которая обеспечивает информативность данных.
Свойства оценок правдоподобия
Если выполнены Условия регулярности №1-6, тогда решение уравнения действительно является оценкой максимального правдоподобия. То есть, если приведенные условия выполнены, тогда наша оценка гарантировано будет максимумом, а не просто экстремумом и проверять ничего не нужно.
Непосредственно сами свойства:
состоятельность —
;
асимптотическая нормальность —
— среди всех асимптотически нормальных оценок эта дисперсия глобально самая маленькая.
асимптотическая эффективность —
— это означает, что при увеличении числа наблюдений в выборке, в пределе, дисперсия ML-оценки ложится на свою нижнюю границу, которую задает неравенство Рао-Крамера.
инвариантность — если
— непрерывная функция, тогда
оценка для
.
Тест отношения правдоподобий
Метод тестирования отношения правдоподобий позволяет сравнить, насколько хорошо данные объясняются моделью при выполнении ограничений (нулевая гипотеза ) по сравнению с моделью без этих ограничений (альтернативная гипотеза
).
Тест отношения правдоподобий заключается в том, что мы считаем по логарифмированной функции правдоподобия без ограничений и
с ограничениями. А дальше вычитаем их друг из друга и смотрим насколько большая получилась разность.
Но почему тогда "отношение", если мы вычитаем? Напомню, что работать проще с логарифмами функций правдоподобия, а после простейших преобразований с логарифмами, отношение превращается в вычитание.
Под упомянутыми в начале ограничениями здесь подразумевается фиксация одного из параметров и оптимизация по другому. Для нормального распределения мы можем зафиксировать и оптимизировать логарифмированную функцию правдоподобия по
.
Итак, переходим к алгоритм:
Формулируем гипотезы. В нулевой гипотезе задается определенное ограничение на параметры модели —
. В альтернативной параметр(ы) не ограничены, то есть принимается, что данные могут иметь иное значение параметра —
.
Формулируем функции правдоподобия для каждой из гипотез. Для гипотезы
наша функция правдоподобия будет обозначаться как
(restricted), а для
—
(unrestricted).
Подставляем значения и вычисляем результат по каждой из функций правдоподобия.
Вычисляем статистику. После того, как мы получили некоторые значения для
и
, нам необходимо вычислить интересующую нас статистик по следующей формуле
. Утверждается, что такая статистика будет иметь распределение хи-квадрат с
степенями свободы, где
— количество наложенных ограничений.
Находим критическое значение статистики на интересующим нас уровне значимости
как делаем это всегда.
Сравниваем критическое значение с наблюдаемым. Если наблюдаемое значение слева от критического —
не отвергается, что означает то, что расстояние очень мало, если наоборот, нулевая гипотеза отвергается и принимается
.
Теперь, чтобы немного попрактиковаться давайте поведем тестирование отношения правдоподобий на Python. Мы будем работать со случайной выборкой из 100 наблюдений, которая пришла к нам из нормального распределения со следующими параметрами — . Гипотеза
будет заключаться в том, что
, а
будет утверждать, что
, то есть обычному оценочному среднему. Приступим к решению:
import numpy as np
from scipy.stats import chi2, norm
np.random.seed(42)
n = 100 # размер выборки
mu_true = 0 # истинное среднее
sigma = 1 # известное стандартное отклонение
alpha = 0.05 # уровень значимости
# Генерируем выборку из нормального распределения
data = np.random.normal(loc=mu_true, scale=sigma, size=n)
# Оценка параметра при H1 (альтернативная гипотеза)
# MLE для параметра `mu` при нормальном распределении с известной дисперсией – выборочное среднее
mu_hat = np.mean(data)
# Вычисление логарифмов правдоподобия
logL_R = np.sum(norm.logpdf(data, loc=0.15, scale=sigma)) # при mu = 0.15 (H0)
logL_UR = np.sum(norm.logpdf(data, loc=mu_hat, scale=sigma)) # при mu = mu_hat (H1)
# Вычисление статистики теста: -2 * (logL_R - logL_UR)
test_statistic = -2 * (logL_R - logL_UR)
print("Статистика теста: {:.4f}".format(test_statistic))
# Вычисление критического значения для уровня значимости alpha = 0.05
critical_value = chi2.ppf(1 - alpha, df=1)
print("Критическое значение: {:.4f}".format(critical_value))
# Вычисление p-value c 1 степенью свободы, ибо мы ограничили один параметр
p_value = 1 - chi2.cdf(test_statistic, df=1)
print("p-value: {:.4f}".format(p_value))
# Принятие решения
if p_value < alpha:
print("Отвергаем H0: данные не согласуются с предположением mu = 0.15")
else:
print("Нет оснований отвергать H0: данные согласуются с предположением mu = 0.15")
Таким образом, если мы запустим приведенный выше код, то в выводе получим следующее:
Статистика теста: 6.4438
Критическое значение: 3.8415
p-value: 0.0111
Отвергаем H0: данные не согласуются с предположением mu = 0.15
Все отработало корректно. Понятно, что это крайне наивная имплементация, но для иллюстрации думаю, что более чем предостаточно.
Подытоживая, хотелось бы упомянуть, что тест на отношение правдоподобий еще крайне удобен тем, что в системе мы можем тестировать большое количество гипотез. Обычно в таких ситуациях пользуются поправкой Бонферрони или Холма для того, чтобы устранить эффект множественного сравнения. Однако в случае с тестом отношения правдоподобий корректировать уровень значимости не нужно.
Пояснение
Здесь подразумевается, что все наши ограничения мы закладываем в . Так, получается, что гипотеза
может состоять из предположений сразу о нескольких параметрах. Гипотеза
является вложенной в гипотезу
.
Таким образом, здесь подразумевается объединение нулевой и альтернативной гипотез, что формально называется множественным тестированием, но не предполагает серию.
Условия регулярности статистической модели
Условия
Условия регулярности не то, что бы обязательны к пониманию, однако очень желательны. В этом разделе я буду писать несколько суше и преимущественно в математических терминах, но постараюсь сглаживать некоторые углы и приводить максимально простые объяснения.
Важно отметить, что основных условий регулярности 4, однако есть дополнительные, которые необходимы, например, для выведения неравенства Рао-Крамера или определенных свойств ML-оценки.
Условие №1
Пояснение
То есть здесь требуется, чтобы область определения наших иксов не зависела от параметра . Например, данное условие нарушается для
(равномерного распределения с неизвестным концом).
Условие №2
Пояснение
Тут все очевидно и без комментариев, могу лишь сказать, что данное условие нарушается, например, для (распределение Лапласа с неизвестным параметром сдвига), так как внутри функции плотности
в степени экспоненты содержится модуль, который мы не сможем продифференцировать.
Условие №3
Производная для в непрерывном случае и для
в дискретном
случае может быть вычислена путем изменения порядка дифференцирования и интегрирования/суммирования.
Пояснение
Это условие самое важное из всех, потому что позволяет с помощью некоторых математических преобразований получить математическое ожидание и дисперсию для оценки максимального правдоподобия, а также помогает вывести неравенство Рао-Крамера (о нем позже).
Условие №4
Вот такая величина положительна и конечна. То есть, с точки зрения математической постановки это выглядит так:
Поянение
Позволю себе, немного забегая вперед (до Следствия №2), сказать, что эта величина является дисперсией для и по совместительству информацией Фишера. И здесь становится очевидно, что дисперсия должна быть конечной и положительной, в том числе потому, что мы будем использовать ее в знаменателе при расчете
(дисперсии оценки максимального правдоподобия).
И буквально самую малость про нулевую и "бесконечную" дисперсии, в общем:
Равная нулю дисперсия означает, что все значения в наборе данных одинаковы, то есть нет вариации или разброса данных. Причиной тому могут быть то, что все наблюдения в выборки действительно имеют одинаковое значение, или выборка слишком мала и не отражает вариативность в данных, или могла произойти ошибка при сборе или записи данных.
Типичный пример распределения с бесконечной дисперсией — распределение Коши. Сама же по себе бесконечная дисперсия означает, что теоретически разброс данных настолько велик, что дисперсия не может быть определена. И как раз для распределения Коши соответствующий интеграл расходится, что и является причиной бесконечной дисперсии. На самом деле, с точки зрения математики, выражение “бесконечная дисперсия” неверно, в таком случае уместнее говорить, что дисперсия не определена.
Условие №5 (дополнительное)
Пояснение
Это условие необходимо для того, чтобы мы могли посчитать информацию Фишера. Подробнее об этом можно прочитать в Следствии №2.
Условие №6 (дополнительное)
Пояснение
Данное условие, позволяет нам говорить о том, что оценка является асимптотически эффективной. Подробнее об этом можно прочитать в Следствии №3.
Следствия
А теперь давайте рассмотрим следствия выдвинутых условий. Самые важные из них заключаются в определении математического ожидания и дисперсии для , а также информации Фишера.
Следствие №1
Математическое ожидание формулируется следующим образом:
Подробное объяснение
Итак, для самых любознательных постараюсь разложить на атомы как мы вообще приходим к этому.
Подготовка.
В начале было слово... Ой, не то. В начале было определение функции плотности распределения . Потом мы применили некоторые математические преобразования к
для того, чтобы перейти к работе математическим ожиданием:
Поясняю, что мы сделали:
Первым шагом, мы поделили и умножили производную на одну и ту же величину.
На втором шаге, воспользовались следующим правилом дифференцирования логарифма:
Основная часть
Теперь, давайте продифференцируем функцию плотности с обеих сторон, тогда получится:
А дальше сделаем подстановку и получим:
Таким образом, мы и получаем нулевое математическое ожидание.
Следствие №2
Дисперсия функции счетчика формулируется следующим образом:
Подробное объяснение
Здесь все проще, так как у нас есть базовая формула на все случаи жизни:
Теперь давайте, произведем подстановку, тогда получится, что:
Поясню, раз, как уже выяснилось из предыдущего пункта, математическое ожидание равно нулю, то есть , тогда возводя ноль в степень мы получаем ноль и, соответственно, остается только первое слагаемое.
Эта дисперсия является информацией Фишера, которую можно выразить в двух разных вариантах:
Подробное объяснение
В начале было
и Условие №4, которое позволяет нам менять операции интегрирования и дифференцирования местами.
-
Теперь давайте продифференцируем обе части
, получим:
-
Далее, поймем, что
мы можем выразить иначе:
-
Сделаем подстановку:
-
Продифференцируем еще раз (работает Условие №5):
-
Получаем тождество из применения правила дифференцирования логарифма дважды:
-
Применяем тождество к интегралу:
-
Отсюда следует, что:
Соответственно, правое выражение у нас положительное, а левое — отрицательное, поэтому мы его делаем положительным домножая на -1. Итого, мы можем сформулировать информацию Фишера в двух выражениях:
Следствие №3
Последнее следствие касается свойств оценки максимального правдоподобия, а именно асимптотической эффективности. Для этого нам снова нужно дополнительное условие, а именно: трижды дифференцируема по
на всем множестве
.
В совокупности выполнение условий №3 и №4 гарантирует, что статистическая модель будет вести себя "хорошо" и позволит получать надежные оценки параметров и доверительные интервалы.
Заключение
Давайте подведем итоги, сформулировав ключевые тезисы:
Метод максимального правдоподобия позволяет оценить неизвестный параметр по имеющейся выборке.
Информация Фишера позволяет измерить объем информации, которую несет в себе одно наблюдение или выборка наблюдений в целом.
Тест отношения правдоподобий позволяет легко проверить гипотезу о том, что параметр или вектор параметров равны какому-то значению.
Таким образом, мы научились:
находить MLE (maximum likelihood estimation) интересующих нас параметров;
определять какая из двух оценок наиболее правдоподобна;
оценивать информативность выборки или конкретного наблюдения;
проводить тест отношения правдоподобий.
В целом, я постарался достаточно подробно разобрать данную тему, но данный материал может не покрывать всю ее глубину конкретно для вас, так что рекомендую как-нибудь на досуге ознакомиться с дополнительными материалами. Все же, к изучению сложных тем стоит подходить с разных сторон)

Буду крайне признателен фидбеку в комментариях. Например, вы можете предложить как улучшить материал/подачу. Также, если я где-то ошибся или опечатался, поправьте меня, так как БуКаВ действительно много)
Как и обещал, вот список хороших источников:
Комментарии (9)
LinkToOS
17.02.2025 05:07Информация Фишера
Не "информация Фишера", а "информация" по Фишеру. То есть в терминологии предложенной Фишером, это самое "I" в формулах можно называть "информацией". "I" - "информация". А можно не называть. Он предложил это в далеком 1922 году. И это было упомянуто в паре книг изданных еще до 1980 года.
Сейчас инфоцигане раскопали эту древнюю "информацию", и продвигают ее как модное выражение. По традиции засунули тему в Википедию, как обычно без подтверждающих источников.denisalpino Автор
17.02.2025 05:07У меня статья не по терминологии, а по конкретному мат. аппарату. Не совсем понимаю Ваших замечаний, так как от предлога "по" смысл не меняется. В рунете в 99% случаев будет встречаться "Информация Фишера", а в своей познавательной статье, я не стану поперек всему сообществу диктовать непривычные формулировки, так как это просто нелогично)
Сейчас инфоцигане раскопали эту древнюю "информацию", и продвигают ее как модное выражение
Не знаю, кто ее продвигает, но я бы был аккуратнее с выражениями, потому что под них подпадает в том числе уважаемый Райгородский, с которым никому из нас не тягаться)) Википедию тоже вроде нигде не упомянал, так как, действительно, в 2к25 в ней что-то на серьезе вычитывать, как минимум странно)
smatrosov
17.02.2025 05:07Привет! Спасибо за подробную статью.
Правдоподобие (likelihood function) — это вероятность получить наблюдаемую выборку при конкретном значении параметра.
Точно ли? По идее это вероятность значения параметра при наблюдаемых выборочных измерениях. У вас по формуле так и есть L(Teta|x_1,... x_n). При этом да, это совпадает с P(x_1,... x_n|Teta), но это не одно и тоже.
Информация Фишера — это способ количественно оценить количество информации, которое одна случайная величина содержит о другой.
Но ведь речь о параметре, а это в рамках фрейквенсистского подхода совершенно конкретная величина (fixed). Вообще, так как информация Фишера, - опуская момент про ожидамаемое значение, - это производная log(L), то речь о скорости изменчивости функции в точке, что позволяет нам сказать о форме распределения оценки параметра популяции.
Чем скорость изменчивости меньше, тем более "плоское" (flat) это распределение, а значит данные нам говорят не так уж и много о параметре; чем скорость больше, тем более распределение "заострённое" (sharp), значит данные дают уже больше (информации) о параметре. Собственно, в этом и есть смысл I.
Подытоживая, хотелось бы упомянуть, что тест на отношение правдоподобий еще крайне удобен тем, что в системе мы можем тестировать большое количество гипотез. Обычно в таких ситуациях пользуются поправкой Бонферрони или Холма для того, чтобы устранить эффект множественного сравнения. Однако в случае с тестом отношения правдоподобий корректировать уровень значимости не нужно.
Можно пруфы этого утверждения, пожалуйста?
Возможно, тут есть путаница с тем, что методы LRT применяются для последовательного тестирования (SPRT, mSRPT), которые "устраняют" проблему подглядывания. Но чтобы это решало проблему множественного сравнения - прям вопрос.
denisalpino Автор
17.02.2025 05:07Привет) Спасибо большое за развернутый комментарий!
Насчет первого твоего замечания полностью согласен, ты абсолютно прав. Может показаться, что моя текущая формулировка подразумевает
, ибо верная постановка
. Но если рассматривать данный термин более обширно, а не локально по формуле, то выходит несколько иная ситуация.
Функция правдоподобия определяется как функция параметра, при этом данные фиксированы. То есть, мы рассматриваем вероятность наблюдения конкретных данныхдля разных значений параметра
.
По поводу информации Фишера, я тебя не очень понял. Наверное, тебе не очень понравилась сама формулировка определения, потому что дальше в соседних абзацах я расписываю буквально то, что ты описал. Действительно, мое первоначальное определение информации Фишера несколько упрощено, чтобы дать какое-то наивное базовое представление. Я не особо вижу смысл как-то усложнять данное определение, но если ты можешь его уточнить так, чтобы оно осталось простым и при этом стало более фактичным, я был бы крайне признателен. Напиши, если есть идеи
-
Тут вопрос несколько сложнее и насколько я понимаю, мы тут скорее в терминологии не сошлись. Под тем, что я написал подразумевается то, что мы объединяем несколько гипотез в один тест. В таком случае, нам никакие поправки не нужны. Но тут тоже есть нюанс с условиями регулярности модели. Если они выполняются, то все ок. В целом, получается, что наша гипотеза
является вложенной в
.
Если же проводится серия отдельных тестов, то корректировку уровня значимости применять необходимо, как и всегда.То есть, насколько понимаю, тебя смутило "множественное сравнение". Если так, то как бы ты порекомендовал сформулировать мысль точнее?
По пруфам, если они все еще актуальны, прикладываю оригинальную статью с теоремой Вилкса.
Спасибо большое за проявленный интерес к статье!
smatrosov
17.02.2025 05:07По первому и ты сам ответил ниже, но да, у нас есть фиксированные данные ( = "при условии"), а далее мы оцениваем разную тету при них и смотрим, какая правдоподобнее.
Я зацепился только за "...одна случайная величина содержит о другой" случайной величине получается, ну просто по логике. Но параметр это неслучайная величина для частотного подхода, она фиксирована. На мой взгляд если давать простое определение, то это что-то вроде: "Насколько хорошо наши данные что-то говорят о параметре".
Теперь понял, ты говоришь об объединении нулевой и альтернативной гипотезе в рамках единой проверки, ну в таком случае это не то множественное тестирование, где сразу вспоминают о поправках :) формально, множественное, но в основном под ним подразумевают все таки серию, да.
Кто-то уже накинул мне минус, наверное, байесианец, но мой комментарий это не придирка, мне правда понравился твой лонгрид с выводом, просто это прежде всего замечания для других читающих. А то начнут тесты без поправок налево-направо проводить...)
denisalpino Автор
17.02.2025 05:07Да блин, сори, это я криворукий) Хотел наоборот поднять твой коммент, но мисскликнул. В поддержке сказали, что нельзя убрать дизлайк... Я тебе в качестве моральной компенсации в профиль кармы закинул)
В остальном, да, правильно друг друга поняли. А определение информации Фишера я заменил на следующее:
Информация Фишера — это мера того, сколько информации наблюдаемые данные содержат о неизвестном параметре модели.
Думаю, что так будет корректнее. По "множественному" тестированию тоже пояснение оставил.
В любом случае, еще раз благодарю за проявленный интерес и замечания))
denisalpino Автор
17.02.2025 05:07Сейчас подумал еще над первым вопросом. Возможно тут скорее дело в обозначении функции правдоподобия. Лично меня учили ее обозначать таким образом (наверное, действительно не лучший вариант). Где-то я видел
, где-то формулируют промежуточную функцию и обозначают через нее, а где-то пишут наоборот
.
Исходя из постановки, последний вариант звучит логичнее, но он повторяет функцию плотности, что тоже может путать. Я бы, наверное, остановился на варианте
, так как в функции правдоподобия ключевая цель состоит в оптимизации параметра.
Возможно есть какие-нибудь дополнения?
nikolz
С того момента, как статистические методы стали применять к реальным данным, существует проблема доказательства , что все "если", которые необходимы для применения этих методов справедливы для реальных данных.
Например, еще в прошлом веке было признано, что в реальности нормальный закон распределения данных встречается очень редко. В результате этого признания появилась теория и методы робастного оценивания.
В 21 веке, опять наступают на те же грабли. Практически нет доказательств, что реальные данные удовлетворяют все "если", даже нет попыток это проверить, но тогда остается открытым вопрос достоверности таких вычислений.
Вы этот вопрос тоже обошли молчанием в своей статье.
denisalpino Автор
В целом, соглашусь с утверждениями насчет "если", я сам достаточно скептично отношусь к их применимости в жизни аккурат так же, как это описывается в теории. Проверять все "если" на практике это отдельный сложный вопрос.
С другой стороны, можно и поспорить с неприменимостью к реальным данным перечисленных методов. Наибанальнейший пример, который я привожу, опять-таки, в самом начале — MSE, MAE и другие функции потерь, которые буквально происходят из метода максимального правдоподобия с предположением о распределении остатков. Данные функции базовые, но очень часто используются, как и производные от них. У каждой из них, действительно, есть свои недостатки в зависимости от реальных данных.
В общем, здесь речь идет не о ММП, а о статистике в целом. Можно вечно философствовать относительно того, что мат.аппарат не поспевает за инженерными науками (а машинное обучение это именно инженерия, а не математика в чистом виде, так как все, что мы делаем — аппроксимируем), но в конечном счете это не тема моей статьи. Было бы славно написать об этом еще статью, но, имхо, это лишь бесполезная рефлексия, а не реальная попытка решить проблему.
Однако, я не могу согласиться с тем, что данная тема должна раскрываться непосредственно в этой статье. Статья и без того получилась слишком длинной и нагруженной для объяснения "простыми словами".
Так что абсолютно очевидно, что цель данной статьи состоит в том, чтобы дать понимание данной темы и заинтересовать читателя в дальнейшем погружении. Именно эта цель и ставится во вступлении, и именно поэтому я дополнил статью иными источниками.
Насчет "тоже", не совсем понимаю, что Вы имеете ввиду. Если есть какая-то конкретика, перечислите по пунктам, что именно могло бы быть раскрыто в статье еще.