Теорема (формула) Байеса позволяет выяснить вероятность события при условии, что произошло связанное с ним другое событие.
Теорема позволяет рассчитать вероятность события, если причину и следствие поменять местами. Например, мы знаем распространенность симптома среди больных и здоровых. Значит, мы можем вычислить вероятность заболевания от наличия симптома.
P(A|B) означает условную вероятность события A, если произошло событие B. P(A) - вероятность события A (гипотеза). P(B) - вероятность события B.
Вероятность события может быть от 0% до 100% (или от 0 до 1). Если обозначим событие буквой A, то вероятность этого события (A) будет P(A). Например, на шестигранном кубике ???? 6 граней и вероятность выпадения любого числа одинакова, поэтому вероятность выпадения любого числа будет 1/6 (или 0.166..; или 16,66..%). P(1)=P(2)..=P(6)=16.66..%. Сумма же вероятностей всех (несовместимых) событий будет 100% (или 1).
На примере коробок с шариками
Допустим, у нас есть две коробки: желтая и зеленая. В каждой коробке лежат шарики: красные и синие. В желтой коробке 1 синий шарик и 1 красный, в зеленой - 6 синих и 2 красных. Если мы вслепую достали красный шарик, то из какой коробки он вероятнее всего?
Вероятность (вслепую) достать синий шарик (C) из желтой коробки (Ж) будет P(С|Ж) = 50%. Рассчитывается как количество синих шариков в коробке, деленное на общее количество шариков в коробке. 1/2 = 0.5 или 50%. Аналогично для красных шариков (К) и зеленой (З) коробки: P(К|Ж) = 1/(1+1) = 50%; P(C|З) = 6/(6+2) = 75%; P(К|З) = 2/(6+2) = 25%.
Если мы достанем случайный шарик, то в зависимости от цвета шарика мы можем вычислить вероятность того, из какой коробки мы его достали (по формуле Байеса). P(Ж|С) - вероятность желтой коробки при синем шарике; P(Ж|К) - желтой при красном и т.д.
Всего шариков в обеих коробках (N) = 1+1+6+2=10. Всего в желтой коробке (Ж) = 1+1=2 шарика, в зеленой (З) = 2+6=8 шариков. Вероятность, что случайный шарик будет из желтой коробки будет P(Ж) = 20%; из зеленой P(З) = 80%.
Всего красных шариков (К) = 1+2=3, синих (С) = 1+6=7. Если мы достаем шарик из общей кучи (т.е. независимо от коробки), то вероятность того, что он будет красным, P(К)=30%; синим P(С)=70%.
Если мы не видели, из какой коробки достали шарик, то по цвету шарика мы можем определить вероятность той или иной коробки по формуле Байеса. Например, вероятность, что красный шарик был из желтой коробки.
P(Ж|К) = P(К|Ж) * P(Ж) / P(К) = 0.5 * 0.2 / 0.3 = 0.333..% = 1/3. Значит, если мы достанем красный шарик, то вероятность, что он из желтой коробки - 1/3.
Т.к. в сумме Р(Ж|К)+Р(З|К) = 1, т.к. вероятность, что красный шарик либо из красной либо из зеленой коробки 100%, то вероятность красного шарика из зеленой коробки:
P(З|К) = 1 - Р(Ж|К) = 1 - 1/4 = 3/4 = 66.6..%.
Для синего шарика из желтой и зеленой коробки:
P(Ж|С) = P(С|Ж) * P(Ж) / P(С) = 0.5 * 0.2 / 0.7 = 0.0,1428.. = 14% = 1/7.
P(З|С) = 1-1/7 = 6/7 = 85.71..%.
Или по формуле:
P(З|С) = P(С|З) * P(З) / P(С) = 0,75 * 0,8 / 0,7 = 0,8571 = 85.71..% = 6/7
Можно рассмотреть это так: всего синих шариков - 7, из них 6 в зеленой коробке (6/7) и 1 шарик в желтой (1/7). Всего красных - 3, из них 1/3 в желтой и 2/3 - в красной. Значит, если мы достанем красный шарик, то вероятность, что он из желтой будет выше, чем для синего (1/3 > 1/7).
И что в этом такого?
Удивительные и контринтуитивные результаты этой формулы можно увидеть на примере теста на ВИЧ. По статистике заражения ВИЧ (в РФ за 2014 год) - 742 631 больных на 143800000 = 0.51%. (На 2022 уже 1,5 млн.) Допустим, чувствительность теста = 95%, специфичность = 97%. Т.е. вероятность ошибки теста для ложноположительного - 3%, ложноотрицательного - 5%.
Если тест на ВИЧ положительный, то какова реальная вероятность наличия болезни? Может показаться, что учитывая высокую точность теста, результат будет высоким. Однако - не совсем.
Расчет
Вероятность болезни (распространенность), P(Б) = 0,51% = 0.0051.
Вероятность оказаться здоровым, P(З) = 100% - 0.51% = 99.49% = 0.9949.
Чувствительность, т.е. вероятность положительного результата теста больного:
P(П|Б) = 95%; Отрицательный у больного Р(О|Б) = 1 - 0.95 = 0.05 = 5%.
Специфичность, т.е. вероятность отрицательного результата теста здорового:
P(О|З) = 97%, положительного теста у здорового Р(П|З) = 1 - 0.97 = 0.03 = 3%.
Вероятность наличия болезни при положительном тесте:
P(Б|П) = P(П|Б) * P(Б) / P(П).
P(П) рассчитывается по формуле полной вероятности. Как сумма вероятностей положительного теста для больного и здорового. Полная вероятность положительного теста:
Р(П) = P(П|Б) * P(Б) + P(П|З) * P(З) = 0.95 * 0.0051 + 0.03 * 0.9949 = 0.03469
P(Б|П) = P(П|Б) * P(Б) / P(П) = 0.95 * 0.0051 / 0.03469 = 0.1396 = 14%.
Для расчета вероятности болезни при повторном положительном тесте мы используем ту же формулу, но заменяем P2(Б) на P(Б|П) из предыдущего расчета.
P2(З) = 1 - Р2(Б) = 1 - 0.1396 = 0.8604
P2(П) = P(П|Б) * Р2(Б) + P(П|З) * P2(З) = 0.95 * 0.1396 + 0.03 * 0.8604 = 0.1584
P2(Б|П) = P(П|Б) * P2(Б) / P2(П) = 0.95 * 0.1396 / 0.1584 = 0.8372
Вероятность наличия ВИЧ при положительном тесте будет всего лишь около 14%, что явно является контринтуитивным результатом. В этом случае необходимо сдать повторный тест, но даже при повторном тестировании, вероятность будет лишь около 83%.
Дело в том, что сама вероятность наличия болезни крайне низкая, а шанс оказаться здоровым - высокая, поэтому даже небольшая неточность в тесте может сильно исказить результат. Если бы тест был на 100% точным - такого бы не произошло. Но на 100% мы можем быть уверены лишь в том, что мы ни в чем не можем быть уверенны на 100%.
По аналогии с шариками в коробках - положительный результат - красный шарик, синий - отрицательный. Желтая коробка - болен, зеленая - здоров.
Изучение болезней и частотная интерпретация
Допустим, мы изучили 17 пациентов. У каждого из них мы обнаружили наличие некой болезни (А) и определенных симптомов (B). 17 - это очень маленькая выборка для статистики, но достаточно для примера.
Данные занесены в таблицу, где 1 - положительный результат, 0 - отрицательный. Там же рассчитали общее количество (N), количество положительных результатов (+), вероятность (P), наличие симптомов у больных (B|A), у здоровых (B|!A); отсутствие симптомов у больных (!B|A) и у здоровых (!B|!A). Восклицательный знак значит "не", т.е. "!A" значит "не болен".
В столбце (B|A) мы учитываем лишь те значения (B), где (A)=1. В столбце (B|!A) те, где (A)=0. И т.д.
Таблица
№ |
A |
B |
B|A |
!B|A |
B|!A |
!B|!A |
1 |
0 |
0 |
0 |
1 |
||
2 |
1 |
1 |
1 |
0 |
||
3 |
1 |
1 |
1 |
0 |
||
4 |
0 |
0 |
0 |
1 |
||
5 |
1 |
1 |
1 |
0 |
||
6 |
0 |
0 |
0 |
1 |
||
7 |
1 |
1 |
1 |
0 |
||
8 |
0 |
0 |
0 |
1 |
||
9 |
0 |
0 |
0 |
1 |
||
10 |
0 |
1 |
1 |
0 |
||
11 |
1 |
0 |
0 |
1 |
||
12 |
0 |
1 |
1 |
0 |
||
13 |
0 |
0 |
0 |
1 |
||
14 |
1 |
1 |
1 |
0 |
||
15 |
1 |
1 |
1 |
0 |
||
16 |
0 |
0 |
0 |
1 |
||
17 |
0 |
1 |
1 |
0 |
||
N |
17 |
17 |
7 |
7 |
10 |
10 |
+ |
7 |
9 |
6 |
1 |
3 |
7 |
P |
41.18% |
52.94% |
85.71% |
14.29% |
30.00% |
70.00% |
На основе этих данных можно составить частотную диаграмму. Это дерево, которое отражает вероятность того или иного исхода как вес ребра (стрелка с числом). Так же можно составить дерево с корнем из наличия симптома (обратное дерево).
Из этих данных уже можно рассчитать и вероятность наличия болезни если есть симптом, или P(A|B) = P(B|A)*P(A)/P(B)=0.8171*0.4118/0.5294=0.6355. Т.е. 63,55%.
Подобным образом изучались так же и симптомы COVID-19. Там же можно взглянуть и на древовидные диаграммы частотной интерпретации.
Заключение
Постарался изложить материал максимально доступно. Есть так же расширенная форма (с оценкой нескольких событий от события B), байесовская интерпретация с гипотезой априорной вероятности и подстановкой апостериорной вероятности, степенью доверия к гипотезе и т.д. Но в целом основные моменты раскрыл без лишних усложнений.
Комментарии (24)
agp88
05.06.2023 10:28+6Уже не в первый раз делаю попытку "подхода" к теории вероятности, и каждый раз она оканчивается неудачей. Сегодня вы "потеряли" меня вот здесь:
Если P(С|Ж)=Р(К|Ж)=1/2=50%, почему тогда Р(С|З)=60%, а Р(К|З)=20%? Ведь всего в зеленой коробке 8 шариков, из них 6 синих, 2 красных. Т.о., вероятность достать синий шар из зеленой коробки 6/8=0.75, а красный из неё же - 2/8=0.25?
ildarin Автор
05.06.2023 10:28+4Досадная оплошность. Т.к. не использовал эти значения в формуле - пропустил. Исправил.
saga111a
05.06.2023 10:28Контринтуитивны тесты когда люди рассматривают себя "либо болен либо нет". Но начинается махинация в сознании людей когда процент 14 и 42.
Вообще интересно, кто-то проводил исследования, такое ли соотношение получается, или на выборку накладывается еще другие вещи.Вероятность наличия ВИЧ при положительном тесте будет всего лишь около 14%, что явно является контринтуитивным результатом. В этом случае необходимо сдать повторный тест, но даже при повторном тестировании, вероятность будет лишь около 42%.
Тут бы актуальные и прискорбные данные в 1.5млн больных в РФ, в 2022 году.По статистике заражения ВИЧ (в РФ за 2014 год) - 742 631 больных на 143800000 = 0.51%.
ildarin Автор
05.06.2023 10:28Да, в РФ эпидемия ВИЧ, на 5ом месте по темпу заражения, поэтому и обратил на это внимание в статье. Однако же, возможно что и лучше выявлять стали.
Я не смотрел данные реальных исследований по этому поводу, так что хз; но по формулам выходит - что так, если я не ошибся. Пишут, что в среднем тесты на ВИЧ точны на 95-99.9%.
Контринтуитивны тесты когда люди рассматривают себя "либо болен либо нет". Но начинается махинация в сознании людей когда процент 14 и 42.
Вот тут не совсем понял. Болен, но на половину или что?
saga111a
05.06.2023 10:28Вот тут не совсем понял
Это я про отрицание, такие моменты отличный повод отрицать. Встречал людей, вроде как образованных и интеллегентных, которые будучи пойманы на совершении асоциальных действиях уходят в отрицание. Причем не врут, они реально начинают считать что не делали, что это не они.
С вич та же похоже ситуация, когда психика не здоровая начинается отрицание с поиском любой причины.
Refridgerator
05.06.2023 10:28+1А в РФ действительно рост именно ВИЧ, а не количества ложно-положительных тестов?
ildarin Автор
05.06.2023 10:28+1Я не доктор, но насколько я знаю - расчет подтвержденных случаев. Проблема в том, что РФ не поставляет данные о ВИЧ в ООН с 2018 года, из-за этого оценки сильно разняться. 850к от Минздрава на 2022 год и 1,5млн от ЮНЭЙДС и 1,1 млн. в Роспотребнадзоре. Но рост в 50 тыс. новых случаев согласуется, Минздрав списывает это на рост количества тестов.
Занятно, что в РФ при гетеро контактах заражение 67,5%, при гомо - 2,5%, а при употреблении наркотиков - 28,3%. Пруф.
Refridgerator
05.06.2023 10:28Но ведь медицинского теста на гомо нет, как они узнали? Если просто спросили, то человек мог просто не захотеть в таком сознаваться, особенно если спрашивали без детектора лжи. С наркоманами проще, их видно и без анализов по следам от уколов.
ildarin Автор
05.06.2023 10:28Детектора лжи не существует. Да, возможно, что респондент соврал, я хз как они проверяли. Если, например, в статистике учитывали только тех, кто привел своего зараженного партнера, то точность зависит от соотношения тех, кто привел от тех, кто не привел.
В любом случае ксенофобия и стигматизация определенных групп населения ведет к ухудшению научно-медицинских результатов со всеми вытекающими. Например, что по научным данным медицинских учреждений РФ - гетеросексуальный секс ведет к распространению ВИЧ.
Lexakr
05.06.2023 10:28+1Продолжая тему с тестами, думаю, будет интересно посмотреть здесь обратную вероятность - получить отрицательный тест, но быть инфицированным ВИЧ.
Не буду расписывать (все по аналогии), вероятность наличия болезни при отрицательном тесте - 0.02%, что уже намного более приятное число, нежели 5% вероятности ложноотрицательной.
Пересчитаем на актуальных данных (чувствительность 100(99)%, специфичность 99%, доля инфицированных от населения 1.04%). Получится вероятность достоверности положительного теста 51% (при повторном - 99%) и достоверности отрицательного 0.01%.
under_taker_bs
05.06.2023 10:28Я чего то не понимаю но формулу расчета для первого теста Волфрам математика высчитывает так
А по формуле для второго теста он выдает ответ как у вас.
Что еще больше вводит в ступор - откуда взялось число 0.509 в качестве значения для Р(П|Б)?
ildarin Автор
05.06.2023 10:28Не правильный расчет был. Исправил (вроде бы :)). Чувствительность теста отражает П|Б и О|Б, т.к. зависит только от больных.
Refridgerator
05.06.2023 10:28+1Вероятность наличия ВИЧ при положительном тесте будет всего лишь около 14%. В этом случае необходимо сдать повторный тест, но даже при повторном тестировании, вероятность будет лишь около 83%.
Не понятен один момент. Сколько раз нужно сдать повторных анализов на ВИЧ для обретения 100% уверенности?ildarin Автор
05.06.2023 10:28100% уверенность невозможна в принципе. 100% истинности есть лишь у аксиом, в реальном мире это практически не достижимо. Но я в этом не уверен на 100%)
Реальные тесты имеют погрешность в 0.01%, так что два теста дадут 99% - этого вполне достаточно КМК.
Например, мы измеряем длину, получается 1см. Но это не точно, т.к. есть еще миллиметры. Допустим, 1см и 2мм. Но есть еще и нанометры. Тогда выходит длина 10203652 нанометров. Но есть еще и пикометры, и т.д. до Планковской длины. А там уже выйдет опять погрешность из-за принципа неопределенности.
Refridgerator
05.06.2023 10:28Но они же разными могут быть. Например первые два положительные, третий отрицательный. Существует же вероятность двух ложно положительных тестов подряд, если они сделаны одним и тем же человеком в одних и тех же условиях?
ildarin Автор
05.06.2023 10:28Существует. Но это крайне малая вероятность. Можно даже рассчитать вероятность того, что будут 2 положительных и третий отрицательный. Думаю, шанс где-то 1 к триллиону. Но нет ничего невозможного, лишь маловероятное.
Refridgerator
05.06.2023 10:28А мне кажется может быть не такой уж и малой, если ложно-положительные результаты вызваны плохой стерилизацией после предыдущего, действительно больного пациента. Ну и в целом — теория вероятностей же независимые испытания моделирует, а здесь зависимостей куча.
ildarin Автор
05.06.2023 10:28Конечно. Но это уже из управления рисками, что тоже имеет в основе своей математическую модель, основанную на теории вероятности. В ТК РФ есть даже понятие профессиональный риск.
Если дополнить формулу точными данными риска плохой стерилизации и т.д. до бесконечности - то и результат можно получить бесконечно точный.
Ну и в статье, в диаграмме симптомов ковид-19 есть значение ошибки Error внизу. Так что погрешности и ошибки тоже следует учитывать.
yatanai
05.06.2023 10:28>Но это крайне малая вероятность.
Сказал как-то физик строя ядерный реактор, забыв какое число атомов содержится в стержне урана...
xi-tauw
4 года назад мне подарили футболку, надо бы поискать.