Теорема (формула) Байеса позволяет выяснить вероятность события при условии, что произошло связанное с ним другое событие.

Теорема позволяет рассчитать вероятность события, если причину и следствие поменять местами. Например, мы знаем распространенность симптома среди больных и здоровых. Значит, мы можем вычислить вероятность заболевания от наличия симптома.

Фрагмент из к/с "Теория большого взрыва"
Фрагмент из к/с "Теория большого взрыва"

P(A|B) означает условную вероятность события A, если произошло событие B. P(A) - вероятность события A (гипотеза). P(B) - вероятность события B.

Формула Байеса
Формула Байеса

Вероятность события может быть от 0% до 100% (или от 0 до 1). Если обозначим событие буквой A, то вероятность этого события (A) будет P(A). Например, на шестигранном кубике ???? 6 граней и вероятность выпадения любого числа одинакова, поэтому вероятность выпадения любого числа будет 1/6 (или 0.166..; или 16,66..%). P(1)=P(2)..=P(6)=16.66..%. Сумма же вероятностей всех (несовместимых) событий будет 100% (или 1).

На примере коробок с шариками

Допустим, у нас есть две коробки: желтая и зеленая. В каждой коробке лежат шарики: красные и синие. В желтой коробке 1 синий шарик и 1 красный, в зеленой - 6 синих и 2 красных. Если мы вслепую достали красный шарик, то из какой коробки он вероятнее всего?

Две коробки с шариками
Две коробки с шариками

Вероятность (вслепую) достать синий шарик (C) из желтой коробки (Ж) будет P(С|Ж) = 50%. Рассчитывается как количество синих шариков в коробке, деленное на общее количество шариков в коробке. 1/2 = 0.5 или 50%. Аналогично для красных шариков (К) и зеленой (З) коробки: P(К|Ж) = 1/(1+1) = 50%; P(C|З) = 6/(6+2) = 75%; P(К|З) = 2/(6+2) = 25%.

Условные вероятности цвета шарика в зависимости от коробки
Условные вероятности цвета шарика в зависимости от коробки

Если мы достанем случайный шарик, то в зависимости от цвета шарика мы можем вычислить вероятность того, из какой коробки мы его достали (по формуле Байеса). P(Ж|С) - вероятность желтой коробки при синем шарике; P(Ж|К) - желтой при красном и т.д.

Вероятность цвета коробки от цвета шарика
Вероятность цвета коробки от цвета шарика

Всего шариков в обеих коробках (N) = 1+1+6+2=10. Всего в желтой коробке (Ж) = 1+1=2 шарика, в зеленой (З) = 2+6=8 шариков. Вероятность, что случайный шарик будет из желтой коробки будет P(Ж) = 20%; из зеленой P(З) = 80%.

Вероятность цвета коробки всех шариков
Вероятность цвета коробки всех шариков

Всего красных шариков (К) = 1+2=3, синих (С) = 1+6=7. Если мы достаем шарик из общей кучи (т.е. независимо от коробки), то вероятность того, что он будет красным, P(К)=30%; синим P(С)=70%.

Вероятность цвета шарика из общего числа
Вероятность цвета шарика из общего числа

Если мы не видели, из какой коробки достали шарик, то по цвету шарика мы можем определить вероятность той или иной коробки по формуле Байеса. Например, вероятность, что красный шарик был из желтой коробки.

P(Ж|К) = P(К|Ж) * P(Ж) / P(К) = 0.5 * 0.2 / 0.3 = 0.333..% = 1/3. Значит, если мы достанем красный шарик, то вероятность, что он из желтой коробки - 1/3.

Т.к. в сумме Р(Ж|К)+Р(З|К) = 1, т.к. вероятность, что красный шарик либо из красной либо из зеленой коробки 100%, то вероятность красного шарика из зеленой коробки:

P(З|К) = 1 - Р(Ж|К) = 1 - 1/4 = 3/4 = 66.6..%.

Для синего шарика из желтой и зеленой коробки:

P(Ж|С) = P(С|Ж) * P(Ж) / P(С) = 0.5 * 0.2 / 0.7 = 0.0,1428.. = 14% = 1/7.

P(З|С) = 1-1/7 = 6/7 = 85.71..%.

Или по формуле:

P(З|С) = P(С|З) * P(З) / P(С) = 0,75 * 0,8 / 0,7 = 0,8571 = 85.71..% = 6/7

Можно рассмотреть это так: всего синих шариков - 7, из них 6 в зеленой коробке (6/7) и 1 шарик в желтой (1/7). Всего красных - 3, из них 1/3 в желтой и 2/3 - в красной. Значит, если мы достанем красный шарик, то вероятность, что он из желтой будет выше, чем для синего (1/3 > 1/7).

И что в этом такого?

Удивительные и контринтуитивные результаты этой формулы можно увидеть на примере теста на ВИЧ. По статистике заражения ВИЧ (в РФ за 2014 год) - 742 631 больных на 143800000 = 0.51%. (На 2022 уже 1,5 млн.) Допустим, чувствительность теста = 95%, специфичность = 97%. Т.е. вероятность ошибки теста для ложноположительного - 3%, ложноотрицательного - 5%.

Если тест на ВИЧ положительный, то какова реальная вероятность наличия болезни? Может показаться, что учитывая высокую точность теста, результат будет высоким. Однако - не совсем.

Расчет

Вероятность болезни (распространенность), P(Б) = 0,51% = 0.0051.

Вероятность оказаться здоровым, P(З) = 100% - 0.51% = 99.49% = 0.9949.

Чувствительность, т.е. вероятность положительного результата теста больного:

P(П|Б) = 95%; Отрицательный у больного Р(О|Б) = 1 - 0.95 = 0.05 = 5%.

Специфичность, т.е. вероятность отрицательного результата теста здорового:

P(О|З) = 97%, положительного теста у здорового Р(П|З) = 1 - 0.97 = 0.03 = 3%.

Вероятность наличия болезни при положительном тесте:

P(Б|П) = P(П|Б) * P(Б) / P(П).

P(П) рассчитывается по формуле полной вероятности. Как сумма вероятностей положительного теста для больного и здорового. Полная вероятность положительного теста:

Р(П) = P(П|Б) * P(Б) + P(П|З) * P(З) = 0.95 * 0.0051 + 0.03 * 0.9949 = 0.03469

P(Б|П) = P(П|Б) * P(Б) / P(П) = 0.95 * 0.0051 / 0.03469 = 0.1396 = 14%.

Для расчета вероятности болезни при повторном положительном тесте мы используем ту же формулу, но заменяем P2(Б) на P(Б|П) из предыдущего расчета.

P2(З) = 1 - Р2(Б) = 1 - 0.1396 = 0.8604

P2(П) = P(П|Б) * Р2(Б) + P(П|З) * P2(З) = 0.95 * 0.1396 + 0.03 * 0.8604 = 0.1584

P2(Б|П) = P(П|Б) * P2(Б) / P2(П) = 0.95 * 0.1396 / 0.1584 = 0.8372

Вероятность наличия ВИЧ при положительном тесте будет всего лишь около 14%, что явно является контринтуитивным результатом. В этом случае необходимо сдать повторный тест, но даже при повторном тестировании, вероятность будет лишь около 83%.

Дело в том, что сама вероятность наличия болезни крайне низкая, а шанс оказаться здоровым - высокая, поэтому даже небольшая неточность в тесте может сильно исказить результат. Если бы тест был на 100% точным - такого бы не произошло. Но на 100% мы можем быть уверены лишь в том, что мы ни в чем не можем быть уверенны на 100%.

По аналогии с шариками в коробках - положительный результат - красный шарик, синий - отрицательный. Желтая коробка - болен, зеленая - здоров.

Изучение болезней и частотная интерпретация

Допустим, мы изучили 17 пациентов. У каждого из них мы обнаружили наличие некой болезни (А) и определенных симптомов (B). 17 - это очень маленькая выборка для статистики, но достаточно для примера.

Данные занесены в таблицу, где 1 - положительный результат, 0 - отрицательный. Там же рассчитали общее количество (N), количество положительных результатов (+), вероятность (P), наличие симптомов у больных (B|A), у здоровых (B|!A); отсутствие симптомов у больных (!B|A) и у здоровых (!B|!A). Восклицательный знак значит "не", т.е. "!A" значит "не болен".

В столбце (B|A) мы учитываем лишь те значения (B), где (A)=1. В столбце (B|!A) те, где (A)=0. И т.д.

Таблица

A

B

B|A

!B|A

B|!A

!B|!A

1

0

0

0

1

2

1

1

1

0

3

1

1

1

0

4

0

0

0

1

5

1

1

1

0

6

0

0

0

1

7

1

1

1

0

8

0

0

0

1

9

0

0

0

1

10

0

1

1

0

11

1

0

0

1

12

0

1

1

0

13

0

0

0

1

14

1

1

1

0

15

1

1

1

0

16

0

0

0

1

17

0

1

1

0

N

17

17

7

7

10

10

+

7

9

6

1

3

7

P

41.18%

52.94%

85.71%

14.29%

30.00%

70.00%

На основе этих данных можно составить частотную диаграмму. Это дерево, которое отражает вероятность того или иного исхода как вес ребра (стрелка с числом). Так же можно составить дерево с корнем из наличия симптома (обратное дерево).

Частотная диаграмма
Частотная диаграмма

Из этих данных уже можно рассчитать и вероятность наличия болезни если есть симптом, или P(A|B) = P(B|A)*P(A)/P(B)=0.8171*0.4118/0.5294=0.6355. Т.е. 63,55%.

Подобным образом изучались так же и симптомы COVID-19. Там же можно взглянуть и на древовидные диаграммы частотной интерпретации.

Symptoms in respiratory diseases
Symptoms in respiratory diseases

Заключение

Постарался изложить материал максимально доступно. Есть так же расширенная форма (с оценкой нескольких событий от события B), байесовская интерпретация с гипотезой априорной вероятности и подстановкой апостериорной вероятности, степенью доверия к гипотезе и т.д. Но в целом основные моменты раскрыл без лишних усложнений.

Расширенная форма
Расширенная форма

Комментарии (24)


  1. xi-tauw
    05.06.2023 10:28
    +3

    4 года назад мне подарили футболку, надо бы поискать.


  1. agp88
    05.06.2023 10:28
    +6

    Уже не в первый раз делаю попытку "подхода" к теории вероятности, и каждый раз она оканчивается неудачей. Сегодня вы "потеряли" меня вот здесь:

    Если P(С|Ж)=Р(К|Ж)=1/2=50%, почему тогда Р(С|З)=60%, а Р(К|З)=20%? Ведь всего в зеленой коробке 8 шариков, из них 6 синих, 2 красных. Т.о., вероятность достать синий шар из зеленой коробки 6/8=0.75, а красный из неё же - 2/8=0.25?


    1. Naf2000
      05.06.2023 10:28
      +1

      Похоже у автора ошибка, а вы правы 75/25


    1. ildarin Автор
      05.06.2023 10:28
      +4

      Досадная оплошность. Т.к. не использовал эти значения в формуле - пропустил. Исправил.


  1. saga111a
    05.06.2023 10:28

    Контринтуитивны тесты когда люди рассматривают себя "либо болен либо нет". Но начинается махинация в сознании людей когда процент 14 и 42.
    Вообще интересно, кто-то проводил исследования, такое ли соотношение получается, или на выборку накладывается еще другие вещи.

    Вероятность наличия ВИЧ при положительном тесте будет всего лишь около 14%, что явно является контринтуитивным результатом. В этом случае необходимо сдать повторный тест, но даже при повторном тестировании, вероятность будет лишь около 42%.


    Тут бы актуальные и прискорбные данные в 1.5млн больных в РФ, в 2022 году.

    По статистике заражения ВИЧ (в РФ за 2014 год) - 742 631 больных на 143800000 = 0.51%.


    1. ildarin Автор
      05.06.2023 10:28

      Да, в РФ эпидемия ВИЧ, на 5ом месте по темпу заражения, поэтому и обратил на это внимание в статье. Однако же, возможно что и лучше выявлять стали.

      Я не смотрел данные реальных исследований по этому поводу, так что хз; но по формулам выходит - что так, если я не ошибся. Пишут, что в среднем тесты на ВИЧ точны на 95-99.9%.

      Контринтуитивны тесты когда люди рассматривают себя "либо болен либо нет". Но начинается махинация в сознании людей когда процент 14 и 42.

      Вот тут не совсем понял. Болен, но на половину или что?


      1. saga111a
        05.06.2023 10:28

        Вот тут не совсем понял

        Это я про отрицание, такие моменты отличный повод отрицать. Встречал людей, вроде как образованных и интеллегентных, которые будучи пойманы на совершении асоциальных действиях уходят в отрицание. Причем не врут, они реально начинают считать что не делали, что это не они.

        С вич та же похоже ситуация, когда психика не здоровая начинается отрицание с поиском любой причины.


      1. Refridgerator
        05.06.2023 10:28
        +1

        А в РФ действительно рост именно ВИЧ, а не количества ложно-положительных тестов?


        1. ildarin Автор
          05.06.2023 10:28
          +1

          Я не доктор, но насколько я знаю - расчет подтвержденных случаев. Проблема в том, что РФ не поставляет данные о ВИЧ в ООН с 2018 года, из-за этого оценки сильно разняться. 850к от Минздрава на 2022 год и 1,5млн от ЮНЭЙДС и 1,1 млн. в Роспотребнадзоре. Но рост в 50 тыс. новых случаев согласуется, Минздрав списывает это на рост количества тестов.

          Занятно, что в РФ при гетеро контактах заражение 67,5%, при гомо - 2,5%, а при употреблении наркотиков - 28,3%. Пруф.


          1. Refridgerator
            05.06.2023 10:28

            Но ведь медицинского теста на гомо нет, как они узнали? Если просто спросили, то человек мог просто не захотеть в таком сознаваться, особенно если спрашивали без детектора лжи. С наркоманами проще, их видно и без анализов по следам от уколов.


            1. ildarin Автор
              05.06.2023 10:28

              Детектора лжи не существует. Да, возможно, что респондент соврал, я хз как они проверяли. Если, например, в статистике учитывали только тех, кто привел своего зараженного партнера, то точность зависит от соотношения тех, кто привел от тех, кто не привел.

              В любом случае ксенофобия и стигматизация определенных групп населения ведет к ухудшению научно-медицинских результатов со всеми вытекающими. Например, что по научным данным медицинских учреждений РФ - гетеросексуальный секс ведет к распространению ВИЧ.


  1. Lexakr
    05.06.2023 10:28
    +1

    Продолжая тему с тестами, думаю, будет интересно посмотреть здесь обратную вероятность - получить отрицательный тест, но быть инфицированным ВИЧ.

    Не буду расписывать (все по аналогии), вероятность наличия болезни при отрицательном тесте - 0.02%, что уже намного более приятное число, нежели 5% вероятности ложноотрицательной.

    Пересчитаем на актуальных данных (чувствительность 100(99)%, специфичность 99%, доля инфицированных от населения 1.04%). Получится вероятность достоверности положительного теста 51% (при повторном - 99%) и достоверности отрицательного 0.01%.


  1. under_taker_bs
    05.06.2023 10:28

    Я чего то не понимаю но формулу расчета для первого теста Волфрам математика высчитывает так

    А по формуле для второго теста он выдает ответ как у вас.

    Что еще больше вводит в ступор - откуда взялось число 0.509 в качестве значения для Р(П|Б)?


    1. ildarin Автор
      05.06.2023 10:28

      Не правильный расчет был. Исправил (вроде бы :)). Чувствительность теста отражает П|Б и О|Б, т.к. зависит только от больных.


      1. under_taker_bs
        05.06.2023 10:28

        Да, у ChatGPT такой же ответ и ход решения


  1. Refridgerator
    05.06.2023 10:28
    +1

    Вероятность наличия ВИЧ при положительном тесте будет всего лишь около 14%. В этом случае необходимо сдать повторный тест, но даже при повторном тестировании, вероятность будет лишь около 83%.

    Не понятен один момент. Сколько раз нужно сдать повторных анализов на ВИЧ для обретения 100% уверенности?


    1. ildarin Автор
      05.06.2023 10:28

      100% уверенность невозможна в принципе. 100% истинности есть лишь у аксиом, в реальном мире это практически не достижимо. Но я в этом не уверен на 100%)

      Реальные тесты имеют погрешность в 0.01%, так что два теста дадут 99% - этого вполне достаточно КМК.

      Например, мы измеряем длину, получается 1см. Но это не точно, т.к. есть еще миллиметры. Допустим, 1см и 2мм. Но есть еще и нанометры. Тогда выходит длина 10203652 нанометров. Но есть еще и пикометры, и т.д. до Планковской длины. А там уже выйдет опять погрешность из-за принципа неопределенности.


      1. Refridgerator
        05.06.2023 10:28

        Но они же разными могут быть. Например первые два положительные, третий отрицательный. Существует же вероятность двух ложно положительных тестов подряд, если они сделаны одним и тем же человеком в одних и тех же условиях?


        1. ildarin Автор
          05.06.2023 10:28

          Существует. Но это крайне малая вероятность. Можно даже рассчитать вероятность того, что будут 2 положительных и третий отрицательный. Думаю, шанс где-то 1 к триллиону. Но нет ничего невозможного, лишь маловероятное.

          Вот интересная статья про маловероятные события.


          1. Refridgerator
            05.06.2023 10:28

            А мне кажется может быть не такой уж и малой, если ложно-положительные результаты вызваны плохой стерилизацией после предыдущего, действительно больного пациента. Ну и в целом — теория вероятностей же независимые испытания моделирует, а здесь зависимостей куча.


            1. ildarin Автор
              05.06.2023 10:28

              Конечно. Но это уже из управления рисками, что тоже имеет в основе своей математическую модель, основанную на теории вероятности. В ТК РФ есть даже понятие профессиональный риск.

              Если дополнить формулу точными данными риска плохой стерилизации и т.д. до бесконечности - то и результат можно получить бесконечно точный.

              Ну и в статье, в диаграмме симптомов ковид-19 есть значение ошибки Error внизу. Так что погрешности и ошибки тоже следует учитывать.


          1. yatanai
            05.06.2023 10:28

            >Но это крайне малая вероятность.

            Сказал как-то физик строя ядерный реактор, забыв какое число атомов содержится в стержне урана...


          1. rombell
            05.06.2023 10:28

            как известно, шанс «один на миллион» выпадает в девяти случаях из десяти.


  1. Travisw
    05.06.2023 10:28
    -1

    Примеры из медицины не интересны