Очень часто можно встретить комментарий, что хотя в книге «дедукция», но на самом деле Шерлок Холмс якобы использовал индукцию. Обычно те, кто давно закончил учебу, в этот момент пытаются вспомнить, что из них «от общего к частному», а что — наоборот. Более продвинутые источники говорят, что ни первое и ни второе, а на самом деле там абдукция. Я же хочу показать, что Теорема Байеса и байесовские вероятности лучше всего подходят для описания этого метода (если считать, что метод вообще есть).

Идея моя не оригинальна, за минуту гугления находятся «Sherlock Holmes and Probabilistic Induction» автора Soshichi Uchii, «A lesson in probability and thinking from the casebook of Sherlock Holmes» от Sanrachna Foundation и пр. и пр. Я просто хочу сделать акцент на Теореме Байеса и на том, как работает Акинатор (Акинатора и Холмса вроде ещё никто не сопоставлял:) ).

Мой интерес к этой теме простой — я всё ещё очарован этим детективом и героем, хотя уже прошло много времени с детства. Поэтому захотелось, в том числе для себя самого, сформулировать то, что витает в виде разрозненных мыслей в голове.

Индукция и дедукция

«Полная индукция — метод доказательства, при котором утверждение доказывается для конечного числа частных случаев, исчерпывающих все возможности, неполная индукция — наблюдения за отдельными частными случаями наводят на гипотезу, которая, конечно, нуждается в доказательстве.» Например, мы обходим всех соседей по дому и проверяем, знают ли они тайский язык. Как только мы обошли всех, то мы можем считать доказанным утверждение, что никто из соседей на тайском не говорит.

«В дедукции вывод строится от общих положений к частным случаям. Началом (посылками) дедукции являются аксиомы, постулаты или просто гипотезы, имеющие характер общих утверждений (общее), а концом — следствия из посылок». Например, есть типология культурных измерений Хофстеде, где каждой стране/нации приписываются какие‑то качества. Согласно этой теории Таиланд является высоко коллективистской страной. Это проявляется в тесной долгосрочной преданности члену «группы» (семье, расширенной семье или расширенным отношениям). Сохраняя свою лояльность группе, тайцы не вступают в конфронтацию, и в общении «да» может не означать согласия или одобрения. Как следствие если мы видим отдельно взятого тайца, то мы можем ожидать, что он не будет лишний раз вступать в конфронтацию и будет лишний раз всегда говорить «да».

Абдукция

«Абдукция представляет собой вид редуктивного вывода с той особенностью, что из посылки, которая является условным высказыванием, и заключения — вытекает вторая посылка.». Либо есть ещё одно определение: «силлогизм, в котором главная посылка очевидна, а второстепенная посылка и, следовательно, заключение лишь вероятны.»

Пример абдуктивного рассуждения: «Трава мокрая (наблюдение), следовательно, прошлой ночью, вероятно, шел дождь (наиболее вероятная гипотеза).».

Применительно к преступлениям: как только у нас есть наблюдение и какая‑то гипотеза, которая кажется вероятной для этого наблюдения — всё, у нас есть абдуктивное рассуждение.

Поэтому, на мой взгляд, говорить что Шерлок Холмс использовал метод абдуктивных рассуждений — это тоже самое, что говорить что он просто рассуждал.

(В Википедии идет ссылка на статью Ионина Леонида Григорьевича «Шерлок Холмс и (псевдо) дедуктивный метод», там можно подробнее прочитать про абдукцию.)

Индукция, дедукция и абдукция

Все они присутствуют в расследованиях. Обойти всех соседей или мысленно перебрать все варианты — это индукция. Но это не какое‑то супер ноу‑хау, чтобы патентовать как метод. Использовать психологическую теорию на практике — это дедукция. Тоже вполне обычная вещь. Находить вероятные объяснения каким‑то наблюдениям — это абдукция, но без этого вообще трудно что‑либо расследовать, это не метод.

Что касается индукции и дедукции — это вообще скорее статичные методы, они не подразумевают сбора новой информации, переоценки и дальнейшего такого цикла. Метод Холмса является динамичным, хотя в книге на это не делается акцент. А именно: даже если Холмс просто осматривает Ватсона, то он продолжает искать интересные детали до тех пор, пока не сможет сделать определенные выводы. Даже если на это уходят доли секунды, все равно это происходит не одновременно, и какие именно детали искать — Холмс знает в процессе, на основе предыдущих предположений.

Байесовские вероятности и вероятности вообще

Мне кажется, что то, что часто теряется — так это вероятностная природа всех рассуждений и выводов Холмса. И не важно: математических вероятностей или вероятностей в бытовом понимании. Эти вероятности всегда присутствуют между строк.

Ведь даже выводы Шерлок Холмс никогда не делает абсолютно чётко, не смотря на всю его браваду. Он просто озвучивает наиболее вероятный с учетом всей текущей информации вариант, когда вероятность варианта выше какого‑то интуитивно определяемого порога (условно, когда вероятность выше чем 99.99%). Вот эта вероятностная природа очень важна.

Теорема байеса — это формула для расчета условных вероятностей. т. е. вероятности наступления события A, при условии что наступило событие B. Сама формула выглядит вот так:

P(A|B) = P(B|A) * P(A) / P(B)

P(A|B) – вероятность события А при условии что наступило событие B
P(B|A) – вероятность события B при условии что наступило событие A
P(A) – вероятность события A
P(B) – вероятность события B

Пример: Алиса и рыжие волосы

Представьте себе место преступления, где из художественной галереи была украдена ценная картина. У детектива есть три подозреваемых: Алиса, Боб и Кэрол. Основываясь на предыдущем опыте и первоначальных доказательствах, детектив назначает следующие вероятности того, что каждый из подозреваемых является вором

Алиса: 60% (0.6)
Боб: 30% (0.3)
Кэрол: 10% (0.1)

Теперь детектив обнаруживает новую улику: рыжий волос, найденный на месте преступления. Детектив знает, что:

15% людей имеют рыжие волосы
У Алисы рыжие волосы
У Боба и Кэрол нет рыжих волос

Применяя теорему Байеса к новым уликам, детектив рассчитывает обновленные вероятности для каждого подозреваемого:

Для Алисы:

P(Alice|Red Hair) = P(Red Hair|Alice) * P(Alice) / P(Red Hair)
P(Alice|Red Hair) = 1 * 0.6 / 0.15
P(Alice|Red Hair) ≈ 0.89

Для Боба:

P(Bob|Red Hair) = P(Red Hair|Bob) * P(Bob) / P(Red Hair)
P(Bob|Red Hair) = 0 * 0.3 / 0.15
P(Bob|Red Hair) = 0

Для Кэрол:

P(Carol|Red Hair) = P(Red Hair|Carol) * P(Carol) / P(Red Hair)
P(Carol|Red Hair) = 0 * 0.1 / 0.15
P(Carol|Red Hair) = 0

После обновления вероятностей новые убеждения детектива таковы:

Алиса: 89%
Боб: 0%
Кэрол: 0%

Детектив делает вывод, что Алиса — наиболее вероятный вор, основываясь на Байесовской вероятности и найденных уликах. Однако важно помнить, что этот вывод не является окончательным, и детектив должен продолжать собирать и анализировать дополнительные доказательства, чтобы укрепить или ослабить свои убеждения относительно каждого подозреваемого.

В нашем примере у Боба и Кэрол получилось ноль процентов, но это просто для простоты. Ниже будет второй пример, где всё более запутанно.

Три таланта Шерлока Холмса

Оценивать такие вероятности сложно, Шерлок Холмс не делал это явно, просто интуитивно умел делать следующие вещи:

1) Из сотни и тысячи наблюдений умел выделить те, которые больше всего влияют на финальные вероятности.
2) Он хорошо умел давать оценку финальным вероятностям, не используя формулу Байеса в явном виде.
3) Он знал, какие новые доказательства надо собрать, чтобы максимально выделить один вариант на фоне других (про это отдельно ниже). В том числе даже когда просто осматривал нового человека на основе пары деталей знал что ещё найти в его одежде, чтобы подтвердить или опровергнуть текущую гипотезу (интуитивно знал, как максимизировать ожидаемое уменьшение энтропии).

Вторый навык — не такой простой, как может показаться, т.к. многие вещи связанные с вероятностями контринтуитивны. Рассмотрим второй пример.

Пример 2: три подозреваемых и три улики

Представим себе случай, когда из особняка во время вечеринки было украдено ценное ожерелье. У детектива есть три подозреваемых: Алиса, Боб и Кэрол. Основываясь на своей первоначальной оценке, детектив назначает следующие предварительные вероятности каждому подозреваемому:

Алиса: 40% (0,4)
Боб: 40% (0,4)
Кэрол: 20% (0,2)

Теперь детектив обнаруживает три улики (A, B и C):

Улика А: Свидетель видел, как кто‑то носил зеленый шарф недалеко от места преступления.

Известно, что у Алисы есть зеленый шарф (вероятность того, что он был на ней 60%).
Боб иногда берет зеленый шарф Алисы (вероятность того, что он был в нем 20%).
Кэрол иногда берет зеленый шарф (вероятность того, что он был на ней 30%).

Улика B: Рядом с местом преступления был обнаружен грязный отпечаток обуви.

Элис носит обувь 6-го размера (вероятность того, что отпечаток был на ее обуви 15%)
Боб носит обувь 9 размера (вероятность того, что это его отпечаток 80%)
Кэрол носит обувь 6-го размера (вероятность отпечатка ее обуви 15%)

Улика С: Был обнаружен характерный запах духов.

Алиса иногда пользуется этими духами (вероятность того, что это ее запах, составляет 30%)
Боб иногда пользуется духами (вероятность его запаха 20%)
Кэрол всегда носит эти духи (100% вероятность того, что это ее запах).

Вопрос: постарайтесь интуитивно оценить, какие были бы новые убеждения детектива (вероятности), если их аккуратно рассчитать по формулам Байеса (ответ в конце, проверьте свою интуицию).

Третий талант Шерлока Холмса – умение задавать вопросы в стиле Акинатора

Акинатор — это такая онлайн игра, где вы загадываете персонажа, а компьютер пытается его отгадать. На каждом шаге Акинатор задает вопросы вида «это мужчина или женщина?» «это мультяшный персонаж?» и достаточно быстро может угадать тоже самый хитрый вариант (например, можно загадать самого себя и пр.)

Акинатор работает тоже на байесовских вероятностях. Чтобы как можно быстрее отгадать персонажа надо выбирать такой вопрос, для которого ожидаемое уменьшение энтропии будет максимальным (на самом деле есть нюансы). Это ожидаемое уменьшение энтропии рассчитывается через байесовские вероятности, а именно:

H_before = - Σ (p_i * log2(p_i))
H_k = - Σ (p_i|k * log2(p_i|k))
Expected_Entropy_Reduction = H_before - Σ (P(k) * H_k)

где p_i|k это и есть наши любимые условные вероятности.

В реальной жизни хорошим вопросом на первом шаге может быть вопрос типа «это мужчина?», т.к. он отсекает сразу половину вариантов (энтропия уменьшается сильнее всего). А плохим вопросом на первом шаге может быть вопрос «это Чебурашка?», потому что если перебирать всех персонажей по одному, то никакого времени не хватит.

Талант Шерлока Холмса был в том, что он умел интуитивно придумывать такие хорошие вопросы к преступлениям, которые сильнее всего уменьшали энтропию на текущем шаге, у него был талант в этом.

Рассуждения про методы вообще

Если копнуть совсем глубоко, то Метод Шерлока Холмса ничего особого из себя не представляет, на мой взгляд. Он заключается в том, чтобы быть внимательным, тщательно анализировать детали, включать здравый смысл и рассуждать логично. Но дело в том, что нет никакого метода, который говорил бы обратное: что детали не важны, а здравый смысл надо отключить. т. е. если мы попробуем составить классификацию разных методов, то мы не сможем отделить Метод Шерлока Холмса от каких‑то других. Я не знаю, насколько актуальным сейчас является то, что предлагал Селиванов, но то, что описывает он — вот это похоже на метод: «методика расследования — обусловленная предметом доказывания система взаимосвязанных и взаимообусловленных следственных действий, осуществляемых в наилучшей последовательности в целях установления всех необходимых обстоятельств дела и доказывания на основе планирования […]». т. е. есть какие‑то конкретные действия, разные для разных преступлений, эффективность которых, может и не очень хорошо, но хоть как‑то доказана и пр.

Кстати, если говорить про методы, то с методами продуктивности/эффективности в работе такая же беда. Вроде как есть Personal Kanban, Eat the Frog, SMART, The Action Method; Must, Should, Want; Time Blocking; Getting Things Done; Pomodoro и пр. и пр. Но если попробовать провести эксперимент и сравнить их эффективность, как я хотел на днях, то это практически невозможно, т.к. методов как таковых то и нет. Все они сводятся к тому, что дела нужно приоритезировать, нужны четкие цели, нужны перерывы, а во время работы надо сосредоточиться на чём‑то одном. А остальное оказывается скорее второстепенными деталями, которые и сравнивать нет особого смысла. На эту тему я хочу написать отдельную статью, если кому‑то это интересно — очень интересно было бы обсудить.

Правильный ответ на Задачу 2:

Алиса: 32,67%.
Боб: 38,78%
Кэрол: 27,35%

Формально Боб является самым вероятным преступником.

Комментарии (7)


  1. Darth_Anjan
    00.00.0000 00:00
    +1

    А потом оказывается, что убийца — дворецкий (а вовсе не Алиса, Боб или Кэрол).
    А вообще, логика рассуждений интересная, такое можно студентам на тервере/теории информации дать почитать, а потом пораздувать на семинаре...


    1. indestructable
      00.00.0000 00:00

      Это только в книгах, чтобы было интереснее. Думаю, в жизни методика, описанная автором, отлично работает.


  1. TiesP
    00.00.0000 00:00

    В целом статья интересная, но вот здесь у вас ошибочка:

    После обновления вероятностей новые убеждения детектива таковы:

    Алиса: 89%
    Боб: 0%
    Кэрол: 0%

    В сумме должно быть 100%. Ну или добавьте ещё одного, как выше предложили. Типа "Кто-то другой (например, дворецкий): 11%"


    1. AlB80
      00.00.0000 00:00
      +2

      В реальной жизни ещё много вариантов

      • Боб и рыжий дворецкий были сообщниками

      • Кэрол подкинул рыжий волос на место своего преступления


      1. TiesP
        00.00.0000 00:00

        Да, всё верно. Я просто уточнил, что в сумме должно быть 100%


    1. Corsonamor
      00.00.0000 00:00

      Мне кажется, что это независимые друг от друга вероятности. Если бы у этих персонажей были близнецы со схожей моделью поведения, то вероятности были бы теми же


  1. Elena-314
    00.00.0000 00:00
    +1

    0.6 / 0.15 = 4, но никак не 0.89