«То, во что люди верят, не ощущается ими как вера, они просто думают, что мир такой и есть» Элиезер Юдковский.
Изображение, прикреплённое к этой статье, нужно для калибровки монитора по цветам. Я посчитал это забавной аналогией, ведь калибровка монитора позволяет скорректировать изображение, чтобы оно отображало картинку ближе к реальности. Калибровка убеждений, о которой сегодня пойдёт речь, занимается примерно тем же.
Если я регулярно утверждаю, что в чём-то сильно уверен, и постоянно удивляюсь тому, что реальность устроена иначе, то такое состояние дел называется сверхуверенностью.
Если я, обладая необходимой для корректной оценки информацией, продолжаю сомневаться и пропускаю выгодные предложения, это называется недостаточной уверенностью. Я бы назвал это скромностью, но это слово имеет положительный окрас. А обе эти стратегии имеют одну и ту же проблему – плохая калибровка.
Что же это такое? Хорошая калибровка, это когда то, в чём я сильно уверен, оказывается правдой чаще, чем то, в чём я просто уверен, и чаще того, в чём я уверен слабо. То есть откалиброванные убеждения — это когда я знаю, в каких из моих прогнозов более вероятна ошибка, а в каких менее.
При этом калибровка не имеет ничего общего с точностью. Если я изучаю новую для себя тему и заявляю: «блин я ничего об этом пока не знаю», это будет отличной калибровкой. Но она не позволяет мне делать точных прогнозов.
Исследователи Альперт и Раиффа задали испытуемым 1000 вопросов по общеизвестным темам (из разряда «сколько таксистов работает в вашем городе?»). Затем их попросили обозначить 98% доверительный интервал для всех ответов.
Остановимся ненадолго на понятии доверительный интервал. Это когда вы говорите что-то вроде: таксистов с 90% вероятностью больше, чем 500, но меньше, чем 500 тысяч. То есть 90% доверительный интервал означает, что вы ожидаете ошибиться один раз из десяти, а 50% когда ожидаете ошибок каждый второй раз. И ошибиться здесь значит, выяснить, что в реальности оценка ниже или выше установленных вами порогов. В общем-то доверительный интервал это и есть то, как вы можете пощупать свою уверенность в «натуре».
Вернёмся к испытуемым, которые обозначили свои девяностовосьмипроцентные интервалы. В идеале мы должны были бы ожидать, что в среднем 980 ответов из 1000 окажутся в доверительном интервале, и всего 20 выпадут.
Но выпало 426…
Ближе к концу статьи я расскажу, что придумали исследователи для борьбы с плохой калибровкой и что из этого вышло. Но для начала чуть глубже разберёмся в чём же собственно проблема.
На дискавери, во времена, когда я был маленький и у меня был телевизор, показывали передачу, где люди покупали невостребованные транспортные контейнеры. Проводился аукцион и люди могли приобрести «кота в мешке», посмотрев лишь то, что находится непосредственно за дверью.
В контейнере могла находиться старая рухлядь, или дорогущий ретро автомобиль. Покупатель мог заработать на своей покупке или потерять деньги. И по-моему, это хорошая демонстрация для принципа калибровки.
У нас в голове есть представления о том, что находится в контейнере. В реальности контейнер содержит конкретный товар, имеющий конкретную стоимость. Там вовсе нет никакой «квантовой неопределённости» и кот в мешке вовсе не полужив полумёртв. Но наши представления о содержимом контейнера строго вероятностны.
Я делаю 10 прогнозов по поводу стоимости содержимого 10 контейнеров. Пусть я предполагаю, что в каждом контейнере содержится товара на 10 тысяч. Для того чтобы решить, сколько заплатить, я не могу просто перемножить 10 тысяч на 10 контейнеров и немного убавить для получения прибыли. Шаг, которого не хватает и является калибровкой. Я должен предположить, что, несмотря на мою сильную уверенность в оценке, я всё равно могу ошибиться. Но сколько ошибок я буду от себя ожидать? Столько же, сколько допускал раньше в случае такой же уверенности. На прошлой неделе я покупал контейнеры и был так же уверен, но лишь 7 из них содержали товар на нужную сумму, остальные 3 были наполнены барахлом. А значит интуитивное чувство такой «сильной уверенности» в моём случае обычно указывает на верный прогноз с 70% вероятностью.
В этом-то и проблема, обычно сильная уверенность ассоциируется с гораздо большими цифрами. Мы переводим наше интуитивную уверенность в цифры очень плохо. И я сейчас вовсе не об абстрактных формулах на бумаге, когда мы принимаем решения, мы постоянно опираемся на подобные оценки, даже если явно их не проговариваем. Но когда кто-то заявляет о том, что уверен на 98%, он обычно не имеет ввиду, что в 1000 подобных прогнозов он ошибся лишь 20 раз (если вы давно читаете этот блог, то думаю в курсе, что уверенных в чём-то на 100% карает особо изощрёнными способами преподобный Байес).
Фишхоф, Словик и Лихтенштейн подтвердили эту проблему в своём эксперименте. Когда испытуемые делали ставки 1:1, 2:1, и 3:1 (то есть с уверенностью 50%, 66,6% и 75%) всё было довольно неплохо. Проблемы начинаются выше, потому что по мере поднятия ставок от 3:1 почти ничего не менялось. То есть люди оказывались правы всё так же в 3 случаях из 4, но называли всё большую степень уверенности. При ставке 100:1 верными оказались 73% ответов, при 1000:1 верными оказались 81%...
То есть проблема калибровки — это несоответствие того, как мы оцениваем свою уверенность, и того, как её следовало бы оценить. Там, где нужно было бы поставить 81 к 19, мы ставим 1000 к 1. Больше того, эксперимент демонстрирует склонность людей к высоким ставкам, четверть ставок были выше, чем 100:1.
Чуть лучше ситуация, когда ставки у нас в жизни означают буквально деньги. Если незнакомец предлагает купить его машину, вы чувствуете, что вам нужно либо больше данных, либо вы не будете платить рыночную стоимость. Если вам не дадут прокатиться на автомобиле, это снизит вашу оценку. Если за автомобиль поручится хороший друг или родственник – повысит. Но несмотря на то что ставка деньгами делает ситуацию лучше, она всё же не исправляет её в достаточной мере (примеры в ролике о старте бизнеса).
Если же деньги не задействованы, то ситуация гораздо хуже. Плохая калибровка в значительной степени связана с ошибкой планирования, я даже изначально хотел запихнуть всё это в однин пост. Вот довольно практический пример, который я оставил для этой статьи. Бюхлер попросил своих студентов оценить, в какие сроки они сдадут свои курсовые. Причём он попросил сделать три прогноза – с вероятностью 50%, 75% И 99%. В 50% сроки уложились только 13% (при идеальной калибровке было бы 50%), в 75% сроки уложились 19%, и в 99% завершили 45%...
Можно ли улучшить ситуацию? Вообще-то, да. Кое-что я упомняул в статье про ошибку планирования. Что же может сильнее улучшить ситуацию? Альперт и Раиффа (из начала статьи) провели повторный эксперимент. Они полностью повторили изначальные условия, но перед тем, как дать испытуемым приступить к работе они показали результаты прошлого эксперимента и разъяснили концепцию калибровки. Затем испытуемые так же установили 98% доверительный интервал, и на этот раз в среднем выпали 190 ответов, что сильно лучше прошлого раза (однако довольно далеко до 20 в случае идеальной калибровки). Так что если вы дочитали до конца то, пожалуй, кое-что полезное вам уже удалось сделать.
P.s. Думать о плохой калибровке собеседника в момента спора (или, что ещё хуже, использовать это в качестве аргумента) - верный путь в долину плохой рациональности.