Команда исследователей опубликовала пост, в котором опровергла данные более ранней психологической работы по теме честности. Ее выпустили в 2012 году. В исследовании утверждалось, что уровень недобросовестности можно снизить, попросив людей подписать заявление о своих честных намерениях перед предоставлением информации, а не после.
В 2020 году вышло продолжение работы, в котором утверждается, что подобные действия не увеличивают уровень честности людей, а два оригинальных лабораторных исследования воспроизвести так и не удалось.
Авторы нынешнего поста обратили внимание на один из экспериментов, который приводится в статье от 2012 года. Его проводила компания автострахования на юго-востоке США под руководством одного из авторов работы. Ее клиентов попросили сообщить текущие показания одометра. Также им в случайном порядке было поручено подписать заявление, в котором сверху или внизу было указано: «Я обещаю, что предоставленная мной информация верна». Те, у кого это примечание находилось перед основным текстом, сообщили, что проехали на 2400 миль больше (+10,3 %), чем те, у кого оно было под ним.
Авторы статьи 2020 года не пытались воспроизвести этот полевой эксперимент, но они обнаружили аномалию в данных: большую разницу в базовых показаниях одометра в зависимости от условий. Разница этих показаний до рандомизации была намного больше (~ 15000 миль), чем после нее (~ 2400 миль):
Пытаясь понять это, авторы статьи 2020 года предположили, что, возможно, «рандомизация не удалась (или, возможно, даже не произошла в соответствии с инструкциями) в этом исследовании».
Нынешняя группа анонимных исследователей обнаружила, что этот полевой эксперимент был в принципе сфабрикованным.
В соответствии с файлом данных, переменные включают условия эксперимента, замаскированный номер полиса и два набора пробегов для четырех автомобилей. Столбцы «baseline_car [x]» содержат пробег, который ранее был указан для транспортного средства x (в момент времени 1), а столбцы «update_car [x]» показывают пробег, указанный в форме, которая использовалась в этом эксперименте (в момент времени 2). Столбцы «средний» показывают средний пробег всех автомобилей в строке во время 1 («baseline_average») и время 2 («update_average»). Наконец, последний столбец («diff_average») — это зависимая переменная, проанализированная в статье 2012 года: разница между средним пробегом во время 2 и средним пробегом во время 1 ( пройденные мили).
Важно отметить, что клиенты не сообщали исследователям данные о пробеге сами. Он был рассчитан путем вычитания их информации о пробеге за время 1, собранной задолго до проведения эксперимента, из отчета о пробеге за время 2, подготовленного во время эксперимента.
Если бы между временными промежутками был примерно год, то можно было бы ожидать нечто вроде рисунка ниже, подготовленного министерством транспорта Великобритании на основе аналогичных данных (два последовательных показания одометра), собранных в 2010 году:
Как отмечают авторы статьи 2012 года, неизвестно, сколько времени прошло между базовым периодом (время 1) и периодом их эксперимента (время 2), и, как сообщается, оно было разным для разных клиентов. Для некоторых клиентов показатель «пройденных миль» может отражать двухлетний период, в то время как для других он может быть значительно больше или меньше. Поэтому трудно понять, как должно выглядеть распределение пройденных миль в этих данных.
Эта гистограмма показывает количество миль, пройденных первым автомобилем в наборе данных:
Во-первых, она визуально и статистически (p = 0,84) неотличима от равномерного распределения в диапазоне от 0 миль до 50 000 миль. Во-вторых, данные о пройденном расстоянии резко заканчиваются на отметке 50 000 миль. Есть 1313 клиентов, которые проехали 40 000–45 000 миль, 1339 клиентов, которые проехали 45 000–50 000 миль, и ноль клиентов, которые проехали более 50 000 миль. Наибольшее значение в наборе данных — 49 997, и оно появляется только один раз. Наиболее вероятное объяснение состоит в том, что пройденные мили были получены, по крайней мере частично, путем добавления равномерно распределенного случайного числа, ограниченного 50 000 миль, к базовому пробегу каждого клиента (и каждой машины). Это можно сделать в Excel (например, используя RANDBETWEEN (0,50000)).
Подобное равномерное распределение пробега наблюдается не только для первой машины, но и для всех четырех автомобилей:
Эти гистограммы визуально и статистически (все ps> 0,78) согласуются с равномерным распределением в диапазоне от 0 до 50 000 миль.
Промежутки, указанные в этом эксперименте, были отчетными, то есть, люди писали их сами на листках бумаги. А, когда реальные люди сообщают большие числа вручную, они склонны их округлять. Некоторые, возможно, предоставили точные цифры, но не все. Однако исследователи склонны подозревать, что экспериментальные данные (время 2) были созданы с помощью генератора случайных чисел (например, RANDBETWEEN (0,50000)), а данные о пробеге по времени 2 не округлялись.
Последние три цифры для каждой машины в наборе данных показывают, что люди округляли показания до тысяч или сотен:
Однако на этом рисунке показано, что округленные показания были непропорционально распространены в данных времени 1, но были уже не так распространены в данных времени 2. Это означает, что тысячи людей, которые вручную сообщили свои данные о пробеге в страховую компанию, не округляли свои показания, а сообщали их как есть, например, 17 498 миль, а не 17 500 миль. Это также косвенно подтверждает совпадение последних цифр показаний:
Еще одной особенностью набора данных является тот факт, что информация для автомобиля № 1 в опубликованном файле Excel представлена двумя разными шрифтами: Calibri и Cambria:
В этой связи исследователи сделали вывод, что набор данных от 6744 клиентов авто продублировали с использованием шрифта Cambria, и в этом процессе случайное число от 0 до 1000 (например, RANDBETWEEN (0,1000)) было добавлено к базовому (время 1) пробегу каждой машины.
Для остальных трех машин деление данных по шрифтам меньше ровно на единицу (2825 строк в Calibri и 2824 строк в Cambria для автомобиля № 2).
У верхнего покупателя пробег «baseline_car1» записан на Calibri, а у нижнего — на Cambria. Во всех четырех случаях базовый пробег Cambria (1) больше, чем пробег Calibri, и (2) в пределах 1000 миль:
Всего таких клиентов-близнецов насчитали 22:
Исследователи считают, что данные из набора time 1 были продублированы, а затем немного изменены с использованием генератора случайных чисел.
Группа исследователей отмечает, что непонятно, кто сфальсифицировал данные — компания или соавтор работы, Дэн Ариэли. Он отмечен как создатель файла Excel с неверными данными. Сам исследователь опровергает причастность к фальсификации и говорит, что получил уже обработанную компанией информацию.
Ранее Ариэли работал бихевиористом в страховой компании Lemonade, которая стала известной после того, как начала предлагать страховку на технологии ИИ. Компания утверждала, что использует для оценки рисков видео с клиентами, на которых оценивает поведение людей и невербальные сигналы с помощью искусственного интеллекта. У пользователей возникло много вопросов относительно предвзятости такого ИИ.
Комментарии (4)
RiddickABSent
23.08.2021 10:01+1Доверие нужно нам для того, чтобы манипулировать людьми. Доктор Хаус.
Британские учёные доказали.. Ясно. Понятно.
А что по поводу поводу есть у Кембридж Аналитики?)
NNikolay
23.08.2021 14:58У Дена Ареэли много таких работ, где сложно поверить в наличие реального эффекта. А с другой стороны сетап такой, что легко получить нужный результат. Помнится про эксперимент с солнечными очками было смешно. Но тут уж даже не р-хакинг, а прям фрод. Интересно.
v1000
Нужно исследование о честности исследований по проверке честности. Которое тоже может оказаться не совсем честным.
Vinchi
Не нужно. Тут были обнаружены очень конкретные ляпы, говорящие не просто об ошибках а намеренной фальсификации.