Иногда бывает интересно на основе данных попытаться построить какую-то сущностную математическую модель явления, чтобы иметь возможность производить симуляцию происходящих событий, когда нет возможности проводить многочисленные натурные эксперименты с учетом различных факторов, ситуаций или контекстов. Но не все же только в нейронные сети загонять данные и смотреть, что получается.
Рассмотренный ниже пример является в достаточной степени игровым примером построения такой модели. В нём не затрагиваются вопросы валидации данных, репрезентативности выборки, относительно которой строится модель, и валидации самой модели на схожих выборках. Естественно, при построении настоящих моделей такого рода вопросы выходят на первый план, но об этом и много написано. В данном случае волюнтаристски предполагается, что все репрезентативно и проверено (а это не так), чтобы не отвлекать от сути процесса. Т.е. может оно и репрезентативно, надо ещё придумать, относительно какой генеральной совокупности. Итак, о чем собственно речь?
Вконтакте был создан опрос, который сочетал в себе два вопроса с тремя вариантами ответов:
Сколько по вашему субъективному ощущению вокруг вас снобов?
Насколько вы любите социальные интеракции и всякий движ?
Естественно в опросе были все сочетания разнородных вариантов. Хотелось проверить банальную гипотезу, что люди, которые думают, что вокруг снобов много, не прям сильно рвутся в общество. Ну или ещё что-нибудь. Вот что получилось.
Мужчины (Таблица 1)
Женщины (Таблица 2)
Для начала следует увидеть, что большие отклонения от равномерного распределения для мужчин есть при «малом количестве снобов», а для женщин при среднем. При этом у мужчин, при малом количестве снобов, сильно выражен пофигизм, а у женщин при среднем количестве очень мало раздражения.
И вроде бы всё как-то непонятно, почему так и что это значит. Поэтому стоит рассмотреть срез по количеству снобов в процентах:
Таблица 3
Первая аномальность этой таблицы заключена в том, что предполагалось, что в рамках данной выборки теоретическое распределение снобов для разных полов примерно одно и то же. А на практике получается существенно разным для разных полов. Поэтому можно предположить, что таблица отражает не какие-то реальные распределения снобов (которых в природе нет (распределений)), а субъективные гендерные представления в рамках выборки относительно наличия снобов вокруг.
Идём дальше. Максимумы это почти половины для выборок женщин и мужчин. И тут мы можем увидеть, что эти максимумы как раз совпадают с сильно аномальными (отличными от равномерного распределения) результатами в опросе. При этом так же очевидно, что разница в количестве всё-таки достаточно большая, чтобы не объяснять такие выраженные аномалии недостаточным количеством людей в выборках.
Что можно предположить по этому поводу?
Можно предположить, что те, кто голосовали за самый популярный ответ, где-то глубоко внутри себя знали, что они голосуют за самый популярный (для их пола) ответ. Насколько «глубоко», что это знание проявилось в том, что они проголосовали с «аномальным» распределением, а не равномерным относительно общего двумерного распределения. С равномерным проголосовали все люди, которые «не принадлежат» большинству.
Т.е. Человек внутри себя осознает, принадлежит он большинству или нет. И у человека, который принадлежит большинству появляются некоторые характерные «свойства» относительно оценок социума, которых нет у меньшинств. В данном случае:
«Понимание» своей «странности», делает выбор определённых социальных свойств случайным.
Естественно, эти все измышлизмы касаются только выборки из опроса, какой бы она ни была. При желании, это всё, естественно, можно проверить более формально, но это опять-таки, как-нибудь в другой раз и в другом журнале (желательно с каким-нибудь хорошим импакт-фактором).
Это всё прекрасно, но хочется еще модель сделать, чтобы она это все считала. И вот как это можно записать с помощью значков, перенося естественное понимание происходящего на язык генератора случайных величин.
Степень субъективного восприятия количества снобов вокруг для каждого человека естественным образом моделируется случайной величиной с логноромальным распределением.
В модели предполагается, что степень человеколюбия варьируется 0 до 100 (Вследствие распределения может за него залезать, но не сильно). Соответственно, значения интерпретируются таким образом:
Коэффициенты распределений подбираются так, чтобы получались результаты из таблицы 3.
Для мужчин считается вероятность того, что он осознает себя «средним мужчиной»:
Если
Иначе: (если p<0, p равно 0),
— коэффициент, показывающий для мужчин в выборке степень их ощущения себя такими же как все.
Как видно, формула вероятности просто связывает вероятность осознания своей «среднести» с оценкой количества снобов вокруг и делает так, чтобы значение вероятности за 1 не выходило. Вот и все. Ничего более умного. Если человек склонен считать, что снобов мало, значит точно он осознает себя средним p=1. Иначе — вычли конкретное значение S из среднего, взяли по модулю, умножили на какой-то коэффициент, из единицы вычли получившееся. Изначально использовалась экспонента для расчета вероятности, но без нее оказалось даже лучше
Далее, если , Иначе: , где rand() — равномерное случайное значение от 0 до 1. Нормальное распределение тут моделирует аномалию для «человека из большинства», а — случайный выбор для человека не из большинства. Т.е. если человек «средний», у него «аномальное» распределение, если не «средний» — равномерное.
Далее интерпретируем R:
Для женщин считается вероятность того, что она осознает себя «средней женщиной»:
,
— коэффициент, показывающий для женщин в выборке степень их ощущения себя такими же как все. Если , иначе R равномерно распределен между 0-66, а другие варианты пропускаются. Так моделируется аномально маленькое количество женщин с раздражением относительно социальной активности. Интерпретируем R также как для мужчин.
Как видно, словесное описание и представление о происходящем, в некотором смысле, «натянуто» на простой математический каркас. Надо только чуть-чуть себе представлять, что могут моделировать те или иные распределения, но и все. Осталось только подобрать коэффициенты, чтобы получить результат похожий на оригинальный эксперимент.
Параметры для подгонки модели такие
Выборка 10000 эм, 10000 жо. Модель настраивалась имитацией отжига и рукопилежкой. Получились такие параметры:
Таблица 4
И наконец. Результаты смоделированного опроса:
Ошибка настройки (суммарное несовпадение процентов) 22% несовпадения (при максимальном 400) что красиво. Средняя ошибка процентных соотношений в модели к реальным значениям — 1.22%, СКО — 1.16% Остатки Хи-квадрат проходят, но со скрипом. Если объединить остатки, то без скрипа проходят. В общем, сносно. На самом деле есть систематическая ошибка, что «аномальное» распределение для женщин не очень хорошо моделируется, но с этим что-нибудь можно сделать.
Вот таким незамысловатым образом можно неплохо промоделировать достаточно сложное и непонятное поведение людей, не привлекая к вопросу нейросети и другие черно-ящичные методы. Все параметры имеют достаточно простой и интуитивно понятный смысл, которым можно оперировать при подгоне под эту модель какой-нибудь другой выборки. А потом можно легко и приятно интерпретировать разницу в результатах. Например, считать смещения оценочных аномалий или разницу в ощущении людей в выборке себя такими же как окружающие.
Каждый из параметров можно запросто сделать зависимым от чего-нибудь еще и промоделировать более глубокие связи. В общем, инструмент, как мне кажется, крайне полезный. Не факт, что он откроет какие-то глубины понимания явления, но точно заставит более внимательно присмотреться к данным и тому, что за ними может стоять.
Введение и постановка задачи
Рассмотренный ниже пример является в достаточной степени игровым примером построения такой модели. В нём не затрагиваются вопросы валидации данных, репрезентативности выборки, относительно которой строится модель, и валидации самой модели на схожих выборках. Естественно, при построении настоящих моделей такого рода вопросы выходят на первый план, но об этом и много написано. В данном случае волюнтаристски предполагается, что все репрезентативно и проверено (а это не так), чтобы не отвлекать от сути процесса. Т.е. может оно и репрезентативно, надо ещё придумать, относительно какой генеральной совокупности. Итак, о чем собственно речь?
Вконтакте был создан опрос, который сочетал в себе два вопроса с тремя вариантами ответов:
Сколько по вашему субъективному ощущению вокруг вас снобов?
- Много
- Средне
- Мало
Насколько вы любите социальные интеракции и всякий движ?
- Я всегда за, мне только дай
- Ко всему нормально, в среднем
- Социальные интеракции меня раздражают.
Естественно в опросе были все сочетания разнородных вариантов. Хотелось проверить банальную гипотезу, что люди, которые думают, что вокруг снобов много, не прям сильно рвутся в общество. Ну или ещё что-нибудь. Вот что получилось.
Исходные данные (результаты опроса)
Мужчины (Таблица 1)
Социален |
Пофигистичен |
Раздражителен |
|
Много снобов |
6 |
5 |
6 |
Средне снобов |
9 |
10 |
7 |
Мало снобов |
8 |
22 |
11 |
Женщины (Таблица 2)
Социален |
Пофигистичен |
Раздражителен |
|
Много снобов |
4 |
3 |
4 |
Средне снобов |
17 |
18 |
5 |
Мало снобов |
10 |
12 |
10 |
Гипотеза и качественное описание
Для начала следует увидеть, что большие отклонения от равномерного распределения для мужчин есть при «малом количестве снобов», а для женщин при среднем. При этом у мужчин, при малом количестве снобов, сильно выражен пофигизм, а у женщин при среднем количестве очень мало раздражения.
И вроде бы всё как-то непонятно, почему так и что это значит. Поэтому стоит рассмотреть срез по количеству снобов в процентах:
Таблица 3
Много снобов |
Средне снобов |
Мало снобов |
|
Мужчины |
20% |
31% |
49% |
Женщины |
13% |
48% |
39% |
Первая аномальность этой таблицы заключена в том, что предполагалось, что в рамках данной выборки теоретическое распределение снобов для разных полов примерно одно и то же. А на практике получается существенно разным для разных полов. Поэтому можно предположить, что таблица отражает не какие-то реальные распределения снобов (которых в природе нет (распределений)), а субъективные гендерные представления в рамках выборки относительно наличия снобов вокруг.
Идём дальше. Максимумы это почти половины для выборок женщин и мужчин. И тут мы можем увидеть, что эти максимумы как раз совпадают с сильно аномальными (отличными от равномерного распределения) результатами в опросе. При этом так же очевидно, что разница в количестве всё-таки достаточно большая, чтобы не объяснять такие выраженные аномалии недостаточным количеством людей в выборках.
Что можно предположить по этому поводу?
Можно предположить, что те, кто голосовали за самый популярный ответ, где-то глубоко внутри себя знали, что они голосуют за самый популярный (для их пола) ответ. Насколько «глубоко», что это знание проявилось в том, что они проголосовали с «аномальным» распределением, а не равномерным относительно общего двумерного распределения. С равномерным проголосовали все люди, которые «не принадлежат» большинству.
Т.е. Человек внутри себя осознает, принадлежит он большинству или нет. И у человека, который принадлежит большинству появляются некоторые характерные «свойства» относительно оценок социума, которых нет у меньшинств. В данном случае:
- Мужчины, такие же как большинство мужчин (по вопросу снобов), пофигистичны относительно соц. активности (аномально много проголосовавших за пофигистичность)
- Женщины, такие же как большинство женщин (по вопросу снобов), склонны НЕ быть раздражительными (аномально мало проголосовало за раздражение).
«Понимание» своей «странности», делает выбор определённых социальных свойств случайным.
Естественно, эти все измышлизмы касаются только выборки из опроса, какой бы она ни была. При желании, это всё, естественно, можно проверить более формально, но это опять-таки, как-нибудь в другой раз и в другом журнале (желательно с каким-нибудь хорошим импакт-фактором).
Модель
Это всё прекрасно, но хочется еще модель сделать, чтобы она это все считала. И вот как это можно записать с помощью значков, перенося естественное понимание происходящего на язык генератора случайных величин.
Степень субъективного восприятия количества снобов вокруг для каждого человека естественным образом моделируется случайной величиной с логноромальным распределением.
- Для мужчин
- Для женщин
В модели предполагается, что степень человеколюбия варьируется 0 до 100 (Вследствие распределения может за него залезать, но не сильно). Соответственно, значения интерпретируются таким образом:
- S [0-33] снобов много
- S (33-66] снобов средне
- S (66,...] снобов мало
Коэффициенты распределений подбираются так, чтобы получались результаты из таблицы 3.
Для мужчин считается вероятность того, что он осознает себя «средним мужчиной»:
Если
Иначе: (если p<0, p равно 0),
— коэффициент, показывающий для мужчин в выборке степень их ощущения себя такими же как все.
Как видно, формула вероятности просто связывает вероятность осознания своей «среднести» с оценкой количества снобов вокруг и делает так, чтобы значение вероятности за 1 не выходило. Вот и все. Ничего более умного. Если человек склонен считать, что снобов мало, значит точно он осознает себя средним p=1. Иначе — вычли конкретное значение S из среднего, взяли по модулю, умножили на какой-то коэффициент, из единицы вычли получившееся. Изначально использовалась экспонента для расчета вероятности, но без нее оказалось даже лучше
Далее, если , Иначе: , где rand() — равномерное случайное значение от 0 до 1. Нормальное распределение тут моделирует аномалию для «человека из большинства», а — случайный выбор для человека не из большинства. Т.е. если человек «средний», у него «аномальное» распределение, если не «средний» — равномерное.
Далее интерпретируем R:
- R [0-33] социален
- R (33-66] пофигист
- R (66,...] социофоб
Для женщин считается вероятность того, что она осознает себя «средней женщиной»:
,
— коэффициент, показывающий для женщин в выборке степень их ощущения себя такими же как все. Если , иначе R равномерно распределен между 0-66, а другие варианты пропускаются. Так моделируется аномально маленькое количество женщин с раздражением относительно социальной активности. Интерпретируем R также как для мужчин.
Как видно, словесное описание и представление о происходящем, в некотором смысле, «натянуто» на простой математический каркас. Надо только чуть-чуть себе представлять, что могут моделировать те или иные распределения, но и все. Осталось только подобрать коэффициенты, чтобы получить результат похожий на оригинальный эксперимент.
Параметры для подгонки модели такие
Результаты моделирования
Выборка 10000 эм, 10000 жо. Модель настраивалась имитацией отжига и рукопилежкой. Получились такие параметры:
Таблица 4
4.15 |
0.73 |
4.02 |
0.47 |
20 |
3.6 |
23 |
Мужчины, смоделированные проценты
Таблица 5 (в скобках реальные проценты из опроса)Социален |
Пофигистичен |
Раздражителен |
|
Много снобов |
6%(7%) |
6%(6%) |
6%(7%) |
Средне снобов |
11%(11%) |
12%(12%) |
11%(8%) |
Мало снобов |
10%(10%) |
28%(26%) |
10%(13%) |
Женщины, смоделированные проценты
Таблица 6 (в скобках реальные проценты из опроса)Социален |
Пофигистичен |
Раздражителен |
|
Много снобов |
5%(5%) |
4%(4%) |
5%(5%) |
Средне снобов |
22%(20%) |
19%(22%) |
10%(6%) |
Мало снобов |
12%(12%) |
12%(14) |
11%(12%) |
Вывод
Вот таким незамысловатым образом можно неплохо промоделировать достаточно сложное и непонятное поведение людей, не привлекая к вопросу нейросети и другие черно-ящичные методы. Все параметры имеют достаточно простой и интуитивно понятный смысл, которым можно оперировать при подгоне под эту модель какой-нибудь другой выборки. А потом можно легко и приятно интерпретировать разницу в результатах. Например, считать смещения оценочных аномалий или разницу в ощущении людей в выборке себя такими же как окружающие.
Каждый из параметров можно запросто сделать зависимым от чего-нибудь еще и промоделировать более глубокие связи. В общем, инструмент, как мне кажется, крайне полезный. Не факт, что он откроет какие-то глубины понимания явления, но точно заставит более внимательно присмотреться к данным и тому, что за ними может стоять.