Женщины сами не знают, что хотят, а мужчины говорят о работе. И мои слова - это не стереотипное мышление, а обоснованное на данных заявление. По крайней мере, на основе данных 240 тысяч анкет женщин и мужчин, которые я спарсила с сайта mamba.ru, а потом “разложила по графичкам”. Цель была - сформировать портреты пользователей, но и плюсом пришла к приятному и немного трогательному выводу.
Код парсинга и ноутбук анализа доступны на GitHub
Почему спарсилось так мало женщин?
Вот это вопрос, ответ на который знает только Вселенная. Сначала у меня был датасет из 80К анкет женщин, и аж 180К анкет мужчин. Пришлось дозапускать парсер с условием отбора “женских” анкет, чтобы получить хотя бы 140К женщин. Соответственно, “мужские” данные сократила также до ~140К.
К слову, парсила я около 3 недель - процесс оказался небыстрым. Я использовала простой get-запрос из библиотеки requests в Python, а потом вытаскивала нужные мне характеристики с помощью BeautifulSoup и регулярных выражений, а именно:
возраст
рост
вес
образование
с кем живу
дети
цель на сайте
пол
пол возможного партнера
язык
возраст партнера
К полученным данным добавила дополнительные поля:
диапазон лет возраста партнера
начальный возраст партнера
Также я упростила (сгруппировала) разнообразие целей пользователей на 6 групп: флирт, отношения, семья, друзья, неуверенные (те, кто перечисляют очень много целей, от пяти) и те, кто не указали цель.
И еще спарсила текст в графе “О себе”. Вы относитесь к тем людям, которых раздражает, если пользователи не пишут на сайтах знакомств ничего в этой графе? Я - да. Если вы в моей лодке, то, к сожалению, нам придется раздражаться в 92% случаев - ведь я получила именно такой процент анкет, где в этой графе было так же пусто, как в космосе. Что же хотят эти люди? О чем мечтают? Об этом поговорим еще немного позже.
Также очень неохотно люди писали о своих жилищных условиях (всего 20%), своем весе (всего 23%), наличии табачной зависимости (25%) и детей (26%) и почему-то - об уровне образования (тоже 26%).
Демографическая сводка не хуже, чем у Росстата
Да, совсем не стесняюсь так говорить. Потому что у меня было так много данных, что можно было бы даже не применять статистические тесты на проверку “правдивости” сравнений и закономерностей, которые я получала (пишу “закономерностей” в кавычках, потому что в статистике в этом контексте говорят слово “значимость” - но, на мой вкус, лучше смысл феномена отражает слово “правдивость”). Тесты я, конечно, делала: хи-квадрат, t-test, смотрела коэффициенты асимметрии и всякое такое. Но в моем случае уже действовал закон больших чисел: когда данных много, среднее их значение приближается к математически ожидаемому. Короче говоря, чем больше данных, тем более правдивые выводы можно на них делать.
А еще я выбросила из основного анализа данные людей, старше 45 и младше 18 (ага, были и несовершеннолетние на сайте: родители, будьте бдительны), потому что их было подавляюще мало, но они образовывали “хвосты” или выбросы в данных. И после этого почти всегда данные были распределены почти нормально, еще один плюс “за” то, чтобы ограничиваться мерами центральной тенденции, т.е. простыми средними или наиболее частыми значениями. Поэтому для числовых значений я так и сделала, и смотрите, какие портреты мужчин и женщин, пользователей сайта mamba.ru, я получила:
Средний возраст пользователя - 31.
Средний вес - 70.
Рост - 172 (кстати, любители высоких, максимально обозначенный рост в анкете был 220 см: так что ищите, и вы обязательно найдете своего великана).
Средний возраст ожидаемого партнера - 27.
Посмотрела, чтобы удостовериться, есть ли корреляция в возрастах между теми, кто ищет, и теми, кого ищут. Закономерно, корреляция практически прямая: более старшие ищут более старших.
А что у нас по детям? У кого сколько? Тут, на мой вкус, получилась ну прям мега-логичная демографическая сводка: мужчины чуть ли не в 4 раза больше женщин живут порознь со своими детьми, а женщины чуть ли не в 8 раз больше, чем мужчины, живут со своими детьми. Ведь дети обычно остаются с мамой. И, в среднем, о детях вообще начинают писать люди от 35 лет, что закономерно тоже. Однако мужчины больше хотят детей, чем женщины. Может быть, потому что у среднестатистической женщины на сайте знакомств вероятность УЖЕ иметь детей выше? Вопрос на подумать на досуге.
И наконец, просто оставлю списком самые частые города, в которых живут люди из моей выборки, где цифры - это количество людей в этих городах.
Зачем идут на сайт знакомств?
Просто оставлю тут график. По оси Y выбрала процент в качестве меры, но данные проверены на статистический тест хи-квадрат. Т.е. вы можете быть почти уверены, что этот график - отображение всех людей, кто был, есть или будет в ближайшем будущем на mamba.ru.
Как видно, мужчинам явно больше хочется флирта (casual), а у женщины заметно больше, чем мужчины, хотят лишь дружить (friendly), и едва-едва их больше в группе “семейных” (family-person). В основном, распределение по целям у мужчин и женщин более-менее одинаковое, разве что женщины в большей степени не знают, чего хотят (unknown).
А теперь давайте посмотрим, может, женщины и мужчины отличаются по целям на сайте знакомств в зависимости от возраста? В графике ниже представлены уже не процентные значения, а именно количественные. По оси Y у каждого график - своя шкала - это количество людей. По оси Х - возраст.
Распишу, по сути, каждый из мини-графичков.
Средние возраста по целям:
флиртовать, встречаться: м 31, ж 29
быть в отношениях: м 31, ж 32
дружить: м, ж ~ 30
хочу все подряд (неуверенные): м 32, ж 31
не указали цель: м 31, ж 30
семья: м, ж ~ 34,5
Очевидный вывод - средний возраст в группах по разным целям колеблется от 29 до 32 с маленькими различиями. Самый большой разрыв между возрастами потенциальных партнеров в 2 года в цели флирт: мужчины хотят в 31, а женщины - в 29. В целом, в около 30 все хотят "гулять" и люди ищут партнера (романтического, сексуального, дружеского), к семье приходят к 35, но мало кто сидит на сайте с целью создания семьи (всего ~0,9%).
Подводя первую жирненькую черту, просто отмечу, что мне показалось вполне логичным, что возраст “семейный” наступает позже, чем возраст “гуляющий”. Не знаю, насколько логично, что женщины младше мужчин в группе тех, кто ищет флирта, но старше в той, где люди ищут серьезных отношений. Получается, женщины созревают для отношений попозже? А вот в группе тех, кто хочет подружить, мужчины и женщины ищут сверстников, что и вполне объяснимо: все же дружить приятней с самым близким тебе поколением.
Также посчитала, какие слова пишут в целях люди из группы “неуверенные”. И они хотят, похоже, повстречаться, подружить, пообщаться, наверное, можно было бы занести их в группу дружелюбных.
А есть ли разница по целям между теми, кто пишет о себе (заполняют ту самую графу), и теми, кто не пишет? В графике верхний столбец (над чертой) - это мужчины. Красные - это люди с описанием. Синие - без. Ось Y - это количество. Ну с обозначениями оси Х вы уже знакомы.
Интересно, или даже закономерно, что люди, которые неуверенные, пишут и более пространственные описания. Наверное, поясняют, что хотят. Ну и более дружелюбные тоже пишут много, вероятно, чтобы пояснить, что они только дружить хотят. И интересно, что люди в поисках отношений (relationships) заполняют секцию “о себе” 50 на 50.
Неактивные просто оставляют четыре?
Я заметила, что очень много людей на mamba.ru выбирают возможный диапазон возраста для потенциального партнера, равный четырем: это целых 64.2%. Я предположила, что 4 - это стандартный для приложения диапазон лет возраста партнера и, возможно, люди которые выбирают стандартный диапазон, меньше заинтересованы в использовании сайта, т.е. они могут быть менее активными.
Поэтому возник вопрос: отличаются ли группы тех, у кого диапазон возраста партнера 4 (ДА4) и все остальные (НЕ4)? По базовым статистикам (возраст, рост, вес) разницы почти не оказалось. Разве что люди из группы НЕ4, похоже, в целом менее придирчивы к возрасту партнера - половина из них рассмотрит партнера в 11-летнем диапазоне возраста. Т.е. таким людям подойдут партнеры, например, и 27, и 32, и 38 лет.
Мне это показалось странным на фоне того, что группа тех, у кого больший диапазон возраста партнера, в целом, менее возрастная. Почему странным? Да потому, что, когда тебе 21, человек 30-ти лет кажется совсем другим. А когда тебе 35, то что-то общее есть и с 30-летним, и с 40-летним. Поэтому было бы логичнее, если бы больший диапазон возраста был у более “старших”. В общем, еще один вопрос “на подумать”, глядя на график внизу.
Кстати, еще кое-что в подтверждение моей гипотезы, что те, кто выбирают 4 в качестве диапазона лет для возраста партнера - менее активны, это то, что у них просто гигантская доля людей, чью цели на сайте неизвестны. Возможно, это просто люди, которые вообще на сайте “проездом”. А вот те, кто указывают другой, более разнообразный диапазон возраста партнера, указывают и более разнообразные цели от сайта.
Женщинам - путешествия, мужчинам - работа
О чем пишут женщины
А теперь о тех “котиках”, которые меня не раздражают - о тех самых 8%, которые заполняют графу “о себе”. Они меня не раздражают еще и потому, что предоставляют возможность провести какой-никакой семантический анализ. Хотя бы на уровне подсчета слов. А еще посмотрела, как себя описывают пользователи.
Так вот. На уровне подсчета слов женщины, в среднем, пишут на два-три слова больше о описании в анкете. Первая трогательная заметка - женщины часто пишут о счастье: хотят сделать кого-то счастливым или самой быть счастливой. Или же ищут уже счастливого человека. В целом, пишут о том, кого хотят и зачем, а также о своих интересах.
Кого хотят: в партнере ценят юмор, активность, доброту, часто ищут “хорошего", а ближе к середине в списке характеристик будущего избранника начинают появляться слова: “щедрый", “заботливый", “сильный", “порядочный", “самодостаточный".
Какие интересы: путешествовать, гулять, готовить, природу, читать, танцевать и петь.
О себе женщины пишут, в порядке убывания популярности: ““добрая”, “красивая”, “общительная”“, “веселая”, “хорошая”, “милая”, “позитивная”, “умная”, “адекватная”, “активная”, “творческая”, “заботливая”, “верная”, “искренняя”.
Ради шутки, у меня промелькнула мысль: почему это “верная” и “искренняя” находятся на последних местах? А “умная” - в середине списка? То есть мы в себе ценим лишь доброту да красоту? Женщины, давайте взращивать в себе благородство и ум!
О чем пишут мужчины
Забавно, что у мужчин в топ-50 самых встречаемых слов встречаются разные формы слова “работать" или “работа", а у женщин – нет. Также у мужчин часто встречается слово “женат", а вот у девушек “замужем" - нет. Часто пишут слова “общение", “отношения".
Опять-таки, в порядке шутки, возник вопрос: что это значит, господа? Ищем на сайте любовниц, с которыми будем отдыхать после работы?
Также интересно, что мужчины не употребляют особо глаголов, связанных с хобби. В основном, это глаголы действия: “поговорить", “смотреть", “узнать", “сходить", “пообщаться", “создать" (вероятно, в контексте “создать семью"), “поддержать", “сказать". Из глаголов-хобби встретились лишь: готовить, путешествовать, гулять, играть, читать.
О себе мужчины пишут, в порядке убывания популярности: “добрый", “хороший“, “общительный“, “адекватный“, “активный“, “спокойный“, “весёлый“, “позитивный“, “высокий“, “честный“, “заботливый“ , “красивый“, “верный“, “спортивный“, “порядочный“, “умный“, “работящий“.
Хм… Странно, что “работящий” - лишь в конце списка, когда мужчины так много пишут о работе в секции “о себе”.
В партнере мужчины очень ценят… А не очень понятно, что! Потому что в описаниях будто два варианта: либо прямое “я хочу только секс без обязательств", либо какая-то философская фраза, либо “если вы за феррари – мимо, я ищу любимую". Поэтому встречаем эпитеты: “единственная", “любимая", “милая", “адекватная", “умная" и только ближе к концу – “симпатичная", “сексуальная", “верная", и в самом конце – “веселая", “общительная", “творческая". И знаете, то, что мужчины ищут единственную - это второе трогательное открытие!
И мужчины, и женщины пишут…
…о сексе, детях (вероятно, в контексте есть или нет детей), душе (вероятно, в контексте “родственной души"), семье, музыке, спорте, юморе (очевидно, все ищут партнера с чувством юмора).
Складывается впечатление, что женщины более точны в своих описаниях - и себя, и партнера, а мужчины, наверное, больше пишут про свои цели (секс, романтика, жена) или же философствуют. Те, кто пишет характеристики желаемого партнера, определенно хотят “доброго", “хорошего", “с чувством юмора", и мужчины, и женщины.
И наконец… о самом трогательном
Кроме того, что женщины хотят сделать кого-то счастливым, а мужчины - найти единственную, меня поразило, что эти 8% людей, которые оставили о себе какие-то описания, чаще всего писали словосочетание “серьезные отношения” (или похожее на него). Всего порядка 900 анкет, и порядка 1300 описаний, где есть слово “отношения”
Поэтому, ребята, найти любовь можно и онлайн. И даже нужно. Просто помните, что нет “хороших” и “плохих”. Есть просто те, кто вам подходит, и те, кто вам не подходит. Люди на сайтах знакомств будут самые разнообразные, но ведь кто ищет - тот всегда найдет.
Комментарии (43)
SomeAnonimCoder
23.05.2023 18:44+18Классная статья, единственное что стоит предостеречь от выводов о чём-то кроме контингента сайтов знакомств на основе этой статистики. Здесь сразу два байаса:
посетители сайта знакомств не являются репрезентативной выборкой популяции
посетители сайта знакомств пишут о себе то что выгодно им, а не обязательно правду Интересно было бы поанализировать насколько значительно влияние (2), но у меня нет ни малейшего представления откуда для этого взять данные
NataliaBlinnikova Автор
23.05.2023 18:44Здравствуйте, спасибо за ваш комментарий! Согласна, обобщать выборку не стоит, но даже субъективно мне кажутся логичными полученные средние значения и результаты анализа описаний :)
jsre
23.05.2023 18:44Плюс у «Мамбы» давно уже специфическая репутация, по-моему. Непонятно, зачем ей пользоваться при наличии «Тиндера» (пока) и «Баду» (даром что его веб‑версия больше не доступна в РФ). Другие сайты знакомств и перечислять неловко, там в основном кринж. (А симпатичный Bumble и англоязычный OkCupid, увы, не для России.)
NataliaBlinnikova Автор
23.05.2023 18:44Наверное, сколько людей, столько и мнений - мои знакомые, женаты, вместе 4 года, встретились на мамбе)
ilitaiksperta
23.05.2023 18:44+21Каким образом этот рофл стал научным?
Если люди пишут в анкете что они чето хотят, это не значит что они реально этого хотят. Особенно это касается женщин. Это эмпирический факт, с которым сталкивался каждый, кто топчет эту планету дольше 15 лет. Ну вы же знаете, люди
п...говорят неправду.Т.е статья - классический анализ мусора. Garbade in - garbadge out. Делать на мусорных данных тесты типа хи-квадарта, это вообще хихи-квардарт.
Про произвольные выкидывания кусков выборки даже как-то неприлично упоминать.
Самое научное тут написание парсилки.
tsaregorodtsev
23.05.2023 18:44+3А почему произвольное выкидывание-то? Отсечь выбросы по значимому параметру - вполне нормально. 18- - логично, 45+ - тут не помешал бы точный процентиль, но если автор сказал, что мало - значит мало
ilitaiksperta
23.05.2023 18:44+2Соответственно, “мужские” данные сократила также до ~140К.
Я про это. Какие именно анкеты выкинуты, по каким критериям, непонятно.
Средний рост - 172
С этого еще кекнул, автор не знает про половой диморфизм. Средняя женщина значительно ниже среднего мужчины. Еще бы средний размер сисек или члена посчитала.
tsaregorodtsev
23.05.2023 18:44+2Среднее без разбивки по полу? Ну да, грустно. Это лучше поправить
larasage
23.05.2023 18:44Несколько лет назад анализировал по росту мамбу (прежде всего тогда интересовало - различается ли рост людей разных поколений). Насколько я помню у мужчин максимум был в районе 175, а у женщин - 165. Но там в данных такая "пила Чурова" была... каждые 5 см - пик.
ilitaiksperta
23.05.2023 18:44-1Лол, тянет на научное подтверждение того, что карланам не дают, и им приходится сидеть на мамбе.
Myclass
23.05.2023 18:44+5не знаю, читаете-ли вы какие-нибудь научные журналы. Там научного тоже не ахти сколько. Уйма докторских написано на всевозможной галиматье, так что - статья здесь с не совсем правдоподобными данными - тоже не есть большое зло. К данным и выводам из этой статьи - не могу оценить. Но подход для анализа, постановка гипотезы и анализ - сделано неплохо. Иногда учиться анализу можно и на пвсевдо-данных :)
Corsonamor
23.05.2023 18:44+1Ну хабр же не научный журнал. Никто не заставляет по 3 статьи в год сюда писать, чтобы не потерять в зарплате. Можно просто не писать.
Myclass
23.05.2023 18:44+1Ну хабр же не научный журнал.
но ведь и статья не научная, если берём за факт - пвсеевдо-данные, которые использовались. Но с вами согласен - вопросы остаются.
ilitaiksperta
23.05.2023 18:44+2статья здесь с не совсем правдоподобными данными
Статья пытается анализировать реальность на основании лжи которую пишут люди. Это мусор by design.
читаете-ли вы какие-нибудь научные журналы. Там научного не ахти сколько
Британские ученые ближе к науке, чем то, что вы называете научными журналами. Зачем такую херню читать, мне непонятно.
Newbilius
23.05.2023 18:44+3Проанализировано то, на основе чего посетитель сайта знакомств принимает решение "попробовать познакомиться или нет". Называть эту инфу мусором как-то очень... радикально, что ли)
ilitaiksperta
23.05.2023 18:44Проанализировано то, на основе чего посетитель сайта знакомств принимает решение "попробовать познакомиться или нет"
Не вижу в статье анализа фотографий
Newbilius
23.05.2023 18:44+1Ну так и у меня в комментарии нет указания, что проанализировано "всё" ;)
ilitaiksperta
23.05.2023 18:44Ну так и в статье никто не пытается анализировать, какой процент юзеров действительно учитывает эту инфу при "попробовать познакомиться или нет".
Например, в том же тиндере описание почти никто не читает, потому что там фотка во весь экран, а до описания еще доскроллить надо.
NataliaBlinnikova Автор
23.05.2023 18:44Наверное, поэтому люди и не заполняют графу "О себе", хотя мне лично это интересно больше всего в профиле.
NataliaBlinnikova Автор
23.05.2023 18:44здравствуйте, спасибо за ваш комментарий! К сожалению, не умею работать с библиотеками для компьютерного зрения((
NataliaBlinnikova Автор
23.05.2023 18:44здравствуйте, спасибо за ваш комментарий! Это, на самом деле, интересная мысль - "на основе чего принимает решение" - я больше размышляла о том, как люди презентуют себя и свои желания, ваша идея интерпретации очень классная.
freeExec
23.05.2023 18:44+3Ну почитайте тогда научную литературу про ту же перепись населения. Там тоже заполняется со слов опрашиваемого и можно наговорить любой дичи.
ilitaiksperta
23.05.2023 18:44-2И че? Если на какойто херне написано что она научная, она от этого становится научной? И не важно, перепись населения или анализ сайтов знакомств.
Можно наговорить чуши != есть очевидный умысел врать. В данной статье автор анализирует очевидную ложь, под видом правды. Это не то что ненаучно, это просто смешно.
Жду анализ статистики количества половых партнеров, длины члена и размера сисек, со слов опрашиваемых.
NataliaBlinnikova Автор
23.05.2023 18:44спасибо за ваш комментарий! Подскажите, я немного не поняла, почему вы называете собранные данные "не совсем правдоподобными"? Это данные пользователей, которые они о себе указали, достаточные для создания портрета пользователя, в чем и была цель анализа :)
tsaregorodtsev
23.05.2023 18:44+3Хороший разбор, спасибо автору. Было бы здорово, если бы была ссылка на код парсилки и построения графиков.
Если автор так заморачивается стат-тестами, то ожидалось больше визуализаций распределений. Да, я увидел в тексте, что всё "почти" нормально. Но это генеральные совокупности, а вот все параметры, связанные с заполняемостью анкеты - не уверен.
NataliaBlinnikova Автор
23.05.2023 18:44+1здравствуйте, спасибо за комментарий! Ссылка на парсер и ноутбук в начале статьи.
tsaregorodtsev
23.05.2023 18:44+1Автор немного использует терминов, не очевидных для тех, кто не был на этом сайте знакомств. Например, диапазон возраста - это относительно выбранного целевого или своего? Этот диапазон обязательно симметричный и 18-летние в затруднительном положении?
NataliaBlinnikova Автор
23.05.2023 18:44здравствуйте, очень рациональное замечание, имелся в виду диапазон возраста партнера, т.е., например, если вам 31, то вы можете поставить, что ищите партнера в возрасте от 27 до 31 - диапазон будет тогда 4.
Vsevo10d
23.05.2023 18:44+1Сайты знакомств такие:
- эээ брат, бесплатно не пообщаешься брат, оформи премиум, брат
- ээээ лэээ брат, премиум это чтоб ты хотя бы писать мог, брат, фильтры поиска, симпатии, избранные — это суперпремиум купить надо, брат
- видишь ли, брат, месяц суперпремиума стоит как три месяца суперпремиума, брат, бери сразу полгода, брат, в натуре выгодно, брат
- тц-тц-тц. Эх, брат, за поднятие анкеты в поиске, брат, надо отдельно платить, брат, и за размещение в промо ленте тоже, брат, даже если ты суперпремиум брат, брат
где-то на этом моменте средний пользователь осознает уровень конверсии вложенных баб в настоящих баб и сваливает с сайтов знакомств. Пять оставшихся месяцев оплаченного суперпремиума тикают в одиночестве
Newbilius
23.05.2023 18:44Но ведь неправда ваша) Количество моих знакомых, которые успешно познакомились через тиндер со своими теперь уже жёнами или мужьями не вложив ни копейки впечатляет) Но это тиндер, возможно другие сервисы и правда не столь адекватны в плане монетизации.
Vsevo10d
23.05.2023 18:44Как раз упоминание тиндера и выдает вашу неправду, поскольку это донатное поделие позволяет бесплатно общаться только при мэтчах, насколько мне известно. И как и любая картиночного типа приложуха со свайпами она полна в основном наштукатуренными муклами с очень сложными хлебальниками, пишущими разного рода
стоп-ключевые слова "щедрого", "приятные встречи", "обеспеченного", "отношений не ищу" и т.д.
Единственный способ познакомиться на сайте знакомств — искать по новорегам, которые ещё не успели потерять веру в человечество от "десяти метров х***в и ведра яиц" (с) башорг, присланных в личку, девушек с хоть каким-то проблеском интеллекта в глазах и в случае их ответа сразу же переводить общение в мессенджеры.
Ну и вообще, на сайте со статичными картинками и незаполненными графами о себе пытаться понять и узнать человека — бред, как машину наудачу на Авито брать без осмотра.NataliaBlinnikova Автор
23.05.2023 18:44Чисто философская дискуссия: ведь вы можете быть тем самым человеком, который будет искать единственную(ого) на сайте. Т.е. тем самым хорошим человеком. А те, кто ищут "щедрого", "приятных встреч" - ну пусть ищут))
NataliaBlinnikova Автор
23.05.2023 18:44здравствуйте, правда? Я просто последний раз там была 2.5 лет назад, вроде такого не было, бесплатно можно было общаться.
Vsevo10d
23.05.2023 18:44Я просто последний раз там была 2.5 лет назад
Это значит – получилось или нет? :))
бесплатно можно было общаться.
Их очень много разных, но подтипа два: лютый бесплатный трэш или дойка заградительными для совсем уж неадекватного быдла ценами.
KoJIx03HUk
23.05.2023 18:44По картинке "количество людей из городов" - либо данные уже устарели, либо полторы тысячи казахов из выборки ещё не знают что Нур-Султан обратно переименовали :)
NataliaBlinnikova Автор
23.05.2023 18:44ахаха, забавно, данные парсились в октябре 2022, вроде тогда еще был Нур-Султан
warlock66613
Существуют три вида лжи: ложь, наглая ложь и статистика.