Потому что во многой мудрости много печали;
И кто умножает познания, умножает скорбь.
• Екклесиаст 1:18

Кадры из фильма Казино Рояль (2006)


Данная статья не может служить поводом для выражения нетолерантности или дискриминации по какому-либо признаку.


В первой части статьи я только лишь обозначил проблему, которая звучала следующим образом: вероятность быть одинокой/одиноким зависит от имени человека. Более корректно было бы использовать слово корреляция, однако я все же позволю себе некоторую лингвистическую вольность еще раз в этом вопросе и буду надеятся на то, что все понимают это утверждение правильно. Тем не менее, я хотел бы поблагодарить всех за комментарии к моей предыдущей статье.


В одном из комментариев я говорил о том, что вполне возможно, есть некоторый третий фактор, который коррелирует c именем и одиночеством. В качестве иллюстрации я привел пример с яблоками: положим, что одиночество зависит от того, сколько яблок ест девушка, и по какой-то причине девушки с именем Катя едят больше яблок, чем с имеем Маша. Понятно, что для каждой конкретной Маши или Кати это не значит ровным счетом ничего, но в среднем выходит, что одни одиноки более, чем другие, из-за того, что едят яблоки в разном количестве.


На самом деле проблема сводится к другой ровно такой же: почему люди с одним именем едят яблок больше, чем другие? Однако объяснение этой корреляции может оказаться более простым.


Cherry picking и статистическая значимость


Прежде чем я продолжу, я сделаю несколько замечаний по поводу выборки в предыдущей статье, потому что мы продоложим с ней работать. С одной стороны, я действительно предпочитаю качественные аргументы. С другой стороны, я понимаю людей, который задают вопрос почему выборка была именно такой и статистически значимы ли результаты. Я сознательно ничего не писал про статистическую значимость, потому что ситуация, когда два "случайных" процесса ведут себя одинаково в разных системах, с разными людьми и механикой постановки статуса кажется мне совершенно невероятной. Что касается выбора имен, тут есть элемент случайности (я старался брать не только имена своих знакомых девушек, но и заполнять недостающие в частотном смысле части распределения), но я не делал ничего специально, кроме ограничения себя в количестве, а полученная таблица содержала 3 стабильные части совершенно независимо от моего желания.


Однако, по просьбе трудящихся (как написано в одном из комментариев), я взял 100 абсолютно случайных имен, для которых было достаточно статистики в Одноклассниках и проверил, что будет если перемешать сами имена. Если бы я получил точно такое же распределение (после подсчета u), как предсказывали некоторые люди, то можно было бы говорить, что результат статистически не значим и в лучшем случае можно говорить о зависимости лишь от частоты имени. Однако тест Манна-Уитни показал p-value = 0.000256, т.е. начальное распределение и то, что получилось при перемешивании — совершенно разные вещи.


Поэтому я и дальше буду использовать изначальные таблицы, считая их в достаточной степени репрезентативными для нашего исследования.


У меня будут проблемы с вами, Бонд?


Мой опыт работы в СПбГУ натолкнул меня на следующую мысль (мне кажется, она посетила не меня одного): а что если более умные люди более одиноки? То есть весь этот диалог между Бондом и Веспер на картинке из фильма Казино Рояль — это своего рода тавтология в вероятностном смысле.


Хорошо известно, что IQ тесты не очень репрезентативны, да и померить IQ на прямую в социальной сети не представляется возможным. Но мы можем сделать следующее предположение: люди, которые имеют высшее образование, в среднем более умные, чем те, кто его не имеют. Конечно, это так себе критерий, потому что высшее образование есть почти у всех. Поэтому можно попробовать взять более или менее элитные учебные заведения, но такие, чтобы diversity по специализации было достаточно хорошим. Поэтому мы попробуем сделать следующее: для города Санкт-Петербург мы посмотрим распределение имен среди студентов СПбГУ, а для Москвы — соответственно среди студентов МГУ. Это опять же спекулятивное предположение, но в среднем оно вполне жизнеспособно для наших целей.


Сделаем следующее: просто найдем тех, кто учился в СПбГУ и МГУ с заданным именем и поделим на число всех с таким именем в нужном городе. По правде говоря, имя Лейла тут стоило бы убрать, т.е. оно имеет некоторую "региональную специфику", но для полноты картины мы ничего трогать не будем.


Давайте посмотрим, что же получилось и сравним с теми таблицами по городам Санкт-Петербург и Москва, что я сделал для предыдущей статьи:






Здесь p = edu / all, т.е. доля девушек с данным именем (согласно статистике ВКонтакте), которые учились или учатся в СПбГУ в общем объеме людей с таким же именем в Санкт-Петербурге.


Теперь тоже самое для МГУ:






Давайте еще раз взглянем для сравнения на таблицы из предыдущей статьи. Вот распределение по Санкт-Петербургу (q — это унифицированный показатель "одиночества", полный спектр обозначений можно найти в первой части статьи).


Статистика по Санкт-Петербургу



Для Москвы распределение выглядит следующим образом:


Статистика по Москве



Видно, что по крайней мере верхняя и нижняя часть таблицы при сортировке по p и q более или менее совпадают, средняя немного перемешана, но каких-то существенных перестановок между частями не наблюдается. В случае имени Инессы есть некоторое несовпадение, для точного анализа нужно было бы отделить имя Инна и Инесса и посмотреть детали распределения по Москве и Санкт-Петербургу. Но здесь мы этого делать не будем, ограничимся лишь качественной оценкой. Для этого построим "зависимость" q от p для случая Санкт-Петербурга:




Теперь такой же график для МГУ:




То есть выходит так, что более умные и хорошо образованные девушки более одиноки. Это все конечно условно, и возможно например, что это лишь означает более поздний брак.


Рейтинг университетов


На самом деле, если есть корреляция между одиночеством и хорошим образованием, то, наверное, одиночество можно считать некоторой мерой качества образования и интеллекта (конечно, в вероятностном смысле). Поэтому я взял несколько хороших университетов, которые смог сходу вспомнить (и которые с некоторым трудом мне удалось найти в поиске в ВК) и решил посчитать для них те самые показатели q, u и v, которые в прошлой статье я сосчитал для множества имен. Как и в случае имен я взял и сделал сортировку по q (в качестве дополнительного параметра я посчитал diversity d = all / (all + all_m) по гендерному признаку, где all_m — это количество молодых людей в университете):


Рейтинг одиночества


Вам это ничего не напоминает? Правильно, если погуглить рейтинг университетов, то можно найти следующее (это верхушка национального рейтинга):


Национальный рейтинг университетов


Кто хочет увидеть полный рейтинг, тому сюда: Национальный рейтинг университетов 2017. Конечно в моей таблице не все ВУЗы, и для университетов с низким рейтингом это так не работает (к примеру, для РГПУ им. Герцена), однако это точно заставляет задуматься.


Вместо заключения


Трудно сказать, насколько сильно мы приблизились к пониманию происходящего. Однако корреляция между образованием и одиночеством уже не выглядит так безумно, как корреляция между именем и одиночеством.


Здесь я использовал данные Одноклассников только для проверки статистической значимости результатов предыдущей статьи, а все остальное было построено целиком на данных ВКонтакте.

Комментарии (38)


  1. ildarz
    07.09.2017 12:38
    +3

    Думаю, еще немного, и вы окончательно откроете Америку — в среднем "более одиноки" женщины, чей социальный статус позволяет независимость.


    1. thatsme
      07.09.2017 15:54

      Думаю, еще немного, и вы окончательно откроете Америку — в среднем «более одиноки» женщины, чей социальный статус позволяет независимость.

      Таки да! К томуже, умным людям одиночество не так страшно (тут-же на хабре была публикация об исследовании и в предыдущей статье автора, кто-то ссылку даван на эту публикацию). Однако, в соотвествии с этими таблицами можно сказать, что образованных девушек с именем Кира больше, чем с именем Екатерина. И если Вы хотите найти умную (или образованную) и одинокую девушку, то шанс что её имя будет Кира, статистически выше.

      Однако, я подозреваю что значение имеет не само имя, а среда в которой дают те или иные имена. Т.е. Василий и Екатерина из Мусохранска, с большей вероятностью назовут дочь Еленой или Наташей или Таней, чем Кирой.


      1. modestguy
        08.09.2017 08:48
        +1

        Как представитель «мухосранска» заявляю Вам, что мода на имена распространяется гораздо быстрее, чем Вы себе предполагаете ;)


        1. thatsme
          08.09.2017 09:30

          1. Вы неверно прочитали название города.
          2. Я даже спорить не буду о скорости распространения, особенно в наш век когда расстояния, благодаря Интернет, особого значения не имеют.
          3. Eсть зависимость пупулярности имени от региона: 1, 2
          4. В одном я точно ошибался:

          И если Вы хотите найти умную (или образованную) и одинокую девушку, то шанс что её имя будет Кира, статистически выше.

          Это толькоисходя из статистики автора статьи.


    1. xenon
      08.09.2017 06:44

      Мне кажется, эти «очевидные» логические рассуждения не очень ценны. С одной стороны, да, конечно, чего тут считать-то, очевидно, что сильные женщины — более самостоятельны, чем слабые. Но с другой — они же и имеют больше возможностей для выбора хорошего мужа, то есть, должны быть «менее одиноки». И так на каждый аспект есть множество сил, которые в одну сторону действуют, и множество в другую. Куда бы движение не было — мы его легко обоснуем, назовем те очевидные силы. Но вот куда будет направлена эта равнодействующая сила — можно узнать только из статистики.

      Как в том анекдоте про аналитиков: Ты мне скажи, что происходит, а объяснить я и сам могу.


  1. basilbasilbasil
    07.09.2017 12:52
    +5

    Главное до закона выжившего не дойти.


  1. MrGobus
    07.09.2017 13:13
    +1

    Помоему ничего удивительного, это все естественный отбор и регулирование популяции.

    «Умники» нужны как катализатор для поддержания уровня популяции, не более того. Можно сказать, что «умники», это разведчики посланные узнать новые места кормления и развития. Если ему это удастья, популяция начнет равняться на него и копировать его систему поведения и ценностей. (см. Билл Гейтс, Илон Маск, Дуров ...) Система примет его, иначе… он просто расходный материал.

    «Умник» очень опасный зверь, так как знает что хочет и постоянно ищет пути того, как это получить. Подобное «реактивное» движение губительно для систем главной задачей которых является поддержка собственной целостности. По этому система должна, и в нашем случае имеет средства контроля.

    «Умник» может дать оценку другим, чем может занизить самооценку других особей, а соответственно всей популяции в целом (вспомним отношение обладателей высшего образования к выпускникам пту и лицеев) Поэтому система, для которой мнение единицы мало что значит, защищает себя как на ментальном («батан», «ученый, поешь г… толченого» и т.п.), так и на физиологическом («на б...» и удар в лицо), и на программном (на детях гениев природа отдыхает).

    Вот такие дела ;)


  1. javax
    07.09.2017 13:15
    +3

    Так самая разумная версия была озвученя в комментариях к прошлой серии — фейковые профили. Они 1) чаще всего берут популярные имена 2) Записаны одинокими
    а теперь можно добавить, что еще и не пишут, что закончили престижный вуз

    По моему эта теория объясняет все наблюдения


    1. khud Автор
      07.09.2017 13:19
      +1

      Если бы было одновременно 1) и 2) то все было бы иначе. Мне как раз кажется, что сама история с образованием много чего объясняет.


      1. javax
        07.09.2017 13:21

        Ну вот Вы подумайте — создаёт фейковый профиль проститутка. Она будет выберет Кира или Наташа? Запишет себя одинокой илои замужем? Запишет что учится в МГУ или про образование ничего не напишет?


        1. khud Автор
          07.09.2017 13:31
          +5

          Распределение имен проституток хорошо известно: распределение имен проституток.
          Там все довольно интересно кстати. Когда я писал предыдущую статью, я специально использовал разные источники со спам фильтром и без, чтобы увидеть разницу. Так что у меня пока недостаточно аргументов в пользу ботов.


          1. javax
            07.09.2017 13:32

            а нельзя ли по странице в одноклассниках или Вк сделать предположение о реальности профиля?


            1. aavezel
              07.09.2017 15:30

              По вк можно с очень высокой вероятностью. В зависимости: количество друзей, стоп-слова в именах, статусах, интересах, дата регистрации, вступление в узкие (немногочисленные) группы, наличие личных фото с лицами с разными датами загрузки и другие параметры…


          1. KvanTTT
            08.09.2017 12:18

            А как в этот список попала Лариса Ивановна? :)


  1. teecat
    07.09.2017 14:21

    Факторов очень много. Встречал например такой, что образование это вероятность обеспеченной старости. Если вероятность обеспеченной старости низка, то требуются те, кто поможет выжить в старости — дети. На примере стран без пенсий было


  1. StanislavL
    07.09.2017 15:32
    +3

    Есть еще вероятность, что более умные не создают профили в соцсетях. Выпускники вузов покруче чаще уезжают за границу, чаще знают языки и регистрируются в facebook/linkedin а не в vk/одноклассники.


    1. dimakarp1996
      08.09.2017 00:26

      Зачем студенту «вуза покруче» отказываться от вк, если чуть менее, чем все люди с его потока сидят имено там? (Говорю на примере МФТИ, к другим вузам, насколько я знаю, это тоже относится) И потом, те, кто уехал, свои профили вк обычно не удаляют.


      1. mickvav
        08.09.2017 10:04
        -1

        Закончите — потрёте или перестанете использовать. I did it. МФТИ.


        1. dimakarp1996
          08.09.2017 11:01

          Вы 1982 г.р(судя по профилю), так что, когда вк только появился, вам было 24 года…


          1. hatari90
            08.09.2017 12:04

            Думаете, все люди идут учиться в ВУЗы сразу после школы и только один раз?


  1. khud Автор
    07.09.2017 16:41

    Вопрос с влиянием ботов все еще довольно мутный. Однако можно сделать следующее: давайте сделаем рейтинг ВУЗов для мужчин и уберем явный шум со статусом "в активном поиске" и просто посмотрим отношение q0 = single / married. Для девушек при сортировке по q0 поменяется только НГУ и МФТИ. А для мужчин будет тоже самое (по q все как у девушек и по q0 тоже).


  1. stepik777
    07.09.2017 17:01
    -2

    Корреляция не означает причинно следственную связь. В англо-вики даже есть статья с примерами на эту тему: Correlation does not imply causation.


    Это основа основ а статистике!


    То, что вы нашли корреляцию между именем и одиночеством, вовсе не означает, что одно вызывает другое.


    1. khud Автор
      07.09.2017 17:04

      И еще раз


      В первой части статьи я только лишь обозначил проблему, которая звучала следующим образом: вероятность быть одинокой/одиноким зависит от имени человека. Более корректно было бы использовать слово корреляция, однако я все же позволю себе некоторую лингвистическую вольность еще раз в этом вопросе и буду надеятся на то, что все понимают это утверждение правильно. Тем не менее, я хотел бы поблагодарить всех за комментарии к моей предыдущей статье.


      1. stepik777
        07.09.2017 17:19
        -1

        И дальше идёт какой-то непонятный пример с яблоками, из которого опять следует, что вероятность быть одинокой зависит от имени, если я правильно понял. Но у этих явлений может просто быть общая причина. Например, у вторых детей в семье, распределение имён вероятно другое, чем у первых, и, одновременно с этим различается поведение, так как они вырастают в разных условиях. Или, например, в разных социальных группах дают разные имена.


        1. khud Автор
          07.09.2017 17:31

          Вне всякого сомнения, это просто пример того, как могут быть устроены корреляции (и зависимости). Более того, пока я думаю, что здесь как раз такая ситуация: именно образование коррелирует с именем и вместе с тем коррелирует с «одиночеством». Почему так, это отдельный вопрос, и социальные группы как раз отличное объяснение.


  1. eeeeep
    07.09.2017 17:20

    Данная статья не может служить поводом для выражения нетолерантности или дискриминации по какому-либо признаку.

    Странная какая-то фраза. С чего это вдруг не может?
    Может быть, вы просто хотели сказать, что вы этой статьёй не хотите никого обидеть? Ну так так и написали бы.


    1. khud Автор
      07.09.2017 17:27

      Разумеется, обидеть я уж точно никого не хотел.


  1. Ogoun
    07.09.2017 21:33

    Но ведь чтобы искать такие коррелляции нужно было добавить популярность этих же имен в года рождения. Так если мы видим что в универе учатся:
    Кир — 964
    Алин — 3662,
    и из них Кир рожденных, например, в 2000 году — 150, а Алин — 1000, то стоит проверить сколько в 2000 году было названо девочек Кирами и Аленами, и если окажется что соотношение осталось таким же (Кир — 10000, Алин — 67000), то и зависимость поступления от имени исчезает.

    P.S. следует учитывать еще и регион проживания, в разных регионах предпочтения в именах могут существенно отличаться.


    1. khud Автор
      07.09.2017 23:59
      +1

      Это первое, что приходит на ум, но соотвествующие два сюжета уже были разобраны в прошлой статье. Мне пока больше нравится челлендж с ботами, потому что понятно, что их много, но пока не получается оценить их влияние (см. мой комментарий про мужчин и величину d0) — думаю, что пока это основной вопрос и тема для следующей статьи.


  1. Suor
    08.09.2017 05:53
    +1

    Образование родителей влияет на образование детей и их имена. А то, что образование для женщин плохо для демографии давно известно.


    1. khud Автор
      08.09.2017 12:27
      +1

      Согласен, но это требует еще которых расчетов.


  1. laughman
    08.09.2017 09:58
    -1

    «адекватный человек ожидает, что вопрос одиночества, как и любой подобный показатель, совершенно одинаково распределен среди людей независимо от их имени, знака зодиака и другой подобной ерунды. Для меня сама мысль о том, что может быть иначе, все еще казалась крамольной, сродни гомеопатии или астрологии»

    Это из первой статьи, мне там нельзя комментить, поэтому отпишусь здесь, причем, эта цитата, как постановка вопроса, имхо важнее этой статьи, пытающейся раскрыть одну из частей ответа.
    Более 25 лет я лично наблюдаю за взаимосвязью характеров людей и знаков зодиака в доступном мне окружении. И скажу, что зодиак (и европейский, и восточный) это не то, во что можно верить или не верить, а то, чем можно пользоваться, с поправкой на то, что пользоваться так, как вы пользуетесь другими неточными системами или их выводами (теория вероятностей, прогноз погоды, и пр.), в отличие от точных приборов. Зодиак — это система взаимосвязи между очевидной и точной характеристикой (дата рождения) и неточной (характер). Характер для группы людей по определению не может быть описан без некоторого разброса, поэтому зодиак как описание взаимосвязи и не ставит целью покрыть описание характеров групп полностью, но выявить устойчивые закономерности. Зодиак пришел из тех времен, когда не было психологических теорий и развитого мат.аппарата, поэтому это обобщение наблюдений и придание им доступного описания (например, именование знаков зодиака), которым можно пользоваться. То есть, в основе системы, реально соответствующей действительности, лежит что-то реальное, а не пустые выдумки, и я уверен, что это наблюдения, т.е. то, на что у людей прошлого времени и приборов хватало. Именно так может быть объяснено то, что все это работает.
    С именами в принципе то же самое. Имя, несомненно, накладывает отпечаток на характер. В том числе и на потребность и на способность быть в паре. И обратно, имена соответствуют некоторым чертам характера. Соответственно, если анализировать имена пар, то и там выяснятся пары имен, которых больше и которых меньше, даже среди популярных имен. Думаю, автор статьи может это проверить.
    А еще довольно плохо давать имена неподходящие под знак зодиака, такому ребенку сложнее будет быть целостной личностью. А можно наоборот, давать имена направленно, чтобы какие-то черты характера были у ребенка если не гарантированно, то наверняка.

    А вообще даже странно, что никто из больших контор еще не догадался сделать поиск по зодиакам. Т.е. вводишь свою дату рождения, нажимаешь «подобрать», и система подбирает. Нет, каждый раз надо указывать знаки европейского зодиака вручную. А того, чтобы вместо возраста можно было указать знак восточного зодиака, вообще не видел. Как и фильтра по именам. Не говоря уже о подборе по именам вместе с зодиаками. Максимум до чего продвинулись, насколько видел, одна из систем правильно определяет знак восточного зодиака (по годам) не по 1 января, а по китайским датам, они разные в каждом году. Но я давно женат и за изменениями в этих системах слежу изредка и не серьезно, из любопытства.


    1. khud Автор
      08.09.2017 14:14

      Спасибо за комментарий, я на самом деле давно хочу провести исследование и в этом вопросе. Если найду время, то обязательно это сделаю. В любом случае я не хотел никого обидеть, простите мне мою иронию.


      1. laughman
        08.09.2017 16:55

        Не обижался, и не вижу на что бы. Сам обдумывал возможность создать приложение по подбору пар по зодиаку. Но не в мои 40+ с тремя детьми браться за такое приложение с нуля в свободное от работы время. Может, кто и возьмется.


  1. Nickola75
    08.09.2017 12:28
    +1

    Я вижу такую цепочку.
    Женщина «умная» -> высокие требования к мужчине -> мужчин, отвечающих этим требованиям, мало в соотношении со всей массой -> большая часть таких мужчин уже занята -> такие мужчины обычно хотят главенствовать и доминировать -> но «умные» девушки «сильные и самостоятельные» -> мужчины по просто не хотят их брать -> с такой женщиной мужчина вынужден постоянно развиваться, что многим не нравится, ибо народ любит жить в зоне комфорта


    1. khud Автор
      08.09.2017 12:30
      +1

      Опыт моих знакомых и мой собственный тоже говорит мне именно тоже самое, поэтому я как раз обратился к этому вопросу.


  1. alehK
    10.09.2017 22:53
    +1

    Может сойти за объяснение: 1) умные/образованные родители дают дочкам нетипичные имена; 2) дочки образованных родителей статистически чаще поступают в серьезные учебные заведения; 3) дочки образованных родителей обладают несколько иной шкалой жизненных приоритетов, в которой ценность создания пары ниже, чем у детей менее образованных родителей -> имеем корреляцию между образованием родителей и образованием детей (очевидно), а также корреляцию между образованием человека и его независимостью (почти так же очевидно).


    1. khud Автор
      10.09.2017 22:54
      +1

      Make sense, это не так легко проверить, но я как раз работаю над этим. В любом случае вполне рабочий вариант гипотезы.