R код (gist) для воспроизведения всех результатов


В первой части, подхваченный вдохновением и желанием проверить гипотезы сразу, я проанализировал взаимосвязь между соотношением полов и распространенностью убийств в странах Европы. Результаты не подтвердили моих ожиданий. Похоже, что во многом страны Европы напоминают регионы одной страны со своей периферией и своими центрами.


В следующей итерации своего скептицизма, результаты которого вы можете прочитать ниже, я проверяю свою гипотезу на данных американских графств, как и авторы исходной статьи.


Коротко о гипотезе

Если вам лень заглянуть в первую часть статьи, то вот кратко суть. Авторы опубликованного в журнале Human Nature исследования утверждают, что соотношения полов во взрослом населении влияет на распространенность тяжких преступлений (в частности, убийств): чем больше женщин, тем больше и преступлений. Я по-прежнему думаю, что все дело в упущенной переменной — центральность/периферийность (urban/rural) — которая и должна объяснять как повышенную долю женщин в городах, так и большее количество преступлений в них.


Убедительно подтвердить свои догадки на простеньких европейских данных мне не удалось. Попробуем на подробных американских.



Данные


А ларчик просто открывался (с)

Все оказалось гораздо проще, чем можно было ожидать. Конечно, я потратил не один час, блуждая по разным ресурсам (благо по США данных… нам бы так). И вот, когда я все еще рисовал себе сложности и сохранял "на потом" десятки закладок, наткнулся на вот этот замечательный датасет. Датасет свободно скачивается после регистрации и согласия с условиями использования.


Данные как нарочно собраны для подобного рода анализа, что наводит на подозрения в велосипедостроительной специализации авторов исходной статьи. Датасет содержит обширный перечень переменных для графств США за период 2001-2006. Не такие свежие данные, как у авторов, но вряд ли можно ожидать, что human nature меняется за десятилетие. Он содержит все интересующие нас переменные, чтобы беспрепятственно повторить исследование и проверить интересующую нас гипотезу.


Exploratory data analysis


Сперва давайте посмотрим, велики ли различия по ключевым показателям между центральными и периферийными графствами. В нашем датасете есть классификация графств на 9 типов (RuralUrban03, 2003 ERS Rural-Urban Continuum Code). Первые три категории — это городские графства разной численности. Категории 4-9 — сельские, различия в численности населения и удаленности от регионального центра.


Категории графств (скопировано из Codebook к датасету)

Code Description
Metropolitan counties:
1 Counties in metro areas of 1 million population or more
2 Counties in metro areas of 250,000 to 1 million population
3 Counties in metro areas of fewer than 250,000 population
Nonmetropolitan counties:
4 Urban population of 20,000 or more, adjacent to a metro area
5 Urban population of 20,000 or more, not adjacent to a metro area
6 Urban population of 2,500 to 19,999, adjacent to a metro area
7 Urban population of 2,500 to 19,999, not adjacent to a metro area
8 Completely rural or less than 2,500 urban population, adjacent to a metro area
9 Completely rural or less than 2,500 urban population, not adjacent to a metro area


На карте это выглядит так. Кружочками даны столицы штатов (красный) и крупные города (золотой).



Рисунок 1. Классификация графств по центральности/периферийности.


Поскольку с 9 категориями работать неудобно, в дальнейшем анализе я объединил первые три — в категорию metro, а оставшиеся — в категорию non-metro.


Во-первых, нам интересно, действительно ли соотношение мужчин и женщин отражает результат миграционного закона Равенштейна — действительно ли женщины активнее в миграциях на короткие расстояния, и их больше в городах. Посмотрим на распределения графств по соотношению полов во взрослом возрасте (рис. 2).



Рисунок 2. Распределение центральных и периферийных графств по соотношению полов во взрослом возрасте.


Отчетливо видно, что среди графств с повышенным соотношением полов (преобладают мужчины) больше периферийных. Медианное значение показателя для периферийных графств 1.039; для центральных 1.016.


Карта по графствам получается очень шумной, поэтому я построил карту по штатам, сравнивая средние значения соотношения полов для центральных и периферийных графств (рис. 3). Практически нет штатов, в которых соотношение полов было бы выше в центральных графствах.



Рисунок 3. Среднее соотношение полов в центральных графствах в сравнении с периферийным.


Еще одним наглядным результатом миграции всегда выступает медианный возраст населения. В среднем, мигранты всегда моложе местного населения. Поэтому миграция перераспределяет медианный возраст населения, омолаживая центральные территории и ускоряя старение населения в периферии. Разумеется, этому общему правилу находится подтверждение и на американских данных (рис. 4 и 5).



Рисунок 4. Распределение центральных и периферийных графств по соотношению медианному возрасту населения.



Рисунок 5. Медианный возраст населения по графствам США.


Для разнообразия, по медианному возрасту населения построил карту по графствам. Она все еще достаточно шумная, но общую закономерность уловить можно.


Наконец, как же обстоит дело с убийствами в городе и на селе? Тут ситуация любопытная (рис. 6).



Рисунок 6. Распределение центральных и периферийных графств по показателю убийств на 100К населения.


В 2004 году, когда были собраны данные, убийства не произошли в 65.2% периферийных графств и 30.3% центральных графств. При этом, когда преступления все же происходили в периферийных территориях, коэффициент получался довольно высоким за счет малой численности населения провинциальных графств. В целом же, разумеется, в городах убийств больше. Значение третьего квартиля (75%) для городов составляет 55.4, а для провинции 36.7 убийств на 100К населения. Если агрегировать данные по штатам и типу графств (рис. 7), то явно видно, что практически во всех штатах городская преступность выше.



Рисунок 7. Усредненный коэффициент убийств на 100К населения в центральных графствах в сравнении с периферийным.


Итак, исходные предпосылки подтверждаются данными. Посмотрим, каков будет результат моделирования.


Но сперва давайте еще посмотрим на красивую карту доли чернокожего населения США по графствам (рис. 8), поскольку вслед за авторами мы будем использовать эту переменную в качестве контрольной в моделях.



Рисунок 8. Доля чернокожего населения по графствам США.


Модели


Итак, моделируем с помощью Пуассоновских регрессий зависимость коэффициента убийств от соотношения полов и прочих дополнительных переменных. Вводим переменные последовательно.


Обозначения переменных в таблице

Лень было менять обозначения. К тому же, они вполне говорящие.


asr — соотношение полов во взрослом возрасте (15-44)
perstpov04 — устойчивая бедность: доля населения графства за чертой бедности не менее 20% по данным 4 последних переписей населения, 1970, 1980, 1990 и 2000
pctblack05 — доля чернокожего населения
southSouth — дамми переменная для южных штатов (Юг в сравнении с Севером)
metroNon-metro — центральность/периферийность (периферия в сравнении центром)
ruralurban03 — 9-ступенчатая классификация центральности/периферийности
unemprate05 — безработица
medianage05 — медианный возраст населения


Таблица 1. Результаты моделирования уровня убийств.




Результаты моделей 1-4 очень сходны с теми, что приводят авторы статьи в Human Nature. Любопытно тут, пожалуй, то, что при переходе от модели 2 к модели 3 коэффициент при переменной "постоянная бедность" меняет знак. Получается, что доля черного населения объясняет вариацию в бедности.


Нам же интересно сравнить модели 4 и 5. Когда мы вводим центральность/периферийность в качестве контрольной переменной, коэффициент при соотношении полов становится существенно менее негативным. То есть, различия в центральности/периферийности объясняю значительную часть выявленной взаимосвязи между частотой убийств и соотношением полов. Остальные модели не столь интересны, но оставил.


Выводы


Сенсации не произошло. Но, действительно, центральность/периферийность графств почти наполовину ослабляет выявленную авторами взаимосвязь между соотношением полов и уровнем преступности. Прочие проверенные мной дополнительные переменные не имеют столь же значимого эффекта. Так что подозрение мое подтвердилось наполовину. Статус территории значит много, но не нивелирует полностью выявленную взаимосвязь. Однако, без сомнения, авторы исходной статьи упустили одну из ключевых переменных.


Reproducibility


R код (gist) для воспроизведения всех результатов. Гарантированно работает при использованнии R версии 3.3.2 с пакетами по состоянию на 2016-11-10. В случае пакетных несовместимостей, воспользуйтесь пакетом checkpoint, установив соответствующую дату.

Поделиться с друзьями
-->

Комментарии (6)


  1. thatsme
    11.11.2016 15:44

    Можно-ли учесть также выходцев из Латинской Америки?
    Можно-ли как-то выделить возрастные категории и доказать упомянутую в оригинале зависимость во всех возрастных категориях?
    Также интересно, в какой возрастной категории преобладают преступления (в категорях: 15-20, 20-25, 25-30, 30-35, 35-40,40-45,45-50) на некой территории, и какая возрастная категория женщин превалирует на данной территории.

    Вообще, борьба за самок при их избытке, по идее должна снижаться. При недостатке возрастать, и соответственно увеличивать рост преступности.


    1. ikashnitsky
      11.11.2016 17:49
      +1

      Данные по латиносам есть. Но тут суть в том, что доля чернокожего населения — достаточно уверенная прокси неблагополучности района.
      Можно прогнать раздельно по возрастным группам населения. Или включить возрастную структуру как контрольную переменную. С возрастом преступников сложнее. Но в принципе, и такие данные можно добыть и посчитать.


      Последняя мысль отражает типичное интуитивное предположение, которое как раз и не подтверждается данными. В этом ключевая находка авторов исходной статьи (Schacht, R., Tharp, D., & Smith, K.).


      1. thatsme
        11.11.2016 21:00

        Возможно, в данной ситуации, возрастные группы могли показать нечто интересное. Например, интересна, зависимость кол-ва убийств, от кол-ва женщин в возрасте 21-40. И возрастной состав убийц. И какой процент убийц, являются женщинами. Но если исключить из популяции самок, конкуренция за которых мала либо отсутствует?


        1. ikashnitsky
          11.11.2016 22:35

          Ну возрастной интервал, который проанализирован в статье, и на который я ориентировался, не далеко ушел от предложеного Вами — от 15 до 44.


          Возрастной состав убийц, а также прочие характерисики. С этим сложнее. Данные есть (например), но с ними надо много работь, чтобы из отдельных записей рассчитать некие county-level характеристики.


          Последний вопрос не понял.


          1. thatsme
            12.11.2016 18:51

            Ну возрастной интервал, который проанализирован в статье, и на который я ориентировался, не далеко ушел от предложеного Вами — от 15 до 44.

            Это возраст всех полов? Или только женщин? Мой последний вопрос, касался зависимости кол-ва преступлений от конкуренции за самок детородного возраста. Если вообще подобные корреляции отследить возможно.
            Если отсечь следующее:
            1. всех преступниц женщин
            2. всех преступников мужчин в возрасте за 50 и до 13.
            Что-то изменится, или результат будет тем-же, контринтуитивным?


  1. tzlom
    11.11.2016 16:31

    По ссылке на GIST прекрасный экземпляр кода на R, предлагаю всем насладиться.