Дисклеймер
Зная, насколько эта публикация может оказаться воспринятой как "политическая" и насколько разнятся мнения людей по определенным злободневным вопросам, сразу внесу следующие оговорки:
Автор публикации не является расистом, не считает, что представителей одних рас должны обладать какими-либо привилегиями или предпочтениями по сравнению с представителями других рас. Для меня все люди - братья!
Автор не стремится придать публикации политическую или социальную окраску, поддерживая ту или иную распространенную точку зрения на социально-политические темы, которые выходят за рамки этой публикации.
Цель публикации - статистический анализ данных из открытых источников и выявление взаимосвязей и закономерностей; широкие выводы предоставляется сделать читателям.
Все данные, использованные в статье, взяты из открытых источников, прямо указанных в самом тексте. Каждый из вас может их верифицировать. При этом автор не несет ответственность за валидность данных в самих источниках, принимая их "как есть" и не изменяя никакие исходные данные. Поэтому сомнения в валидности настоящего исследования должны относиться к исходным данным, на которые автор не может повлиять.
Я не считаю себя профессиональным Data Scientist и использую самые базовые инструменты анализа данных (при этом, наверное, не всегда наиболее оптимальным способом). Буду благодарен каждому за подсказки, как можно сделать то или иное более эффективно или углубить исследование!
Во времена Советского Союза нашим с вами, уважаемые читатели, папам и мамам, дедушкам и бабушкам неустанно и отовсюду напоминали о том, как "империалисты" притесняли и угнетали представителей иных рас, как уже после отмены крепостного права в Российской Империи американские капиталисты продолжали использовать рабский труд африканцев и их потомков, как и в нынешнем (на то время) двадцатом веке издевательства не прекращаются даже после формального упразднения рабства, выражаясь в самых возмутительных формах апартеида, унижений, расизма и ненависти... Классические романы вроде "Хижины дяди Тома" Гарриет Бичер-Стоу и "Убить пересмешника" Харпер Ли еще сильнее упрочняли негодование борцов за свободу по всему миру. Да, расизм со стороны белых процветал в США до 1960-х - 1970-х. Но и, конечно, эти притеснения были отличным подспорьем для социалистической пропаганды, не щадящей красок в живописании "зверств акул капитализма". С середины 1950-х в США началось сильное движение за борьбу с расовым неравенством, которое было в итоге поддержано властями и кардинально изменило ситуацию с социальными свободами к 1980-м. Обо всем этом можно прочитать хотя бы в Википедии. А что теперь?..
Почти все то же, что наши родичи читали со страниц "Правды" в 1960-х, сейчас мы слышим со всех американских СМИ. Расовая несправедливость! Насилие со стороны полиции и иных слуг закона! Как мы все видели, после гибели Джорджа Флойда в США начались массовые протесты, перешедшие местами в беспорядки и погромы под лозунгом Black Lives Matter. Итог официально озвучиваемого и поддерживаемого общественного мнения в США на сегодняшний день: полиция убивает чернокожих по причине массового расизма со стороны белых.
Цели исследования
Как и многим из вас (я уверен), мне часто хочется самостоятельно разобраться в каком-то вопросе, особенно если:
вопрос широко обсуждается и составляет предмет споров
освещение почти во всех СМИ носит явно окрашенный характер (т.е. налицо пропаганда той или иной позиции)
есть достаточное количество исходных данных, доступных для изучения
Интересно заметить, что эти три пункта связаны между собой: 1) злободневные вопросы почти всегда однобоко освещаются прессой, так как истинно свободной прессы почти нет (да и была ли когда-то?) 2) злободневные темы порождают сообщества активистов, которые начинают собирать и анализировать данные в поддержку своей точки зрения (или во имя справедливости); также данные начинают открывать / предоставлять публике официальные источники (чтобы их нельзя было обвинить в сокрытии оных). Об имеющихся данных поговорим чуть позже, а пока - цели исследования.
Я хотел для себя ответить на несколько вопросов:
Какова статистика применения поражающего огня полицейскими против черных и белых в абсолютном выражении (т.е. количество случаев) и в удельном выражении (на количество представителей обеих рас)? Можно ли сказать, что полицейские убивают черных чаще, чем белых?
Какова статистика совершения преступлений представителями обеих рас (в абсолютном и удельном выражениях)? Представители какой расы статистически чаще совершают преступления?
Имеется ли взаимосвязь между статистикой совершения преступлений и статистикой гибели от рук полиции (в целом по США, а также отдельно для белых и черных)? Можно ли сказать, что полиция стреляет насмерть пропорционально количеству совершаемых преступлений?
Каким образом найденные закономерности (по пунктам 1-3) распределены между отдельными штатами США?
На данный момент это все вопросы, однако, я не исключаю, что могут добавиться и другие в процессе исследования, которое пока выполнено лишь на самом поверхностном уровне.
Оговорки и допущения
Вы ведь прочитали дисклеймер в начале статьи? :) Кроме того, что там написано, вот еще несколько допущений и оговорок, принятых для исследования в основном в целях упрощения:
Исследование касается только США и не распространяется на другие страны.
Представителей чернокожей расы в США для краткости я могу называть "черными", а представителей белокожей расы - "белыми"; эти краткие наименования не отражают какого-то неуважения, а приняты именно для лаконичности.
Представители белокожей расы ("белые") включают латиноамериканцев (проживающих на территории США), но исключают представителей азиатских рас, американских индейцев, гавайцев, эскимосов и представителей смешанных рас, в соответствии с данными по населению в Википедии, взятыми из официальной переписи населения в США. Поскольку много комментариев к статье говорят о неправильности такого объединения, еще раз подчеркну: это объединение есть вынужденная мера, поскольку данные о преступности не делают такого разделения (выделяя расы строго по расовому, а не по этническому признаку).
Для настоящего исследования взяты только белая и черная расы; представители иных рас, а также те, чья раса не указана в источниках, не включены в исследование. Это ограничение сделано для упрощения, основываясь на том, что эти две категории составляют совместно более 80% всего населения США. При этом я не исключаю, что на будущих этапах будут добавлены и остальные расовые категории для полной картины.
Источники данных
Теперь поговорим о том, какие данные используются для исследования. Исходя из обозначенных целей нам нужны данные по:
совершенным преступлениям с указанием расовой принадлежности, видов преступления и штатов
гибели от рук полиции с указанием расовой принадлежности погибших и места события (штата)
численности населения по годам с указанием расовой принадлежности (для вычисления удельных показателей)
Для данных по преступлениям использовалась открытая база данных ФБР Crime Data Explorer, обладающая расширенным API и содержащая детальные данные по преступлениям, арестам, жертвам преступлений в США с 1991 по 2018 год.
Для данных по гибели от рук полиции использовалась открытая база данных на сайте Fatal Encounters, поддерживаемая сообществом. На настоящий момент база (доступная для скачивания) содержит более 28 тысяч записей начиная с 2000 года с подробной информацией о каждом погибшем, кратким описанием события, ссылками на СМИ, местом события и т.д. В Интернете есть и другие базы данных с тем же назначением, например, на сайте MappingPoliceViolence (около 8400 записей с 2013 г.) или БД Washington Post (ок. 5600 записей с 2015 г.). Но БД Fatal Encounters (FENC) на текущий момент самая подробная и имеет самый длинный период наблюдений (20 лет), поэтому я использовал ее. Кстати сказать, официальные источники (ФБР) также обещают открыть базу данных применения силы службами порядка, но это наступит только когда наберется представительная выборка данных. Прочитать об этой будущей официальной базе можно по ссылке.
Наконец, данные по общей численности представителей различных рас взяты из Википедии, которая в свою очередь, берет эти данные из официальных источников - Бюро переписи населения США. К сожалению, данные доступны только за промежуток с 2010 по 2018 год. В связи с этим в рамках данного исследования пришлось: 1) ограничить конечную точку наблюдений 2018 годом; 2) для промежутка с 2000 по 2009 год использовать данные по численности населения, смоделированные при помощи простой линейной регрессии (что вполне оправдано учитывая линейную природу прироста населения). Таким образом, мы будем исследовать все данные за период с 2000 г. (начальная точка в БД FENC) по 2018 г. (конечная точка в данных по численности населения). Все результаты будут основаны на наблюдениях за эти 18 лет.
Подготовка данных
Прежде чем приступить к анализу, необходимо загрузить вышеуказанные исходные данные в удобном виде и подготовить их для использования.
С данными по гибели от рук полиции все понятно: просто скачиваем всю БД с сайта и сохраняем как CSV (можно оставить и в XLSX, но я предпочитаю CSV для унификации и экономии). Здесь прямая ссылка на исходный датасет в Google Spreadsheets, здесь уже готовый CSV.
Поля данных (использованные в анализе выделены жирным шрифтом):
Unique ID - ID в БД
Subject's name - имя жертвы
Subject's age - возраст жертвы
Subject's gender - пол жертвы
Subject's race - раса жертвы (официально указанная)
Subject's race with imputations - раса жертвы (официально указанная или заполненная экспертом)
Imputation probability - вероятность экспертной оценки расы
URL of image of deceased - фото жертвы
Date of injury resulting in death (month/day/year) - дата события
Location of injury (address) - адрес события
Location of death (city) - город события
Location of death (state) - штат события
Location of death (zip code) - почтовый индекс адреса события
Location of death (county) - округ события
Full Address - полный адрес события
Latitude - координата широты
Longitude - координата долготы
Agency responsible for death - правоохранительная служба, причинившая смерть
Cause of death - причина смерти
A brief description of the circumstances surrounding the death - краткое описание обстоятельств
Dispositions/Exclusions INTERNAL USE, NOT FOR ANALYSIS - исключения (НЕ ДЛЯ АНАЛИЗА)
Intentional Use of Force (Developing) - применение силы (намеренное)
Link to news article or photo of official document - ссылка на СМИ
Symptoms of mental illness? INTERNAL USE, NOT FOR ANALYSIS - симптомы помешательства жертвы (НЕ ДЛЯ АНАЛИЗА)
Video - видео
Date&Description - дата и описание
Unique ID formula - формула ID
Unique identifier (redundant) - НЕ ИСПОЛЬЗУЕТСЯ
Date (Year) - год события
Данные по численности населения я сохранил с Википедии и при помощи Excel дополнил модельными данными за 2000 - 2009 гг., применив простую регрессию. Здесь можете взять Excel и итоговый CSV.
Поля данных (использованные в анализе выделены жирным шрифтом):
Year - год
Whitepop - численность белых
Blackpop - численность черных
Asianpop - численность азиатов
Native Hawaiianpop - численность гавайцев
American Indianpop - численность индейцев и эскимосов
Unknownpop - численность других рас / без указания расы
Самое интересное - это скачать и подготовить данные по преступлениям с БД ФБР. Для этого я написал программу на Python, которая подключается к публичному API при помощи API-ключа (который я специально получил на том же сайте). API использует REST для запросов к различным имеющимся базам данных и возвращает данные в виде JSON. Программа скачивает и объединяет данные в единый DataFrame, который затем сохраняется в CSV. В тот же файл добавляются и данные по численности населения с вычислением удельных показателей по преступлениям. Здесь итоговый CSV.
Поля данных (использованные в анализе выделены жирным шрифтом):
Year - год
Offense - вид преступления, одно из:
All Offenses - все преступления
Assault Offenses - нападения
Drugs Narcotic Offenses - преступления, связанные с оборотом наркотиков
Larceny Theft Offenses - воровство
Murder And Nonnegligent Manslaughter - убийство
Sex Offenses - преступления на сексуальной почве
Weapon Law Violation - нарушение хранения / оборота оружия
Class - классификатор (здесь это раса, но может быть также возраст, пол и т.д.)
Offender/Victim - данные по преступникам или жертвам (в этом анализе речь пока только о преступниках)
Asian - количество преступлений, совершенных азиатами
Native Hawaiian - количество преступлений, совершенных гавайцами
Black - количество преступлений, совершенных черными
American Indian - количество преступлений, совершенных индейцами и эскимосами
Unknown - количество преступлений, совершенных представителями других рас
White - количество преступлений, совершенных белыми
Whitepop - численность белых на соответствующий год
Blackpop - численность черных на соответствующий год
Asianpop - численность азиатов на соответствующий год
Native Hawaiianpop - численность гавайцев на соответствующий год
American Indianpop - численность индейцев и эскимосов на соответствующий год
Unknownpop - численность представителей других рас на соответствующий год
Asian pro capita - удельное количество преступлений, совершенных азиатами (на 1 человека)
Native Hawaiian pro capita - удельное количество преступлений, совершенных гавайцами (на 1 человека)
Black pro capita - удельное количество преступлений, совершенных черными (на 1 человека)
American Indian pro capita - удельное количество преступлений, совершенных индейцами и эскимосами (на 1 человека)
Unknown pro capita - удельное количество преступлений, совершенных представителями других рас (на 1 человека)
White pro capita - удельное количество преступлений, совершенных белыми (на 1 человека)
Инструменты
Весь анализ я провожу с помощью Python 3.8, используя интерактивный Jupyter Notebook. Дополнительные библиотеки:
pandas 1.0.3 (для анализа данных)
folium 0.11 (для визуализации карт)
Все это "добро" (включая сам Python) доступно мне из дистрибутива WinPython, который я давно использую на Windows из-за его очевидных преимуществ. Вы, конечно, можете использовать любой другой на ваш вкус (например Anaconda) или вообще обойтись просто Python, установив нужные пакеты.
Вообще же, этот же анализ можно с легкостью выполнить с помощью любого другого статистического / математического ПО: R, MatLab, SAS и даже Excel. Как говорится, выбирайте свое оружие :)
В следующей части приступим непосредственно к анализу.
podde
Анонс отдельным постом?
Это очень плохой жанр.
P.S. И всё-таки, сколько бы вы ни писали в дисклеймере о своей нерасистской сущности, каламбур в заголовке (Black [O]lives Matter) выдаёт в вас тотальное непонимание тематики с точки зрения настоящей (не формальной) политкорректности и взаимного уважения рас.
tumaso
Мне вот интересно, сколько негров посещает хабр и сколько из них поддерживает мнение, что важны жизни не только черных, но и белых в том числе?)
podde
А это неважно. Это говорит об уровне спикера. О его совершенном непонимании, что такое уважение к другим. У вас, строго говоря, с этим тоже наблюдаются явные проблемы.
Sergey-S-Kovalev
Не то что бы я сильно поддерживаю спикера, но мой сугубо личный и субъективный опыт мне подсказывает, что уважение нужно заслужить. Просто прекрасно, если ты полезен обществу. Совсем плохо, если ты во всю глотку орешь что общество тебе должно или поступает с тобой несправедливо. Это правило совершенно равноценно для любого цвета кожи, веса и вероисповедания.
podde
Причём тут это?
И почему уважение должны заслуживать люди, которые инициировали движение Black Lives Matter в 2014-м году? И почему они должны быть виновны в том, что в 2020-м идею извратили, оседлали и стали устраивать погромы и травлю белых?
Вы разберитесь сначала, пожалуйста, в том, где котлеты, а где мухи.
А то пока что разговор получается на уровне "Я не расист, не то, что эти черножопые".
Sergey-S-Kovalev
Вы там определитесь, Вы про афроамериканцев или про ниггеров. У них там у всех жопы черные, а Вы всех под одну гребенку.
0xd34df00d
По логике a few bad apples и refund the police.
Ну и потому, что кто-то всерьез против погромов стал говорить только тогда, когда голосования стали показывать, что все меньше людей готовы голосовать за демократов на приближающихся выборах. Серьезно, если жить в США и немножко следить за тем, как и каким языком об этом говорят в новостях, то это очень заметно.
podde
Я уже боюсь что-то отвечать на эту тему.
Мне за сегодня от души минусов в карму насовали. Хотя, казалось бы, полемика вполне нейтральная.
FeNUMe
Мне кажется вы путаете: заслуживают уважение как специалист/профи/и т.д., а вот базовое уважение как человек должно подразумеваться по умолчанию. Не должно быть изначальной предвзятости и тем более презумпции виновности не смотря ни на какие общие факторы. Но к сожалению это пока что реально только в мире розовых понни.
Sergey-S-Kovalev
Элементарная аналогия: Берем льва и с рождения растим в постоянном контакте с людьми. Он вырастет опасным? Нет, он вырастет большим и сильным, но не опасным по умолчанию для людей вокруг.
Данный опыт общения конкретно с этим львом повлияет на Ваше отношение в вопросе безопасного общения с львами посреди саванны? Нет, не повлияет. Каждый лев посреди саванны будет считаться опасным по умолчанию, пока весь социум львов не начнет вести себя иначе.
Поскольку повлиять на социум львов со стороны человеков не представляется возможным (ну акромя полного уничтожения), то что бы львы перестали быть в нашем представлении опасными по умолчанию, им нужно поменять поведение самим, и всем своим львиным социумом следить за тем, что бы каждый лев был не опасным, поскольку каждый лев влияет на восприятие социума львов в целом.
Проводя человеческие аналогии:
Поэтому Чайнатаун — т.е. классическое «гетто» китайцев — безопасное место, где сохранены национальные традиции, но место по умолчанию не опасно для всех остальных не китайцев. Или прославленный Брайтон Бич в качестве самого известного русского «гетто», опасен? Опять, нет. Кто из них требует себе привилегий над коренными (менее чем индейцы, но тем не менее) американцами? Замечу что рабов среди китацев было весьма немало.
Но что Вы мне скажете про Черное гетто? Место безопасно по умолчанию? Стоит ли туда поехать, что бы увидеть национальный колорит, кухню, традиции? Должен ли я с уважением и не предвзято относится к каждому чернокожему, если я не знаю афроамериканец он или ниггер? Карма то у социума отрицательная. И они не делают ничего что бы она стала лучше. Наоборот, они любую хорошую идею на уровне социума превращают в де#ьмо.
Deepwalker
А если общество поступает с тобой несправедливо, и умники получившие бесплатное образование и всегда имевшие кусок хлеба считают, что ты должен заслужить их уважение, а до той поры сиди в своей дырявой норе и не ной. И если что вдруг, мы тебя пристрелим.
И это – а как там с заслугами у вас лично? Есть за что зауважать? А если найду?
Sergey-S-Kovalev
Бесплатное образование в колледже или в университете?? В США? =) Вы свои влажные СССРовские стереотипы на Америку то не распространяйте. Государственные паблик школы одинаково бесплатны для всех цветов кожи, приватные школы одинаково платны. Колледжи и университеты всегда были платны для всех.
Возьмите не Южную Африку, а азиатов: Китай, Индия. Их так же притесняли, их так же держали рабами. И кто же из молодого поколения сейчас берет первые места под американским флагом? Каков процент чернокожих там? Статистически должен быть около 13%. Есть данные? А если найду?
0xd34df00d
Тут как раз не так давно выяснилось, что тот же Йель дискриминирует в пользу афроамериканцев, например.
Или вот человек соврал о том, что он черный (лол), чтобы продвинуться в карьере. Напоминает чем-то Элизабет Уоррен.
Такая дискриминация меньшинств, аж скулы сводит.
tumaso
Как иронично, озвучивать слоган о важности жизни негров это политкорректно и относится к взаимному уважению рас, а утверждение о важности жизней белых это расизм и нетолератность :-) Взаимное уважение предполагает уважение со всех сторон, а не только «угнетателей» к «угнетаемым», не правда ли?
S0mbre Автор
Уважаемый комментатор, мне непонятно, на чем базируются ваши суждения о моем неуважении к другим. Дело только в постере?
podde
Вы даже не понимаете, что игра слов [O]lives недопустима в приличном обществе.
S0mbre Автор
Понятие приличия чего-либо в обществе вы сами определяете?
podde
Иногда полезно не просто язвить, а задуматься и понять, что вы можете сильно ошибаться.