В этой части целого цикла статей я представлю статистические данные. В последующих главах будет выполнено предсказание тяжести заболевания, влияния загрязнения воздуха и даже сделано фундаментальное открытие, обобщающее закон Гомперца на различные тяжести течения Covid- 19.
Для анализа использовались данные московской базы ковидных больных, которые попали к автору в обезличенном виде (не содержит ФИО, паспортных данных и информации из любых других личных документов пациентов). Если сравнивать различные источники между собой, то этот я считаю максимально надежным.
Распределение по территории
Для начала давайте посмотрим как заражалась Москва (новая Москва не отображена, поскольку на ее территории практически не было заболевших).
На карте желтыми точками обозначены жилые дома, зелеными- заболевшие, а красными- путешественники, которые привезли Covid-19 в Москву. Из представленной визуализации можно сделать сразу несколько выводов:
Распространение заболевания происходило равномерно по всей территории Москвы (т.е. можно отвергнуть идею искусственного распыления вируса). С помощью усреднения координат всех пациентов был расчитан "центр заболевших", который имел незначительное смещение относительно центра города.
Со временем доля "путешественников" снижалась, и за месяц была полностью замещена заболевшими местными жителями.
Мы должны быть благодарны открытому проекту OpenStreetMap за возможность получить эту карту.
Из каких стран к нам в итоге прилетел вирус? Мы долго не закрывали границу с Китаем, при этом нас убеждали, что основным источником вируса в России была Италия. По приведенной ниже гистограмме видно, что нас не обманули: путешественники из Италии, Тайланда, Арабских эмиратов, Швейцарии и Франции сыграли роль "льда 9" в Москве.
Статистические отчеты
А теперь давайте обратимся к тому, как различные люди переносят Covid-19. Для начала проанализируем половой состав заболевших:
Видно, что пока пациентов было мало доли мужчин и женщин притерпевали существенные изменения, но по мере увеличения количества заболеваний статистика вышла на доли мужчин и женщин в популяции (1164 женщины на 1000 мужчин).
Везде далее автор не будет делить пациентов по полу, поскольку на рассматриваемый период их примерно одинаковое количество.
При выезде СМП (скорая медициская помощь), поступлениии больного в стационар и его последующем наблюдении врачами оценивалась тяжесть заболевания пациента. За общую тяжесть было выбрано максимальное из всех оценок (поскольку именно в такой формулировке можно будет использовать статистику экстремальных значений). Ниже приведены графики плотности вероятности, периода лечения для различных тяжестей заболевания.
Видно, что средняя степень тяжести и тяжелое течение требовали примерно одинакового времени на выздоровление. Скорее всего это объясняется тем, что врачи искусственно выдерживали необходимый срок госпитализации даже в тех случаях, когда этого не требовалось. Т.е. можно сделать вывод, что не было "захлебывания мощностей" и нехватки мест в стационарах. Этот же вывод позже найдет подтверждение при предсказании тяжестей заболевания с помощью градиентного бустинга: фича, отражающая загруженность стационара при поступлении (относительно максимально наблюдаемого), не будет значительно влиять на тяжесть течения болезни.
Последний график показывает, что умирающие пациенты чаще всего оставляют этот мир достаточно быстро: максимум распределения приходится на левый край графика.
А теперь обратимся к плотностям вероятности по различным возрастам пациентов:
Видно, что центр распределения постепенно сдвигается в правую сторону. Это подверждает всем известное утверждение, что люди более старшего поколения переносят болезнь в более тяжелой форме.
В качестве интересной детали приведу летальность по знакам зодиака. Последняя рассчитывалась относительно базы попавших в стационары пациентов.
Медикаменты
Для многих пациентов, попавших в стационар, указан перечень лекарственных средств, которыми их лечили. Ниже привожу список самых распространенных препаратов и их доли от общего числа. Для людей далеки от медицины замечу, что гидроксихлорохин = плаквенил + калетра, т.е. 69% всех медикаментов составлял гидроксихлорохин.
Перечень лекарственных препаратов, примененных в стационарах:
плаквенил = 3580 (33.9%)
гидроксихлорохин = 2381 (22.6%)
калетра = 1354 (12.8%)
лопинавир = 1284 (12.2%)
ритонавир = 1200 (11.4%)
ингавирин = 182 (1.7%)
имидазолилэтанамид = 82 (0.8%)
пентандиовой = 82 (0.8%)
арпефлю = 46 (0.4%)
осельтамивир = 43 (0.4%)
арбидол = 36 (0.3%)
умифеновир = 31 (0.3%)
левофлоксацин = 20 (0.2%)
амброксол = 18 (0.2%)
При анализе пришлось использовать библиотеку нечеткого сопоставления fuzzywuzzy. Дело в том, что в длинных названиях лекартвенных препаратов допускалось очень большое количество ошибок.
Распределение больных по стационарам
Обычный обыватель может предположить, что пациентов распределяли по стационарам исходя из заполненности последних. Но, к сожалению, это не так.
Первые 10 стационаров по количеству принятых пациентов:
Название стационара |
Количество принятых пациентов |
Средний возраст пациентов |
Летальность |
Доверительный интервал летальности на уровне стат. значимости 5% |
ГБУЗ ГКБ № 15 им.О.М.Филатова |
4588 |
60 лет |
14,8% |
[13,8 - 15,8]% |
ГБУЗ ГКБ им. В.П.Демихова |
2114 |
57 лет |
10,3% |
[9 - 11,6]% |
ГБУЗ ГКБ № 40 Коммунарка |
2011 |
56 лет |
4,5% |
[3,6 - 5,4]% |
ГБУЗ ГКБ № 52 |
1813 |
59,5 лет |
13,5% |
[11,1 - 15,1]% |
ГБУЗ ГКБ им. Е.О.Мухина |
1451 |
56,5 лет |
7,8% |
[6,4 - 9,2]% |
ГБУЗ ГКБ им. С.С. Юдина |
1257 |
60 лет |
16,5% |
[14,4 - 18,6]% |
ГБУЗ ГКБ им. Л.А.Ворохобова |
1037 |
60,5 лет |
15,6% |
[13,3 - 17,9]% |
ГБУЗ ГВВ № 3 |
1086 |
59 лет |
8,3% |
[6,6 - 10]% |
ГБУЗ ГКБ им. С.И. Спасокукоцкого |
719 |
62 года |
14,3% |
[11,7 - 17,3]% |
ГБУЗ ГКБ №31 |
876 |
62 года |
13,6% |
[11,3 - 15,9]% |
Средний возраст пациентов позволяет оценить была ли какая- то сегрегация между стационарами по тяжести течения заболевания (поскольку более старшее поколение в целом болеет тяжелее). Видно, что в Коммунарке были самые молодые пациенты. Также молодые пациенты были в ГБУЗ ГКБ им. Е.О.Мухина и ГБУЗ ГВВ № 3, где также наблюдалась пониженная летальность.
Доверительные интервалы по летальности не пересекаются, что свидетельствует о том, что пациентов не случайным образом распределяли по стационарам, а исходя из тяжести заболевания.
В следующей публикации с помощью открытых данных г.Москвы мы получим загрязнения воздуха и проанализируем их влияние на тяжесть течения заболевания.
Комментарии (7)
ksbes
28.09.2021 16:09+3В качестве забавной детали приведу распределение умерших по знакам зодиака.
Ну не очень-то это и забавно, лучше б привели комплементарный график выздоровевших.
А так, т.к. день рождения, пусть грустный, но всё-таки праздник и люди собираются, то этот график должен коррелировать с волнами, по идее.
Nehc
28.09.2021 16:40+1>>> В качестве забавной детали приведу распределение умерших по знакам зодиака.
Слова «забавной» и «умерших» в одном предложении — плохая идея. Может лучше использовать «курьезной детали»? Или вообще убрать данный момент из статьи — суть не изменится.
В целом такие исследования нужны и важны, поэтому не стоит, как мне кажется, их дискредитировать этически неоднозначными моментами.
romxx
29.09.2021 23:44Говорю сейчас в чатике с человеком, который "на передовой" год оттрубил в одной из крупных клиник (в списке есть).
TL;DR исходный массив данных никуда не годный, вообще слабо коррелирует с реальностью. То есть статистика массово искажена, непонятно что оттуда вообще при таком garbage in можно извлечь полезного :(
Летальность по больницам искажена, используемые лекарства не те, что в реальности применялись, часто записывалась смерть "от чего-то, но не от COVID", чтобы улучшить статистику (в каких-то своих административных интересах).PythonAnalyst Автор
02.10.2021 15:22Для России анализируемая мной база максимально лучшее решение. Всё остальное еще несколько раз доизменено на различных управленческих уровнях сбора информации.
Я все смерти учитывал как от Covid- 19, поскольку пациент попал в стационар с этим заболеванием. Распределение применяемых лекарственных препаратов в разных больницах идентичное.
romxx
10.10.2021 17:05Для России анализируемая мной база максимально лучшее решение.
Я вам про то, что данные искаженные (не знаю почему, но догадываюсь, конечно), и выводов из этих данных делать нельзя, потому что garbage in - garbage out, а не про то, что максимально лучшее это или не максимально лучшее.
Про лекарства цитата из переписки:
XXX, [29.09.21 19:26] Написаны лекарства – которые полное ненужное бесполезное говно Плюс, его можно назначить любому Списать бюджет на любого И всем пофигXXX, [29.09.21 19:27] Адреналин, пропофол – если назначены, нужно обоснование Это серьёзные препараты
XXX, [29.09.21 19:27] А тут в списке какие-то плацебо для лягушат От калетры отказались через 2 недели пандемии От гидрохлоромина через три недели Тупо яд какой-то для людей
XXX, [29.09.21 19:29] Скорее всего таким образом распилили бюджет Выписали кучу говна из списка Разбросали по пациентам И продали в аптеки народонаселению
Me, [29.09.21 19:30] Что-то ты мрачная какая-то. Задело? Извини что ворошу (
XXX, [29.09.21 19:30] Да потому что этот список лекарств смешной) Я ими занималась плотно
Shersh
А подскажите, где можно получить подобные данные для проверки или своей выборки?
PythonAnalyst Автор
База данных все же содержит "пограничные" с точки закона данные, поэтому её я предоставить не готов. Если у вас есть какое- то пожелание по интересному для вас отчету, то я готов его для вас построить и разместить в публикации / комментарии.