Хочу поделиться своим дашбордом и анализом динамики распространения инфекции. Дашборд написан на Google Таблицах и Google Apps Script.
Примечание: Автор не претендует на объективности данных. Есть множество прямых и косвенных факторов, влияющих на достоверность текущей статистики. По окончании Пандемии будет проведены профессиональные исследования и метаанализ, которые позволят объективно оценить Пандемию в цифрах. Данная статья опубликована в целях ознакомления с инструментом для анализа динамики распространения инфекции на основе данных, которые публикует ВОЗ в своих отчетах.
Дашборд доступен по этом адресу. Данные автоматически обновляются на ежедневной основе по мере публикации отчетов ВОЗ. Содержимое не адаптируется под мобильные устройства. Лучше смотреть на большом экране.
Зачем
- Я занимаюсь инвестициями, слежу за ситуацией на фондовых рынках и в текущей ситуации мне необходимо держать руку на пульсе, чтобы принимать правильные решения. Когда ситуация с новым коронавирусом стала критической, я понял что мне не хватает инструмента для отслеживания динамики распространения COVID-19;
- Много недостоверной информации. Для примера можно взять анализ Университета Джонса Хопкинса, на который часто ссылаются в средствах массовой информации. На момент создания Дашборда, аналитики университета испытывали сложности с аггрегированием данных, появлялись ошибки. Я сомневался что их анализ достоверно отображает текущую ситуацию;
- На момент написания статьи появилось много дашбордов и аналитики, но зачастую они отображают сухие цифры, визуализацию на основе карт, но не отображают динамики;
- Удобно открыть ноутбук с утра и на одном экране узнать что произошло за прошедшие сутки.
- Это отличная возможность попрактиковаться с Google Таблицами и Google Apps Script
Данные
Изначально я использовал данные из отчетов ВОЗ, но они то допускали ошибки при переносе данных из отчетов в базу, то меняли время, относительно которого считали новые случаи заражения. В итоге я переписал скрипты на использование данных от ECDC. Это те же данные ВОЗ, но со стабильным временем публикации и без ошибок.
На что смотреть
- Информеры. Они отображают текущую ключевую динамику по миру;
- Динамику общего количества случаев заражения в мире(TOTAL CASES);
- Динамику новых случаев заражения по миру(DAILY NEW CASES);
- Динамику распространения инфекции и летальных исходов по странам;
- Визуально оценить ситуацию на карте мира;
- Динамику летальности(CFR);
- Длительность пикового периода эпидемии по странам;
- Корреляцию широкого индекса S&P 500 с количеством новых случаев заражения;
- Узнать насколько критична ситуация в конкретной стране с поправкой на численность населения этой страны.
Летальность(CFR)
В Интернете много споров на счет летальности нового коронавируса, есть статьи на Хабре. Я не хочу вступать в очередную полемику, я просто оперирую данными, которые у нас есть.
Да, определенно есть проблемы со сбором статистики, есть проблемы в массовом тестировании, которые позволили бы более точно судить о летальности. На точность данных также влияет такие вещи как сезонная эпидемия гриппа в странах Европы, высокая смертность в целом в некоторых странах, вроде Индии, которая возможно в совокупности с проблемами инфраструктуры здравоохранения просто размывает статистику по летальности нового коронавируса. Я допускаю что в странах с большим количеством заражений из-за нагрузки на систему здравоохранения просто невозможно своевременно определить причину смерти, либо наоборот приписать ее новому вирусу. Но, определенно точно можно сказать что многие недооценили критичность ситуации.
Люди путают смертность с летальностью. Согласно ВОЗ и CDC летальность сезонного гриппа — 0.1%, коронавируса SARS-CoV-2 — 4.45% на момент написания статьи(26.03.2020). В некоторых странах, таких как Италия, летальность достигает 9% на текущий момент.
Да, летальность у нового коронавируса не такая высокая как у MERS-CoV и Ebola(34% и 50%), но контагиозность, вирулентность, скорость и масштабы распространения у нового коронавируса не идут ни в какое сравнение — они намного выше.
Пиковый период
Для работы мне необходимо было знать сколько длится пиковый период эпидемии в конкретной стране. Если принять в расчет, что большинство стран примут более-менее соразмерные меры тотального карантина, то опираясь на опыт других стран, можно будет судить когда эпидемия пойдет на спад в конкретной стране.
Я не нашел какой-либо методологии определения пикового периода, поэтому мне пришлось импровизировать. Опираясь на динамику по количеству новых заражений, я решил определить такое значение новых заражений, на основе которого можно было бы судить, прошел ли пик эпидемии или страна находится в пиковом периоде. Среднее значение и медиана не совсем подходили, поэтому я решил использовать Квартиль. Я убрал дни с нулевым значением из выборки данных по новым заражениями, после такой нормализации я использовал функцию определения значения Второго Квартиля. Далее формула считает количество дней, которые превышают значение Второго Квартиля — это и есть длительность пикового периода.
Если применить такой расчет для всех стран, то его вполне можно использовать для сравнения пикового периода по странам. У этого метода есть одна особенность, длительность пикового периода может изначально быть больше, даже при условии если эпидемия в одной из стран началась позже другой. Например, если рассмотреть динамку США, то по таймлайну видно что в этой стране был резкий рост без постепенного нарастания. В следствие чего мы имеем малое количество дней с малым значением новых случаев заражений и большое количество дней с высоким значением. Поэтому на данный момент пиковый период в США составляет 21 день, а в Иране, где эпидемия началась раньше — 18. При этом длительность пикового периода в Иране может расти, а в США оставаться постоянной, пока эпидемия в США не пойдет на спад.
Пиковый период будет более достоверно отображать ситуацию к концу эпидемии. Можно взглянуть на таймлайны Китая и Южной Кореи, где пиковый пик эпидемии прошел. В Китае он составлял — 36 дней, в Южной Корее — 27. Несмотря на то, что новые заражения и в Китае и в Южной Корее все еще присутствуют, расчет пикового периода прекрасно отображает эффективность пресловутых методов тотального карантина и методов сглаживания кривой, принятые в Южной Корее. Надо учитывать что существует риск вероятности второй волны эпидемии в Южной Азии. По причине поспешного снятия карантина, либо из-за импортирования вируса из соседних стран, где эпидемия только начинается. Поэтому, пиковый период может увеличиваться.
Сводная таблица по странам
Здесь отображается вся ключевая информация по странам, а также есть таймлайны, по которым можно визуально оценить кривую эпидемии.
Данные на карте мира
Визуализация на карте позволяет оценить текущие очаги распространения инфекции.
Что планирую добавить
Отдельные таблицы по количеству заражений с поправкой на численность населения;Визуализацию динамики на картах мира с поправкой на численность населения;- Визуально выделить пиковые периоды, если эпидемия в конкретной стране на данный момент находится в пиковом периоде.
Обратная связь
Буду рад услышать ваши пожелания и рекомендации, чтобы сделать Дашборд еще информативнее.
visirok
Благое дело.
Но очень важно понять различие методик измерений.
Часто речь идет об очень простых вещах. Представим себе, при тесте вероятность здорового человека быть объявленным заражённым 10% процентов. Испуганные граждане тестируется. Протестировали 100 тысяч — получаем 10 тысяч больных. Чем больше людей тестируем, тем больше заражённых.
Другой сценарий — тестируем всех обратившихся к врачу. Обратилось 100 тысяч. Из них записали 10 тысяч в заражённые зазря. Каждый тысячный из обратившихся умер, их записали в жертвы Коронавируса. Получили 10 смертей напрасно записанных на счёт Коронавируса.
finansist69 Автор
Все верно, статистика будет достоверной только при условии массового тестирования населения.
visirok
Этого недостаточно.
Необходимо измерения проводить по одним и тем же методикам. Эти методики должны быть хорошо определёнными и публичными. Хорошо было бы ещё, если бы они были разумными.
P.S. Когда я начал писать мой первый комментарий, оценка статьи была -1. Я перевёл на 0. К концу написания стало опять -1. На данный момент +1.
Это радует. Не угасайте!
finansist69 Автор
Да, необходимо было уточнить в предыдущем комментарии что при соблюдении одних и тех же методик в разных странах. Рейтинг рейтингом, но я точно выполню озвученные планы!
visirok
Важно также не поддаваться «клиповому мышлению». Например, а увеличились ли общая смертность от Коронавирусв? Думаю — да, поскольку из-за принятых ограничений люди меньше разбиваются на дорогах, убивают друг-друга в драках и т.д.
С другой стороны, в ряде стран плановые операции отложены, чтобы держать реанимационные койки свободными. От этого гибнут люди, которые иначе бы не погибли. Вопос, как учесть этот эффект?
finansist69 Автор
Сейчас никак не учесть, много факторов влияет на объективность данных. Предлагаю рассматривать эту публикации как ознакомление с инструментом для анализа динамики на основе текущих данных. Добавил Disclaimer на этот счет в начало статьи.