Хочу поделиться своим дашбордом и анализом динамики распространения инфекции. Дашборд написан на Google Таблицах и Google Apps Script.
Примечание: Автор не претендует на объективности данных. Есть множество прямых и косвенных факторов, влияющих на достоверность текущей статистики. По окончании Пандемии будет проведены профессиональные исследования и метаанализ, которые позволят объективно оценить Пандемию в цифрах. Данная статья опубликована в целях ознакомления с инструментом для анализа динамики распространения инфекции на основе данных, которые публикует ВОЗ в своих отчетах.
Дашборд доступен по этом адресу. Данные автоматически обновляются на ежедневной основе по мере публикации отчетов ВОЗ. Содержимое не адаптируется под мобильные устройства. Лучше смотреть на большом экране.
Зачем
- Я занимаюсь инвестициями, слежу за ситуацией на фондовых рынках и в текущей ситуации мне необходимо держать руку на пульсе, чтобы принимать правильные решения. Когда ситуация с новым коронавирусом стала критической, я понял что мне не хватает инструмента для отслеживания динамики распространения COVID-19;
- Много недостоверной информации. Для примера можно взять анализ Университета Джонса Хопкинса, на который часто ссылаются в средствах массовой информации. На момент создания Дашборда, аналитики университета испытывали сложности с аггрегированием данных, появлялись ошибки. Я сомневался что их анализ достоверно отображает текущую ситуацию;
- На момент написания статьи появилось много дашбордов и аналитики, но зачастую они отображают сухие цифры, визуализацию на основе карт, но не отображают динамики;
- Удобно открыть ноутбук с утра и на одном экране узнать что произошло за прошедшие сутки.
- Это отличная возможность попрактиковаться с Google Таблицами и Google Apps Script
Данные
Изначально я использовал данные из отчетов ВОЗ, но они то допускали ошибки при переносе данных из отчетов в базу, то меняли время, относительно которого считали новые случаи заражения. В итоге я переписал скрипты на использование данных от ECDC. Это те же данные ВОЗ, но со стабильным временем публикации и без ошибок.
На что смотреть
- Информеры. Они отображают текущую ключевую динамику по миру;
- Динамику общего количества случаев заражения в мире(TOTAL CASES);
- Динамику новых случаев заражения по миру(DAILY NEW CASES);
- Динамику распространения инфекции и летальных исходов по странам;
- Визуально оценить ситуацию на карте мира;
- Динамику летальности(CFR);
- Длительность пикового периода эпидемии по странам;
- Корреляцию широкого индекса S&P 500 с количеством новых случаев заражения;
- Узнать насколько критична ситуация в конкретной стране с поправкой на численность населения этой страны.
Летальность(CFR)
В Интернете много споров на счет летальности нового коронавируса, есть статьи на Хабре. Я не хочу вступать в очередную полемику, я просто оперирую данными, которые у нас есть.
Да, определенно есть проблемы со сбором статистики, есть проблемы в массовом тестировании, которые позволили бы более точно судить о летальности. На точность данных также влияет такие вещи как сезонная эпидемия гриппа в странах Европы, высокая смертность в целом в некоторых странах, вроде Индии, которая возможно в совокупности с проблемами инфраструктуры здравоохранения просто размывает статистику по летальности нового коронавируса. Я допускаю что в странах с большим количеством заражений из-за нагрузки на систему здравоохранения просто невозможно своевременно определить причину смерти, либо наоборот приписать ее новому вирусу. Но, определенно точно можно сказать что многие недооценили критичность ситуации.
Люди путают смертность с летальностью. Согласно ВОЗ и CDC летальность сезонного гриппа — 0.1%, коронавируса SARS-CoV-2 — 4.45% на момент написания статьи(26.03.2020). В некоторых странах, таких как Италия, летальность достигает 9% на текущий момент.
Да, летальность у нового коронавируса не такая высокая как у MERS-CoV и Ebola(34% и 50%), но контагиозность, вирулентность, скорость и масштабы распространения у нового коронавируса не идут ни в какое сравнение — они намного выше.
Пиковый период
Для работы мне необходимо было знать сколько длится пиковый период эпидемии в конкретной стране. Если принять в расчет, что большинство стран примут более-менее соразмерные меры тотального карантина, то опираясь на опыт других стран, можно будет судить когда эпидемия пойдет на спад в конкретной стране.
Я не нашел какой-либо методологии определения пикового периода, поэтому мне пришлось импровизировать. Опираясь на динамику по количеству новых заражений, я решил определить такое значение новых заражений, на основе которого можно было бы судить, прошел ли пик эпидемии или страна находится в пиковом периоде. Среднее значение и медиана не совсем подходили, поэтому я решил использовать Квартиль. Я убрал дни с нулевым значением из выборки данных по новым заражениями, после такой нормализации я использовал функцию определения значения Второго Квартиля. Далее формула считает количество дней, которые превышают значение Второго Квартиля — это и есть длительность пикового периода.
Если применить такой расчет для всех стран, то его вполне можно использовать для сравнения пикового периода по странам. У этого метода есть одна особенность, длительность пикового периода может изначально быть больше, даже при условии если эпидемия в одной из стран началась позже другой. Например, если рассмотреть динамку США, то по таймлайну видно что в этой стране был резкий рост без постепенного нарастания. В следствие чего мы имеем малое количество дней с малым значением новых случаев заражений и большое количество дней с высоким значением. Поэтому на данный момент пиковый период в США составляет 21 день, а в Иране, где эпидемия началась раньше — 18. При этом длительность пикового периода в Иране может расти, а в США оставаться постоянной, пока эпидемия в США не пойдет на спад.
Пиковый период будет более достоверно отображать ситуацию к концу эпидемии. Можно взглянуть на таймлайны Китая и Южной Кореи, где пиковый пик эпидемии прошел. В Китае он составлял — 36 дней, в Южной Корее — 27. Несмотря на то, что новые заражения и в Китае и в Южной Корее все еще присутствуют, расчет пикового периода прекрасно отображает эффективность пресловутых методов тотального карантина и методов сглаживания кривой, принятые в Южной Корее. Надо учитывать что существует риск вероятности второй волны эпидемии в Южной Азии. По причине поспешного снятия карантина, либо из-за импортирования вируса из соседних стран, где эпидемия только начинается. Поэтому, пиковый период может увеличиваться.
Сводная таблица по странам
Здесь отображается вся ключевая информация по странам, а также есть таймлайны, по которым можно визуально оценить кривую эпидемии.
Данные на карте мира
Визуализация на карте позволяет оценить текущие очаги распространения инфекции.
Что планирую добавить
- Отдельные таблицы по количеству заражений с поправкой на численность населения;
- Визуализацию динамики на картах мира с поправкой на численность населения;
- Визуально выделить пиковые периоды, если эпидемия в конкретной стране на данный момент находится в пиковом периоде.
Обратная связь
Буду рад услышать ваши пожелания и рекомендации, чтобы сделать Дашборд еще информативнее.
Автор: finansist69