- PVSM.RU - https://www.pvsm.ru -

Мой дашборд и анализ динамики распространения инфекции COVID-19

Мой дашборд и анализ динамики распространения инфекции COVID-19 - 1

Хочу поделиться своим дашбордом и анализом динамики распространения инфекции. Дашборд написан на Google Таблицах и Google Apps Script.

Примечание: Автор не претендует на объективности данных. Есть множество прямых и косвенных факторов, влияющих на достоверность текущей статистики. По окончании Пандемии будет проведены профессиональные исследования и метаанализ, которые позволят объективно оценить Пандемию в цифрах. Данная статья опубликована в целях ознакомления с инструментом для анализа динамики распространения инфекции на основе данных, которые публикует ВОЗ [1] в своих отчетах.

Дашборд доступен по этом адресу [2]. Данные автоматически обновляются на ежедневной основе по мере публикации отчетов ВОЗ. Содержимое не адаптируется под мобильные устройства. Лучше смотреть на большом экране.

Зачем

  • Я занимаюсь инвестициями, слежу за ситуацией на фондовых рынках и в текущей ситуации мне необходимо держать руку на пульсе, чтобы принимать правильные решения. Когда ситуация с новым коронавирусом стала критической, я понял что мне не хватает инструмента для отслеживания динамики распространения COVID-19;
  • Много недостоверной информации. Для примера можно взять анализ Университета Джонса Хопкинса [3], на который часто ссылаются в средствах массовой информации. На момент создания Дашборда, аналитики университета испытывали сложности с аггрегированием данных, появлялись ошибки. Я сомневался что их анализ достоверно отображает текущую ситуацию;
  • На момент написания статьи появилось много дашбордов и аналитики, но зачастую они отображают сухие цифры, визуализацию на основе карт, но не отображают динамики;
  • Удобно открыть ноутбук с утра и на одном экране узнать что произошло за прошедшие сутки.
  • Это отличная возможность попрактиковаться с Google Таблицами и Google Apps Script

Данные

Изначально я использовал данные из отчетов ВОЗ [4], но они то допускали ошибки при переносе данных из отчетов в базу, то меняли время, относительно которого считали новые случаи заражения. В итоге я переписал скрипты на использование данных от ECDC [5]. Это те же данные ВОЗ, но со стабильным временем публикации и без ошибок.

На что смотреть

Мой дашборд и анализ динамики распространения инфекции COVID-19 - 2

  • Информеры. Они отображают текущую ключевую динамику по миру;
  • Динамику общего количества случаев заражения в мире(TOTAL CASES);
  • Динамику новых случаев заражения по миру(DAILY NEW CASES);
  • Динамику распространения инфекции и летальных исходов по странам;
  • Визуально оценить ситуацию на карте мира;
  • Динамику летальности(CFR);
  • Длительность пикового периода эпидемии по странам;
  • Корреляцию широкого индекса S&P 500 с количеством новых случаев заражения;
  • Узнать насколько критична ситуация в конкретной стране с поправкой на численность населения этой страны.

Летальность(CFR)

Мой дашборд и анализ динамики распространения инфекции COVID-19 - 3

В Интернете много споров на счет летальности нового коронавируса, есть статьи на Хабре. Я не хочу вступать в очередную полемику, я просто оперирую данными, которые у нас есть.

Да, определенно есть проблемы со сбором статистики, есть проблемы в массовом тестировании, которые позволили бы более точно судить о летальности. На точность данных также влияет такие вещи как сезонная эпидемия гриппа в странах Европы, высокая смертность в целом в некоторых странах, вроде Индии, которая возможно в совокупности с проблемами инфраструктуры здравоохранения просто размывает статистику по летальности нового коронавируса. Я допускаю что в странах с большим количеством заражений из-за нагрузки на систему здравоохранения просто невозможно своевременно определить причину смерти, либо наоборот приписать ее новому вирусу. Но, определенно точно можно сказать что многие недооценили критичность ситуации.

Люди путают смертность [6] с летальностью [7]. Согласно ВОЗ и CDC [8] летальность сезонного гриппа — 0.1%, коронавируса SARS-CoV-2 — 4.45% на момент написания статьи(26.03.2020). В некоторых странах, таких как Италия, летальность достигает 9% на текущий момент.

Да, летальность у нового коронавируса не такая высокая как у MERS-CoV и Ebola(34% и 50%), но контагиозность [9], вирулентность [10], скорость и масштабы распространения у нового коронавируса не идут ни в какое сравнение — они намного выше.

Пиковый период

Для работы мне необходимо было знать сколько длится пиковый период эпидемии в конкретной стране. Если принять в расчет, что большинство стран примут более-менее соразмерные меры тотального карантина, то опираясь на опыт других стран, можно будет судить когда эпидемия пойдет на спад в конкретной стране.

Я не нашел какой-либо методологии определения пикового периода, поэтому мне пришлось импровизировать. Опираясь на динамику по количеству новых заражений, я решил определить такое значение новых заражений, на основе которого можно было бы судить, прошел ли пик эпидемии или страна находится в пиковом периоде. Среднее значение и медиана не совсем подходили, поэтому я решил использовать Квартиль [11]. Я убрал дни с нулевым значением из выборки данных по новым заражениями, после такой нормализации я использовал функцию определения значения Второго Квартиля. Далее формула считает количество дней, которые превышают значение Второго Квартиля — это и есть длительность пикового периода.

Если применить такой расчет для всех стран, то его вполне можно использовать для сравнения пикового периода по странам. У этого метода есть одна особенность, длительность пикового периода может изначально быть больше, даже при условии если эпидемия в одной из стран началась позже другой. Например, если рассмотреть динамку США, то по таймлайну видно что в этой стране был резкий рост без постепенного нарастания. В следствие чего мы имеем малое количество дней с малым значением новых случаев заражений и большое количество дней с высоким значением. Поэтому на данный момент пиковый период в США составляет 21 день, а в Иране, где эпидемия началась раньше — 18. При этом длительность пикового периода в Иране может расти, а в США оставаться постоянной, пока эпидемия в США не пойдет на спад.

Пиковый период будет более достоверно отображать ситуацию к концу эпидемии. Можно взглянуть на таймлайны Китая и Южной Кореи, где пиковый пик эпидемии прошел. В Китае он составлял — 36 дней, в Южной Корее — 27. Несмотря на то, что новые заражения и в Китае и в Южной Корее все еще присутствуют, расчет пикового периода прекрасно отображает эффективность пресловутых методов тотального карантина и методов сглаживания кривой, принятые в Южной Корее. Надо учитывать что существует риск вероятности второй волны эпидемии в Южной Азии. По причине поспешного снятия карантина, либо из-за импортирования вируса из соседних стран, где эпидемия только начинается. Поэтому, пиковый период может увеличиваться.

Сводная таблица по странам

Здесь отображается вся ключевая информация по странам, а также есть таймлайны, по которым можно визуально оценить кривую эпидемии.

Мой дашборд и анализ динамики распространения инфекции COVID-19 - 4

Данные на карте мира

Визуализация на карте позволяет оценить текущие очаги распространения инфекции.

Мой дашборд и анализ динамики распространения инфекции COVID-19 - 5

Что планирую добавить

  • Отдельные таблицы по количеству заражений с поправкой на численность населения;
  • Визуализацию динамики на картах мира с поправкой на численность населения;
  • Визуально выделить пиковые периоды, если эпидемия в конкретной стране на данный момент находится в пиковом периоде.

Обратная связь

Буду рад услышать ваши пожелания и рекомендации, чтобы сделать Дашборд [2] еще информативнее.

Автор: finansist69

Источник [12]


Сайт-источник PVSM.RU: https://www.pvsm.ru

Путь до страницы источника: https://www.pvsm.ru/data-mining/351007

Ссылки в тексте:

[1] ВОЗ: https://ru.wikipedia.org/wiki/%D0%92%D1%81%D0%B5%D0%BC%D0%B8%D1%80%D0%BD%D0%B0%D1%8F_%D0%BE%D1%80%D0%B3%D0%B0%D0%BD%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F_%D0%B7%D0%B4%D1%80%D0%B0%D0%B2%D0%BE%D0%BE%D1%85%D1%80%D0%B0%D0%BD%D0%B5%D0%BD%D0%B8%D1%8F

[2] этом адресу: https://docs.google.com/spreadsheets/d/e/2PACX-1vRyey2UzoVlI8AWtPja1kwtIHatRPO-W2dGAb3LwuppYuJ1ZNjDfmLQGJy57dVUdVpsDrHHf9_Z1W5t/pubhtml

[3] Университета Джонса Хопкинса: https://systems.jhu.edu/

[4] ВОЗ: https://www.who.int/

[5] ECDC: https://www.ecdc.europa.eu/en

[6] смертность: https://ru.wikipedia.org/wiki/%D0%A1%D0%BC%D0%B5%D1%80%D1%82%D0%BD%D0%BE%D1%81%D1%82%D1%8C

[7] летальностью: https://ru.wikipedia.org/wiki/%D0%9B%D0%B5%D1%82%D0%B0%D0%BB%D1%8C%D0%BD%D0%BE%D1%81%D1%82%D1%8C

[8] CDC: https://ru.wikipedia.org/wiki/%D0%A6%D0%B5%D0%BD%D1%82%D1%80%D1%8B_%D0%BF%D0%BE_%D0%BA%D0%BE%D0%BD%D1%82%D1%80%D0%BE%D0%BB%D1%8E_%D0%B8_%D0%BF%D1%80%D0%BE%D1%84%D0%B8%D0%BB%D0%B0%D0%BA%D1%82%D0%B8%D0%BA%D0%B5_%D0%B7%D0%B0%D0%B1%D0%BE%D0%BB%D0%B5%D0%B2%D0%B0%D0%BD%D0%B8%D0%B9_%D0%A1%D0%A8%D0%90

[9] контагиозность: https://ru.wikipedia.org/wiki/%D0%9A%D0%BE%D0%BD%D1%82%D0%B0%D0%B3%D0%B8%D0%BE%D0%B7%D0%BD%D0%BE%D1%81%D1%82%D1%8C

[10] вирулентность: https://ru.wikipedia.org/wiki/%D0%92%D0%B8%D1%80%D1%83%D0%BB%D0%B5%D0%BD%D1%82%D0%BD%D0%BE%D1%81%D1%82%D1%8C

[11] Квартиль: https://en.wikipedia.org/wiki/Quartile

[12] Источник: https://habr.com/ru/post/494514/?utm_source=habrahabr&utm_medium=rss&utm_campaign=494514