«Пандемия» научных публикаций о COVID-19

в 8:43, , рубрики: COVIT-19, data mining, библиометрические исследования, визуализация данных, Здоровье гика, Инфографика, Научно-популярное, научные публикации, тематические карты

В современном информационном обществе любые социально-важные процессы, которые к тому же влияют на безопасность и здоровье граждан, сопровождаются потоком ложной информации. Чем больше участников процесса и чем сложнее предметная область, тем шире пространство для манипуляций и распространения дезинформации. Такая дезинформация может быть опаснее явления, породившего угрозу.

«Пандемия» научных публикаций о COVID-19 - 1

Информация о заболевании COVID-19 на сегодняшний день доминирует над любой другой и сопровождается большим количеством ложной информации. В связи с этим возникает потребность в достоверных сведениях, которые при определённом навыке можно получить из рецензируемых научных журналов.

Многие электронные научных библиотеки и журналы (такие как National Center for Immunization and Respiratory Diseases, JAMA Network, Elsevier) на своих сайтах организовали специальные разделы публикаций о коронавирусе SARS-CoV-2. Однако по данной теме в день выходит более 10 научных статей. Разобраться в таком потоке информации непросто. Если наиболее цитируемая публикация про коронавирус с 2003 года за 18 лет привлекла более 3400 источников (по оценке Google Scholar), то на статью Clinical features of patients infected with 2019 novel coronavirus in Wuhan, China ссылаются уже более 900 источников, при том, что данная статья вышла лишь месяц назад! Эту ситуацию можно назвать «пандемией» научных статей о COVID-19.

Попробуем структурировать поток публикаций и выявить в нём интересные закономерности. Из-за отсутствия специальных знаний в области медицины, в настоящей статье приводятся лишь результаты библиометрического анализа, без попыток интерпретации выявленных фактов в контексте вирусологии.

Характеристика исходных данных

Исходными данными явились сведения о более чем 10 000 академических публикаций, собранных 20 марта 2020 года при помощи поисковой системы Google Scholar. К сожалению, в данной поисковой системе индексируется мало отечественных публикаций из-за того, что основная российская библиометрическая система eLibrary имеет сильную систему защиты от сбора данных.

Всего было выполнено три поисковых запроса по следующим ключевым словам: «COVID-19», «coronavirus» и «SARS-CoV-2» (рисунок 1).
«Пандемия» научных публикаций о COVID-19 - 2
Рис. 1 – Результаты поиска научных публикаций по ключевым словам

Название заболевания COVID-19 в научных публикациях используется чаще, чем название вируса SARS-CoV-2. Всего статей и книг о коронавирусах, а также связанных с ними тематиках, по данным Google Scholar более 150 тысяч. Статистика по годам для собранных публикаций приведена на рисунке 2.
«Пандемия» научных публикаций о COVID-19 - 3
Рис. 2 – Распределение собранных сведений о публикациях по годам

На диаграмме можно наблюдать два пика, относящихся к 2003 и 2012 годам. Эти пики соответствуют двум вспышкам коронавирусных инфекций: SARS-CoV (тяжёлый острый респираторный синдром, получивший в СМИ название «атипичная пневмония») и MERS-CoV (Ближневосточный респираторный синдром). Несмотря на то, что при сборе сведений о публикациях основное внимание уделялось более новым, трудно не заметить скачок научной активности, обусловленной текущей ситуацией с пандемией COVID-19. Эту тенденцию также можно наблюдать по динамики цитирования самых популярных статей этой темы. Публикация Identification of a novel coronavirus in patients with severe acute respiratory syndrome про коронавирус с 2003 за 18 лет по оценке Google Scholar привлекла более 3400 источников. При этом публикация Clinical features of patients infected with 2019 novel coronavirus in Wuhan о новом коронавирусе всего лишь за месяц имеет уже более 900 цитирований! Такая ситуация названа «пандемией» научных статей о COVIT-19, так как затронула учёных по всему миру. Для исследования столь возросшего объёма публикаций требуется применение особых методов анализа, которые и будут продемонстрированы в настоящей статье.

Карта научных публикаций по теме «Коронавирусы»

Анализ в графической форме при помощи карт представляется удобным и интуитивно понятным. Дополнительную информацию о научных публикациях можно получить, если учесть тематическую связь между ними, отражённую в цитировании. На основе собранных данных был построен граф цитирования, ядро которого для удобства изображено в виде тепловой карты (рисунок 3).
«Пандемия» научных публикаций о COVID-19 - 4
Рис. 3 – Карта научных публикаций по теме «Коронавирусы»

Представленная на рисунке 3.А карта образует семантическое пространство, в котором каждый участок имеет определённую тематическую направленность. Близость расположения публикаций определяет их тематическое сходство. Взаимное расположение тематических участков определяется связями между соответствующими темами исследований. Т.е. чем ближе две области карты находятся друг к другу, тем они более схожи друг с другом по теме исследований.

На карте (рисунок 3.А) можно наблюдать два крупных кластера. В кластере, расположенном в левой части карты (сектора 6-11, рисунок 3.А), сосредоточены результаты исследований коронавирусов, проводимых до появления COVID-19. Об этом свидетельствуют распределение количества найденных публикаций по поисковым запросам «COVID-19» (рисунок 3.В) и «coronavirus (после 2020 года)» (рисунок 3.Б). Публикации, найденные по запросу «SARS-CoV-2» (рисунок 4.Д) присутствуют как в левом, так и в правом (сектор 3, рисунок 3.А) кластерах.

Помимо тематики кластеров важно понимать, в какое время издавались входящие в них публикации. На рисунке 4 показана хронология размещения найденных научных статей и книг по теме «Коронавирус», где год издания обозначен цветом.

«Пандемия» научных публикаций о COVID-19 - 5
Рис. 4 – Иллюстрация хронологии появления научных публикаций о коронавирусах

Наиболее ранние публикации расположены в левом верхнем углу карты, публикации за 2020 году – в обособленной группе справа.

Сведения о хронологии позволяют проследить причинно-следственные связи между областями и развитие тематик.

Обзор тематических кластеров

Рассмотрим более подробно основные области построенной карты (рисунок 5).

«Пандемия» научных публикаций о COVID-19 - 6
Рис. 5 – Карта научных публикаций по теме «Коронавирусы» с нанесённой на неё разметкой тематических областей

Публикации основного кластера посвящены исследованию вирусов. Его верхняя часть включает более ранние публикации, в которых большее внимание уделяет вопросам исследования белковой структуры вирусов. В нижней части области сосредоточены результаты исследований конкретных коронавирусов, в том числе SARS (2003 года) и MERS (2012 года).

В конце 2002 начале 2003 года появилось заболевание, получившее в СМИ название «Атипичная пневмония». Вирус распространялся в странах Азии. За всё время было отмечено более 8000 случаев заражения, причём более 800 из них закончились летальным исходом. С данным заболеванием связан пик публикаций, который был отмечен ранее, а сами публикации расположены компактно в области «SARS» (рисунок 5).

К области «MERS-CoV» относятся публикации, связанные с Ближневосточным респираторным синдром 2012 года, который распространялся в 23 странах, включая Саудовскую Аравию, Йемен, Объединённые Арабские Эмираты, Францию, Германию, Италию.

Три обособленных кластера в левой части карты (зона 3, сектор 8, рисунок 3.А) относятся к исследованию вирусов у животных (кошек, собак и крупного рогатого скота).

В правой части карты сосредоточены публикации о COVID-19 и его последствиях для общества. Кластер «COVID-19» имеет сложную структуру и состоит из тематических участков, связанные как с исследованием самого вируса, так и моделированием его распространения. Также есть отдельная область публикаций, связанных с особенностями выявления заболевания методами радиологии.

Между двумя большими кластерами левой и правой частей карты имеется «мостик» из порядка 20 публикаций (сектора 3 и 4 зоны 2, рисунок 3.А). Эти публикации имеют связи по цитированию, причём связанные публикации расположены в противоположных кластерах примерно в равном соотношении. Среди таких публикаций освещаются темы о разработке вакцины, о выяснении происхождения вируса, а также о прогнозе его распространения с учётом анализа имеющихся данных об аналогичных инфекциях.

Построенная карта позволяет наглядно увидеть «естественную» связь между различными темами исследований коронавирусов и может быть использована в качестве интуитивно понятного и наглядного инструмента анализа тематической направленности авторских коллективов, научных журналов и других объектов исследований. Эта возможность будет продемонстрирована в следующих разделах.

Анализ активности авторов

Для рассматриваемых публикаций установлено более 3000 авторов, 50 из них (с наибольшим числом публикаций) представлены на диаграмме (рисунок 6).

«Пандемия» научных публикаций о COVID-19 - 7
Рис. 6 – 50 наиболее публикуемых авторов по теме «Коронавирус»

При определении статистики по авторам использовались только их фамилии и инициалы. Данный подход обладает рядом недостатков, так как с одной стороны, одни и те же люди могут рассматриваться как разные по причине отличия в написании фамилий на родном и английском языках. С другой стороны, два разных автора могут фиксироваться как один человек, если у них одинаковые фамилии и инициалы (данная проблема особенно актуальна для китайских авторов, которых большинство в теме про COVID-19). По этой причине действительное число авторов и их публикаций будет отличаться от приведённой статистики.

Рассмотрим тематическую направленность наиболее активных авторов. На рисунке 7 представлены персональные тематические карты 7 наиболее публикуемых авторов. Персональные карты были построены с использованием приведённой ранее карты научных публикаций по теме «Коронавирусы».

«Пандемия» научных публикаций о COVID-19 - 8
Рис. 7 –Персональные тематические карты для семи наиболее публикуемых авторов по теме «Коронавирус»

Профессоры Патрик Сай Ву (Patrick Cy Woo) и Сюзанна Кар Пуй Лау (Susanna Kar Pui Lau) являются сотрудниками департамента микробиологии в Гонконгском университете. Авторы имеют более 100 публикаций (из которых как минимум 40 связаны с исследованием коронавирусов). У них достаточно высокие индексы Хирша, однако пока по теме COVID-19 публикаций данных авторов зафиксировано не было.

Ввиду распространённости фамилии Ли под профилем Y Li могут быть представлены сразу несколько человек: Юн Ли (Yun Li, профессор Мичиганского университета или профессор университета в Торонто), Лэй Юань (Lei Yuan, сотрудником Уханьского университета) и другие. По этой причине проводить анализ активности публикаций указанного профиля не имеет смысла. Аналогичные рассуждения применимы к профилям W Li, J Chen и Y Yang.

Доктор Зиад Мемиш (Ziad A. Memish) в настоящее время является старшим консультантом по инфекционным заболеваниям и руководителем исследовательского отдела в больнице принца Мухаммеда ибн Абдель Азиза в Эр-Рияде (Министерство здравоохранения Саудовской Аравии). Также является профессором медицинского колледжа в университете Альфаисаль (Эр-Рияд, Саудовская Аравия) и адъюнкт-профессором факультета глобального здравоохранения им. Хьюберта (Школа общественного здравоохранения им. Роллинса, Университет Эмори, Джорджия, США).

Зиад Мемиш признан экспертным сообществом как специалист по борьбе с инфекциями заболеваниями. Входит в Исполнительный совет Международного общества инфекционных заболеваний. Имеет множество различных наград, большой перечень научных публикаций и докладов на международных конференциях, является главным редактором двух журналов (Journal of Epidemiology и Global Health). Основная часть его публикаций по коронавирусам размещена в секторе 6 зоны 3 (рисунок 3.А), к которому относятся публикации о Ближневосточном респираторном заболевании. Время их опубликования проходится на период распространения заболевания. В этот момент Зиад Мемиш занимал должность министра здравоохранения Саудовской Аравии.

По теме COVID-19 на карте Зиад Мемиш представлен четырьмя публикациями, посвящёнными диагностированию и противодействию массовому распространению вируса.

Таким образом, в результате анализа персональной активности можно установить, что всплеск публикаций 2020 года относится к китайским авторам, которые из-за распространённости фамилий и инициалов при проведении библиометрического анализа могут быть ошибочно приняты за одних и тех же людей. Исследователи с международным авторитетом проявляют умеренную активность в отношении публикаций сведений о коронавирусе и связанным с ним заболеванием COVID-19.

Анализ активности издательств

Многие информационные ресурсы (в том числе Хабр) для более удобного доступа к информации о COVID-19 на своих сайтах организовали специальные разделы, где агрегирована соответствующая информация. Упрощение доступа к проверенной информации – это хороший способ борьбы с распространением ложных сведений, которые могут привести к негативным последствиям. Научные издательства также используют данный подход. При этом необходимо отметить дополнительную ответственность по обеспечению достоверности и качества размещаемых сведений со стороны таких организаций. Публикуя недостаточно проверенные сведения, издательства рискуют отвлечь внимание или ввести в заблуждение учёных, проводящих исследований, что может привести к снижению эффективности борьбы с коронавирусами.

В связи с возросшим объёмом работ по рецензированию научных статей, интересным представляется изучение активности издательств в отношении рассматриваемой темы. Для этого на рисунке 8 приведена статистика размещения научных статей в соответствующем источнике, причём для источников также показаны сравнительные оценки общего числа найденных публикаций о коронавирусах и количества публикаций по теме COVID-19.

«Пандемия» научных публикаций о COVID-19 - 9
Рис. 8 –Статистика по количеству собранных публикаций для журналов и библиометрических платформ (светло-синим цветом обозначено общее число собранных публикаций по теме «Коронавирусы», тёмно-синим – число публикаций по теме COVID-19)

Необходимо отметить, что большую долю публикаций по теме COVIT-19 составляют так называемые препринты статей, т.е. статей, выпускаемых до их официального выхода в рецензируемом научном журнале (такие статьи размещаются в источниках medrxiv.org и arxiv.org). С одной стороны, размещение препринтов позволяет учёным раньше других заявить своё первенство в получении научных результатов, а с другой – исправить неточности, которые могут быть выявлены до того, как статья будет издана официально. При этом снижается возможность коммерческого использования результатов своей интеллектуальной собственности, так как данные будут общедоступны. Большое количество препринтов статей по теме не вызывает удивления, так как в связи с её актуальностью исследователи стремятся как можно раньше опубликовать результаты своих исследований, не дожидаясь завершения процедур рецензирования, которые предусмотрены официальными научными издательствами. Также интересной особенностью является наличие источников, которые по теме COVIT-19 не имеют публикаций, несмотря на наличие статей по другим темам, связанным с коронавирусами. Эта особенность будет рассмотрена далее более подробно.

Используем построенную карту для анализа научных журналов так же как использовали её для анализа активности авторов. На рисунке 9 показаны тематические карты рассмотренных журналов и электронных библиотек.

«Пандемия» научных публикаций о COVID-19 - 10
Рис. 9 – Тематические карты научных журналов и электронных библиотек, публикующих сведения по теме «Коронавирус»

ScienceDirect (sciencedirect.com). Система доступа к научным журналам, реализованная одним из крупнейших мировых издательских домов Elsevier (которому также занимается ведением база данных научных публикаций Scopus). Система предоставляет доступ (платный и бесплатный) к публикациям из более чем 2600 научных журналов. Критика в адрес данного издательства в основном направлена на излишнюю коммерциализацию научной деятельности.

В ScienceDirect представлено 14 % публикаций, попавших в ядро собранных данных. Охвачены все рассмотренные темы о коронавирусах (рисунок 9.А), а динамика размещения публикаций соответствует общей статистике. Темы о коронавирусе 2003 года и о ближневосточном респираторном заболевании 2012 года освещены пропорционально. Тема о моделировании и механизмах распространения заболевания COVID-19 представлена в меньшем объёме по сравнению с темой клинических исследований вируса.

Journal of Virology (jvi.asm.org). Журнал Journal of Virology является рецензируемым журналом и выходит с 1967 года. В настоящий момент статьи публикуются в электронном виде раз в две недели. В журнале освещаются результаты исследований о природе вирусов, сообщается о новых открытиях и указывается на новые направления в исследованиях. Оригинальные исследовательские статьи охватывают вирусы животных, архей, бактерий, грибов, растений и простейших. Среди ключевых проблем, по которым проводятся исследования: анализ структуры вирусов, репликация вирусного генома, эволюция вирусов, взаимодействие вирусов и клеток и др.

По тематической карте (рисунок 9.Б) видно, что в данном журнале охватываются практически все темы о коронавирусах, за исключением COVID-19. По данной теме была собрана всего лишь одна публикация (Receptor Recognition by the Novel Coronavirus from Wuhan: an Analysis Based on Decade-Long Structural Studies of SARS Coronavirus). В ней вместо термина COVID-19 используется 2019-nCoV, по которому вручную на сайте издательства было обнаружено ещё 2 публикации, относящиеся к теме COVID-19. Столь незначительное число публикаций (по сравнению с другими издательствами) несмотря на широкий охват других вирусных инфекций, возможно, обусловлено редакционной политикой, высокими требованиями и тщательным рецензированием размещаемых материалов (на сайте указано, что среднее время ответа редакции о принятии к публикации – 27 дней, время между положительным решением и опубликованием – 11 дней).

Интересным также представляется сравнение хронологии размещения публикации в данном журнале и в рассмотренной системе ScienceDirect. Эти источники имеют сходство как по охвату тем, так и по примерному количеству публикаций, которые попали в ядро собранных данных. При этом динамика публикаций в ScienceDirect для вспышек вирусных инфекций 2003 и 2012 годов выглядит схожей, в то время как для Journal of Virology наблюдается угасание активности. Это может быть обусловлено как снижением интереса к темам коронавирусов или ресурсов издательства, так и целенаправленной редакционной политикой (например, дополнительными требованиями к научной новизне технологии исследования).

The National Center for Biotechnology Information (ncbi.nlm.nih.gov). Национальный центр биотехнологической информации США создан в 1988 году для обработки и хранения данных молекулярной биологии. NCBI осуществляет ведение базы данных белковых доменов, ДНК, (GenBank) и РНК, медицинских и биологических научных статей (PubMed), а также таксономию биологических видов (TaxBrowser).

Данный источник содержит чуть более 4% собранных публикаций, попавших в ядро. Практически все публикации размещены позднее 2003 года (рисунок 9.В), поэтому в верхней части тематической карты данный источник практически не представлен. Также в данном источнике низкий охват тем, связанных с вирусами домашних животных. Научные статьи по COVID-19 располагаются в основном в центральной части соответствующего кластера и посвящены клиническим исследованиям вируса, а также прогнозированию его распространения.

SpringerLink (link.springer.com). Система доступа к научным журналам от издательства Springer, специализирующегося на работах по естественно-научным направлениям. Распределение публикаций по теме «Коронавирус» и годам у SpringerLink сопоставимо с Elsevier, но в меньшем объёме (примерно в 3 раза, рисунок 9.Г). Среди особенностей в статистике публикаций можно отметить большое число публикаций, датируемых 1995 годом, которые в основном раскрывают результаты исследований коронавирусов у животных (в том числе, домашних). Основные направления публикаций по COVID-19 – клинические исследования и моделирование последствий.

medRxiv (medrxiv.org). Бесплатный интернет ресурс для размещения полных, но неопубликованных статей и монографий (препринтов) в области здравоохранения. Наибольшее число публикаций по теме COVID-19 на данный момент опубликовано именно этим источником (рисунки 8, 9.Е). Данный источник не был отмечен публикациями по другим темам о коронавирусе.

Wiley Online Library (onlinelibrary.wiley.com). Система доступа к научным журналам от издательства Wiley, аналогичная Elsevier и Springer. Wiley составил подборку более 5000 открытых научно-исследовательских статей, имеющих отношение к COVID-19. Большая часть публикаций о COVID-19 связана с результатами исследования структуры SARS-CoV-2.

Oxford University Press (academic.oup.com). Источник публикует статьи из более чем 300 журналов по гуманитарным, общественным наукам, юриспруденции, науке и медицине, две трети из которых издаются в сотрудничестве с научными и профессиональными организациями.
Публикации Oxford University Press по теме «Коронавирусы» в основном направлены на исследования конкретных коронавирусов человека. В отношении COVID-19 собраны сведения о 16 публикациях, которые в основном направлены на исследование происхождения и механизмов распространения вируса SARS-CoV-2.

Nature (nature.com). Является один из самых старых и авторитетных научных журналов в области естественных наук, имеет более миллиона читателей в месяц. Для данного журнала (рисунок 9.И) можно отметить «всплеск» публикаций по коронавирусам за 2016 год. Данная статистика отличается от других рассмотренных источников. В этот год в основном публиковались результаты исследований, посвящённых структуре коронавирусов (например, SARS and MERS: recent insights into emerging coronaviruses). Публикации имеют достаточно высокий рейтинг цитирования ввиду авторитетности журнала.

Все рассмотренные источники обладают удобными поисковыми системами и могут быть использованы для своевременного выявления результатов актуальных исследований коронавирусов.

Исследование публикаций о происхождении SARS-CoV-2

Интересным также представляется возможность использования разработанной карты для исследования тем по коронавирусу, которые вызывают споры и научные дискуссии. Одной из них является версия об искусственном происхождении коронавируса, связываемого с публикацией Engineered bat virus stirs debate over risky research. Данная публикация не была найдена в ходе сбора данных ввиду её низкого рейтинга, вызванного отсутствием ссылок цитирования (что является странным обстоятельством ввиду того, что она опубликована авторитетным издательством Nature). Эта публикация также не упоминается в двухстраничной статье No credible evidence supporting claims of the laboratory engineering of SARS-CoV-2, в которой утверждается о недостаточности доказательств искусственного происхождения вируса SARS-CoV-2 (рисунок 10).

«Пандемия» научных публикаций о COVID-19 - 11
Рис. 10 – Отдельные публикации по теме, связанной с происхождением SARS-CoV-2

В связи с этим особый интерес представляют результаты исследований, опубликованные в упомянутой ранее статье Receptor Recognition by the Novel Coronavirus from Wuhan: an Analysis Based on Decade-Long Structural Studies of SARS Coronavirus журнала Journal of Virology. Однако по причине отсутствия специальных знаний в области генной инженерии проведение дальнейшего анализа не представляется возможным.

Выводы

Подводя итог настоящему обзору необходимо отметить важное значение своевременного доступа к результатам научных исследований для противодействия дезинформации. Однако избыточный объём публикуемых сведений, а также научная сложность тематики снижает эффективность такого противодействия. Большое количество публикуемых результатов повышают нагрузку как на читателей, так и на рецензентов, проверяющих корректность полученных результатов. Данная ситуация характерна не только для редких событий, подобных пандемии коронавируса, но и для всей научной отрасли. Аналитика требует новых подходов обработки информации, один из которых был продемонстрирован в настоящей статье.

Полученные сведения о собранных научных публикациях, поправших в ядро, могут быть полезны специалистам, поэтому приводятся в таблице в виде отдельного xlsx-файла.

P.S. В комментариях интересно услышать мнение специалистов по поводу редакционной политики журнала Journal of Virology, а также о достоверности версии искусственного происхождения SARS-CoV-2.

Автор: Сердечный

Источник

* - обязательные к заполнению поля


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js