Как сравнить развитие науки в разных странах мира?
Одним из показателей считается количество опубликованных научных статей. На сайте SCIMAGO можно найти статистику публикаций по странам, которая включает в себя общее количество опубликованных документов, количество цитируемых документов (статей, обзоров, докладов конференций), количество цитат.
В то же время странно сравнивать просто количество публикаций в США и, например, в Чешской республике, чтобы сравнить уровень развития науки в этих странах. Необходимо использовать какой-нибудь масштабирующий показатель. Проще всего использовать ВВП (по паритету покупательной способности). Связь между ВВП и количеством статей не обязательно линейная. Придется грабить Википедию, чтобы получить ВВП для разных стран. Для этого буду использовать Ruby с расширением Nokogiri. Грабить буду страничку Википедии.
Код проекта приведен на Github.
В итоге получаем данные по ВВП, количеству статей и количеству цитирования первых 50 стран по количеству статей в виде csv файла.
Для обработки этого файла используем среду R. Грузим данные в R:
dataf = read.csv("test.csv", sep=";", header=F)
names(dataf) = c("country", "gdp", "articles", "citations")
Рассчитываем количество статей и цитирований на 1 млрд долларов ВВП (некий показатель научности ВВП).
dataf$articles_per_gdp = dataf$articles/dataf$gdp
dataf$citation_per_gdp = dataf$citations/dataf$gdp
Данные вынесены в отдельную таблицу, чтобы не ухудшать читаемость статьи.
Таблица 1. Первое приближение.
Интересные получились данные. Немного обескураживают. Прежде всего совсем низким показателем США. Нам нужен другой показатель, более правдоподобный.
Попробуем нанести на график зависимость количества статей от ВВП.
plot(dataf$articles ~ dataf$gdp, lwd="3", xlab="ВВП, млрд USD", ylab="Статей, шт")
Честно говоря не очень. Все точки сконцентрированы в начале графика. Попробуем построить график в логарифмических координатах.
plot(log(dataf$articles) ~ log(dataf$gdp), lwd="3", xlab="Log(GDP)", ylab="Log(Articles)")
abline(lm(log(dataf$articles) ~ log(dataf$gdp)), lwd=3, col="blue")
Выглядит получше. И нам удалось построить зависимость количества статей от ВВП.
summary(lm(log(dataf$articles) ~ log(dataf$gdp)))
Получаем корреляцию 0.74, что очень неплохо для 50 точек. Мы можем спрогнозировать количество научных статей по ВВП страны.
Статьи=140*ВВП^0.79
Теперь примем в качестве параметра развитости науки (ПР1) в стране отношение количества опубликованных статей к прогнозному количеству (умноженное на 100). По сути прогнозное количество статей является средним значением для данного ВВП. Если ПР больше 100, значит в стране науке уделяется большее внимание, чем в среднем по миру среди подобных по экономическому развитию стран. В качестве второго параметра (ПР2) примем тот же показатель, но рассчитанный для цитирований. Результаты в таблице 2.
По ПР1 Россия занимает 41 место (54 балла) среди других сырьевых стран. По ПР2 (связанном с цитируемостью статей) находится на 46 месте.
Автор: alir1982