Использование наборов данных с портала открытых данных России data.gov.ru

в 13:47, , рубрики: анализ данных, открытые данные, Программирование, Статистика в IT

В предыдущий раз я проанализировал наборы данных: распределение по категориям и форматам файлов, степень заполнения полей в паспортах наборов данных, и т.п. Теперь попытаюсь понять, как часто наборами данных интересуются и как часто наборы данных используются? Какие наборы данных вызывают интерес у пользователей портала?

Для того, чтобы проводить оценку, необходимо определиться по каким критериями ее производить. В описаниях наборов данных есть информация о количестве их просмотров. Не надо быть гением, чтобы понять, что если кто-то просматривал информацию о наборе данных, то, видимо, делал он это не совсем случайно. И, следовательно, критерием того, что набор данных вызвал интерес, будет количество его просмотров. А если набор данных не просто взывает интерес, но и может быть полезным, он будет скачан. Таким образом, количество скачиваний будет критерием полезности.

А еще можно представить, что портал – это магазин. Товары в магазине – это наборы данных. Стоимость товара – это количество усилий, которое требуется затратить для того, чтобы скачать (найти, где же эта ссылка) и использовать (например, просмотреть или использовать в качестве источника данных для собственных целей) данные. Соответственно, количество просмотров – это количество потенциальных покупателей, а количество скачиваний – количество покупок.

Покупатели заходят в магазин, смотрят товары, оценивают. Если покупатель не может найти товар или не может понять, подходит ли он ему, то он уйдет. Если товар заинтересовал покупателя, то он может его купить (скачать), если цена (количество усилий, затраченных для закачки и использования) устраивает. Например, некий набор данных меня заинтересовал, и я хочу его скачать. Но оказывается, что он в формате, который мне сложно использовать. В то же время, на другом сайте есть те же самые данные, но в более удобном виде или более новые, или с лучшим описанием, соответственно, набор данных скачан не будет.

Сначала простейшие статистические характеристики для количества просмотров:

  • всего – 2,03 млн;
  • минимум – 2;
  • среднее – 161;
  • медиана – 61;
  • максимум – 28,1 тыс.

Большое значение максимума по сравнению со средним и медианой, а также разница между медианой и средним значением явно намекает на неравномерное распределение количества просмотров и «длинный хвост».

Чтобы визуально в этом убедиться, я разделяю количество просмотров на 1000 равномерно распределенных групп (усредняю) и получаю достаточно гладкую кривую. Затем строю зависимость суммы всех просмотров от усредненного количества просмотров и количества наборов данных от усредненного количества просмотров.

Распределение просмотров наборов открытых данных с портала data.gov.ru

Что показывает график?

Большое количество наборов данных имеет близкое к нулю количество просмотров, но общее количество просмотров этих наборов велико. Далее, приблизительно от 100 до 1000 спад. От 1000 до 5000 достаточно равномерное распределение. От 5000 рост.

Цифры выбраны на глаз. А вот каким образом то же самое выглядит на диаграмме.

Распределение просмотров наборов открытых данных с портала data.gov.ru. Диаграмма

Две трети наборов данных просматривались менее 100 раз.
Треть наборов данных просматривалась от 100 до 1000 раз.
Порядка одного процента просматривалось от 1000 до 5000 раз.
И меньше одной десятой процента наборов данных просматривалось более 5000 раз.
А вот если считать по сумме просмотров, то картина другая.
Те наборы, которые просматривались меньше 100 раз, составляют всего 16 %.

Почти две трети, то есть основная часть просмотров, приходится на наборы данных, которые просматривались от 100 до 1000 раз.

Около 14 % приходится на наборы данных, которые просматривались от 1000 до 5000 раз.

И почти 7 % приходится на наборы, которые просматривались более 5000 раз (а их меньше одной десятой от общего количества).

Но это не совсем то, что нужно для оценки использования наборов данных. Наборы данных выкладывались в разное время, поэтому использование абсолютных величин, в данном случае количество просмотров, не имеет большого смысла. Для корректного сравнения я буду использовать относительную величину – количество просмотров в месяц.

Статистические характеристики для количества просмотров наборов данных в месяц:

  • минимум – 0,184;
  • среднее – 8,49;
  • медиана – 5,33;
  • максимум – 1,76 тыс.

На самом деле, ситуация с количеством просмотров в месяц напоминает количество просмотров – неравномерное распределение с длинным хвостом.

Количество просмотров наборов открытых данных с портала data.gov.ru в месяц

Условно разделю все наборы данных по среднему количеству просмотров следующим образом:
реже одного раза в месяц;

  • от одного раза в месяц до одного раза в неделю;
  • от одного раза в неделю до одного раза в день;
  • от одного раза в день до одного раза в час;
  • больше одного раза в час.

Количество просмотров наборов открытых данных с портала data.gov.ru в месяц. Диаграмма

Наборы данных, которые просматриваются реже одного раза в месяц, видимо, что-то совсем ненужное. Таких наборов данных порядка 6 % и логично, что на их долю приходится всего 0,2 % от общего числа просмотров.

Треть наборов данных просматривается от одного раза в месяц до одного раза в неделю. И на их долю приходится около 6 % от общего количества просмотров. Вроде, кто-то иногда смотрит.

Чуть больше половины наборов данных просматривалось от одного раза в неделю до одного раза в день. И именно на них приходится практически половина от общего количества просмотров. Не слишком часто, но смотрят.

На наборы данных, которые смотрят чаще одного раза день, а их всего 2,5 %, приходится более трети от общего количества просмотров. Вот то, что вызывает интерес.

Но самый большой интерес вызывают те наборы данных, которые просматриваются чаще одного раза в час. Их всего 0,03 от общего количества, и на них приходится почти 4 % от общего количества просмотров.

Таким образом, всего лишь 3 % от всех наборов данных действительно можно считать интересными. Треть не представляет никакого интереса. И чуть больше половины изредка могут кого-то заинтересовать.

Товаров в магазине много. Но больше трети из них практически не интересуют покупателей. Больше половины товаров не особо интересуют покупателей, но интерес к ним стабильный. И 3 % товаров действительно вызывают интерес.

Но это только полдела.

Даже если покупатель зашел в магазин и товар его заинтересовал, будет ли он его покупать?

Если набор данных скачали – значит он кому-то был нужен (и, возможно, даже очень полезен). Таким образом, как было сказано выше, полезность набора данных я буду определять исходя из числа скачиваний.

Сначала, как обычно, немного статистики:

  • всего – 63,2 тыс.;
  • минимум – 0;
  • среднее – 5,01;
  • медиана – 1;
  • максимум – 2,33 тыс.

О чем это говорит? Неравномерное распределение? Длинный хвост?

Нет. Сдается мне, что при медиане равной единице, можно ожидать интересный результат.

Количество скачиваний наборов открытых данных с портала data.gov.ru

Похоже, что большую часть наборов данных никто не скачивает вообще.

Условно я разделил количество скачиваний следующим образом:

  • 0 – никогда;
  • 1 раз;
  • 2 раза;
  • меньше 10;
  • от 10 до 100;
  • от 100 до 1000;
  • больше 1000.

Посмотрим на диаграмме.

Количество скачиваний наборов открытых данных с портала data.gov.ru. Диаграмма

И что же мы видим?

Половину наборов данных не скачивали вообще никогда. Даже чтобы проверить, что работает, не скачивали. Даже случайно. НИКОГДА!

Всего один раз скачивали 16 % наборов данных. Возможно случайно или для проверки, что они есть. На них приходится около 3 % от общего числа скачиваний.

Два раза скачивали 7 % наборов данных и на них приходится около 3 % от общего числа скачиваний. Два раза тоже сомнительный результат.

Почти 17 % наборов данных скачивали меньше 10 раз, и на них приходится 17 % от общего количества скачиваний.

Если сложить вместе, то получается, что 90 % наборов данных совсем не интересны или практически не представляют интереса?

От 10 до 100 раз скачивали около 9 % наборов данных, и их доля составляет около 40 %.
0,5 % наборов данных скачивали от 100 до 1000 раз, но на них приходится четверть всех скачиваний.

Больше 1000 раз скачивали всего 0,02 % от общего количества наборов данных, и они составляют порядка 8 % от всех скачиваний.

В итоге, половина наборов данных вообще никому ни разу не была нужна. 10 % наборов данных представляют стабильный интерес для использования. Реальную пользу приносят меньше 1 % набора данных.

Половину товаров в магазине не покупают в принципе. Треть товаров покупают очень редко. 10 % товаров пользуются стабильным спросом. И меньше 1 % товаров действительно востребованы покупателями.

Но, как и с количеством просмотров, правильней рассматривать не абсолютные значения, а относительные.

По аналогии, вместо количества скачиваний будет количество скачиваний в месяц.

Статистика кратко:

  • минимум – 0;
  • среднее – 0,276;
  • медиана – 0,02;
  • максимум – 145.

Логично, что опять те же с тем же.

Количество скачиваний  в месяц наборов открытых данных с портала data.gov.ru. Диаграмма

Понятно, что половина наборов данных никогда не скачивается и график выглядит не слишком красиво.

Диаграмма более информативна.

Количество скачиваний в месяц наборов открытых данных с портала data.gov.ru. Диаграмма

Та же половина наборов (видимо, ошибка округления привела к разнице в долях) никогда не скачивается. Этот факт уже известен.

Почти половина наборов данных (45 %) скачивается меньше одного раза в месяц, и на них приходится 42 % от общего количества скачиваний.

От одного раза в месяц до одного раза в неделю скачивается около 4 %, но на их долю приходится почти четверть скачиваний.

От одного раза в неделю до одного раза в день скачивается около 0,8 % наборов данных, но на их долю попадает почти 23 % от общего количества скачиваний.

И, наконец, от одного раза в неделю до одного раза в час скачивается всего 0,05 % наборов данных, но на их долю приходится почти 11 % от всех скачиваний.

Если, например, считать, что портал — это магазин, количество просмотров – это количество посетителей магазина, а количество скачиваний — это число покупок, то можно, посчитать конверсию:

Уровень конверсии

Уровень конверсии (conversion rate) — это процентное соотношение посетителей магазина, сайта, маркетингового мероприятия, которые совершили выбор, осуществили покупку, к общему числу всех посетителей.

Конверсия в продажах — отношение покупателей (магазина, фирмы) к общему числу посетителей (обратившихся клиентов).

Конверсия в рекламе – отношение количества показов рекламы к количеству обращений к рекламодателю.

Конверсия в интернет-маркетинге — отношение посетителей сайта, которые совершили «нужное» действие (кликнули по ссылке, проголосовали, купили) к общему числу посетителей сайта.

Обычно уровень конверсии рассчитывается в процентах. Уровень конверсии для посетителей интерне- магазинов (т. е. доля совершивших покупку посетителей сайта) составляет в среднем 2-5%. Например, цель сайта – продажа книг, и у вас за сутки было 500 посетителей сайта и 35 проданных книг. Тогда конверсия составит 35*100/500=7%.

Уровень конверсии показывает, насколько хорошо маркетинговые усилия по привлечению посетителей и покупателей, а также усилия по наполнению сайта информацией, магазин – товаром, выполняют главную задачу — обеспечение продаж.

Успешная конверсия по-разному трактуется продавцами, рекламодателями или поставщиками контента для сайта. Для продавца успешная конверсия будет означать операцию покупки. Для поставщика контента успешная конверсия может означать регистрацию посетителей на сайте, на форуме, на маркетинговом мероприятии, подписку на почтовую рассылку, скачивание программного обеспечения или какие-либо другие действия, ожидаемые от посетителей.

Понятие уровня конверсии применимо не только к электронным СМИ, электронной конверсии, но и в любом случае, когда привлечение клиентов не является конечной задачей, и более важным является получение выгоды от привлеченных клиентов — как конечный результат многоэтапной (привлечь-заинтересовать-продать) маркетинговой задачи по работе с клиентами.

K= N / N0 * 100%, где

K – показатель конверсии;
N – количество реальных покупателей (клиентов, купивших товар или воспользовавшихся услугой);
N0 – количество посетителей магазина или сайта.

Для портала открытых данных уровень конверсии будет порядка 3 %. Много это или мало каждый может решить сам.

Выводы

Всего около 3 % наборов данных реально кому-то интересны. Но, при этом, почти половина просматривается от одного раза в неделю до одного раза в день.

Половина наборов данных вообще никогда никем не скачивалась.

Меньше 1 % наборов данных действительно представляет интерес.

Что дальше?

А дальше будем смотреть, как выставляются оценки наборам данных, проверять, работают ли ссылки на наборы данных. Посмотрим, как часто обновляются наборы данных и какого размера файлы наборов данных. Есть ли взаимосвязь между форматом файла набора данных и количеством скачиваний.

P.S. В качестве иллюстрации я выложил несколько аналитических панелей.
Ресурсы ограничены, поэтому при загрузке возможны ошибки.
Пишите отзывы в комментариях.

Автор: AlexOleynik

Источник

* - обязательные к заполнению поля


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js