В прошлый раз [Загрузка данных с сайта открытых данных data.gov.ru] мне не без проблем удалось научиться загружать данные с портала открытых данных России. Портал открытых данных должен предоставлять наиболее актуальные сведения об открытых данных федеральных органов власти, органов региональной власти и иных организаций (цитата с сайта data.gov.ru). Посмотрим, какие данные на портале, насколько они актуальны и в каком виде размещаются.
Ниже на круговой диаграмме представлено распределение наборов данных по категориям.
Больше половины наборов данных (59,65%) относятся к категории «Государство». Около десяти процентов (9,56%) относятся к категории «Экономика». Близко к десяти процентам (7,61%) количество наборов данных в категории «Образование». Остальные — менее пяти процентов. Распределение вполне закономерно.
Будем расширять знакомство с размещенными на портале данными. Посмотрим статистику размещения на портале данных по дате первой публикации набора данных.
2017 год только начался, и вполне естественно, что количество данных, размещенных в 2017 году, будет увеличиваться. Да, пока я пишу текст, на портал выгружают новые наборы данных.
Видимо, кто-то успел назад в прошлое, успев разместить данные в далеком 1970 году.
В общем, картина понятна: сначала резкий рост, затем – стабильность. Хотя о стабильности говорить, наверное, еще рано.
Интересную картину можно увидеть, если рассмотреть распределение наборов данных по дате актуальности (дата, после которой должна быть обновлена текущая версия набора данных).
Сразу бросается 1 год. Таким образом, я обозначил наборы данных, которые не имеют даты актуальности. Исходя из определения даты актуальности, можно сделать вывод, что это наборы данных, которые вообще обновлять не надо. Естественно, что такие наборы данных имеют право на существование. Всегда есть архивные (исторические) данные, которые вряд ли поменяются (ну, если в них нет ошибок), и есть текущие – актуальные данные, которые постоянно меняются. И те, и другие могут представлять интерес. Ведь бывает такое, что надо узнать: а как оно там было в прошлом (при царе или при советской власти)? Но, конечно, более интересны актуальные (живые) данные, которые постоянно обновляются.
Даже если не очень внимательно рассматривать диаграмму, видно, что некоторые данные должны обновиться в достаточно далеком будущем. Можно сказать, что у тех, кто их разместил, потрясающая уверенность в завтрашнем дне. Ближайшие пять, десять, двадцать(?) лет у них ничего не изменится. А может это просто ошибка? И это возможно.
Но в целом картина достаточно радостная – почти половина данных планирует обновляться в текущем году.
И сейчас мы будем эту радостную картину подтверждать. Рассмотрим распределение наборов данных по дате последнего изменения.
Да. Опять 1 год. У этих наборов данных не было изменений. Сразу хочется кого-нибудь подловить. Типа, обещали обновить, а изменений не делали. Или не обещали обновить и обновили. Но это в следующий раз будем искать закономерности (или их отсутствие).
Объединим информацию о первой публикации и последнем обновлении. То есть, если было обновление – возьмем дату обновления, если обновления не было – возьмем дату первой публикации. В результате получится дата последнего изменения данных.
Красота. Четко видна тенденция – больше половины данных в последний раз изменялись или были созданы в 2016-2017 годах. Наверное, можно считать их актуальными.
Необходимо отметить один нюанс. Некоторые наборы данных повторяются: одно и тоже название набора данных и владелец встречаются в реестре по несколько раз.
Вместо обновления набор данных выкладывался еще раз. Иногда наборы выкладывались в другой категории. Но если рассмотреть наборы данных с одинаковым названием, владельцем и категорией, то картина будет следующей.
Как минимум, очень похоже. Но вряд ли критично. Некоторым владельцам данных, видимо, надо аккуратнее выкладывать данные.
Небольшая проверка по заполнению текстовых полей в паспортах наборах данных.
Поле | Задано | Не задано |
---|---|---|
Название | 100% | 0% |
Описание | 80,84% | 19,16% |
Категории | 100% | 0% |
Владелец | 99,7% | 0,03% |
Ключевые слова | 99,48% | 0,52% |
Ответственное лицо | 96,43% | 3,57% |
Номер телефона ответственного лица | 96% | 4% |
Адрес электронной почты ответственного лица | 92,68% | 7,32% |
Формат данных | 97,79% | 2,21% |
Ссылка на набор | 96,86% | 3,14% |
Название и категория заданы везде. Почти пятая часть наборов данных не содержит описания. Практически везде известен владелец и заданы какие-то ключевые слова. Ответственное лицо тоже практически везде присутствует. Непонятно, зачем нужны наборы данных, которые невозможно скачать (порядка 3%).
В качестве итога, разделим все наборы данных на две категории: все поля заданы, не задано хотя бы одно поле.
Тридцать процентов (30,3%) имеют хотя бы одно незаданное поле. В каком формате выкладывают данные?
Больше всего в обычном текстовом формате с разделителем (csv). На втором месте xml. На третьем json. Явный лидер формат csv – можно открыть в любом текстовом редакторе, импортировать практически куда угодно для обработки, при небольшом усилии вставить как таблицу в текстовый редактор. Формат xml тоже достаточно легко посмотреть. А вот с форматом json могут возникнуть проблемы. Если ориентироваться на Excel, как на самый часто используемый табличный редактор, то json это уже проблема. Можно, погуглив на эту тему, найти способ загрузки, но не прямой. Нет в Excel встроенных средств для загрузки json.
Конечно, проблема нестрашная, несмертельная, но неприятная. Наверняка, кого-то этот формат остановит или поставит в тупик.
Из распределения по годам видно, что со временем доминирование формата csv сохраняется.
Резко возрастет использование формата json. При этом сокращается использование формата xml.
И этому можно найти объяснение. Формат csv самый простой, поэтому часто используется. В то же время веб сервисы сейчас все чаще используют формат json и все реже xml.
Выводы
Больше половины данных, размещенных на портале открытых данных России относятся к категории «Государство».
Больше половины данных в последний раз изменялись или были созданы в 2016-2017 годах.
Тридцать процентов паспортов наборов данных имеют хотя бы одно незаданное поле.
Самые распространенные форматы хранения открытых данных: csv, xml, json. При этом, наблюдается увеличение количества наборов данных в формате json и сокращение количества наборов данных в формате xml.
Что дальше?
После анализа наборов данных посмотрим, насколько часто они используются – просматриваются, скачиваются. Какие оценки ставят пользователи наборам данных? Какие наборы данных вызывают интерес? Как часто обновляются наборы данных? Какого размера наборы данных? И есть ли между всем эти взаимосвязь?
Автор: AlexOleynik