Для всех кто работает с открытыми данными, делает свои проекты для себя, людей, для участия в конкурсах всегда бывает бывает полезен исходный код примеров того как данные собирались и что с ними делалось.
Я предлагаю составить список открытых репозиториев кода нацеленного именно на решение задач по работе с открытыми данными и примеры проектов которые на них основаны.
Вот список репозиториев зарубежных инициатив которые мне известны:
— огромное количество проектов Open Knowledge Foundation — CKAN, расширения к нему, утилиты по преобразованию данных
— репозитории исходного кода Sunlight Labs — очень много примеров того как распарсены многие американские сайты и базы данных, а также библиотеки по работе с данными разного вида
— репозитории OpenGovernment.org — много примеров проектов на Ruby
— репозитории департамента ИТ Оксфорда — их проекты по открытым данным такие как DataVerse;
— открытый код Белого Дома (США) — проекты по петициям, стандартам API и всяким штукам для Drupal
— репозиторий AlphaGov (UK) — материалы проекта www.gov.uk много кода самого проекта и подпроектов
Мы в Информационной Культуре работаем с открытыми данными постоянно и часть того кода что мы производим вполне может быть полезна и другим. Да что уж там, точно будет полезна.
Поэтому мы выложили много материалов в виде публичных репозиториев в которых каждый может найти что-то для себя и свободно использовать.
А вот и то что есть:
— исходный код OpenGovData.ru - он не очень актуален и сыроват, поскольку мы постепенно мигрируем на CKAN, но вполне пригоден для тех кто хочет быстро и без чьей-либо помощи развернуть портал открытых данных в своем городе не спрашивая никого.
— Открытые данные Мосгорздрава - данные и скрипты для их извлечения с сайта Московского департамента здравоохранения mosgorzdrav.ru. Данные собраны и обработаны по ежедневным сводкам и вполне любопытны для визуализации. Конечно же важно не забыть их обновить.
— Открытые данные ЦБ РФ - проект по преобразованию данных из API веб-сервисов Центробанка в базу данных. Довольно старое API, для работы с веб-сервисом тогда приходилось испольховать утилиту на .NET, но возможно у кого-то найдется время и желание поработать над этими данными.
— Госонтологии - набор RDF/OWL данных по различным областям деятельности государства. Незавершенные онтологии, но вполне пригодные для работы.
- Открытая госдума - скрипты и данные полученные при работе с данными депутатов. Как я и говорил ранее — ими не очень интересно заниматься, там сплошная политика.
— Монитор сайтов - небольшой Django проект по мониторингу сайтов на доступность. На нем работает сайт http://sitemon.opengovdata.ru/ мониторящий zakupki.gov.ru
— Открытые данные Москвы - парсер данных с data.mos.ru (Официального Московского портала) и загрузчик их в CKAN hub.opengovdata.ru
— Открытые данные МЧС — скрипты по извлечению открытых данных и сами данные МЧС. Собирает информацию о телефонах, сводках и адресах подразделений.
— Открытые данные МИД - скрипты и данные по послам. Недоделанное так как там много ошибок при парсинге. Поэтому приложены дампы анализа из Google Refine / Open Refine
— Открытый Кремль — данные с сайта kremlin.ru по Президенту и Администрации. В основном исторические в виде дампа блога Медведева и всех комментариев к нему. Там же есть идеи по тому как использовать их данные вот тут они собраны в виде Excel таблички https://github.com/infoculture/openkremlin/blob/master/docs/kremlin_ru_opendata.xls
Есть много и других полезных проектов по анализу данных, их сбору с сайтов, преобразованию данных и многому другому. Что-то мы будем выкладывать по мере готовности (в первую очередь код надо описывать, делать README и тд), но наверняка есть и другие полезные репозитории. Если знаете такие — присылайте. Будем составлять их список.
Автор: ibegtin