Рубрика «открытые данные» - 30

Росстат обещает открываться, но не забесплатно

Поскольку я вхожу в Совет по открытым данным при Правительственной комиссии я регулярно присутствую на большом числе мероприятий по открытости данных и открытости вообще.

Не могу похвастаться что там бывает много интересного, чаще всего это много разговоров на языке далеком от простого человека, однако такая работа по «лоббированию открытости» тоже нужна.

И вот сегодняшний день был буквально заполнен такими мероприятиями. Мне довелось побывать утром на Общественном совете при Росстате на заседание которого меня позвали сотрудники Росстата. А вечером на Совете по открытым данным.

Про Совет я ещё напишу отдельно, а вот про Росстат прямо сейчас.

Как всегда есть две новости — хорошая и плохая.

Итак, хорошая новость.

В Росстате лучше всех понимают что такое открытые данные и данные вообще они тоже очень хорошо понимают. Они сразу поняли что такое Semantic Web, SPARQL, Linked Data и другие термины пугающие остальных чиновников. Они очень хорошо понимают что надо сделать чтобы данные преобразовать в машиночитаемые и довести до связанных данных.

В плане понимания — они безусловные лидеры. Вот просто они первые кто понимает так хорошо, на удивление.

Но есть и плохая новость.
Читать полностью »

Открытые данные из существующих государственных порталов
Когда мы говорим про открытые данные которые государственные органы должны раскрывать, мы, чаще всего, сталкиваемся с тем что данных в нужной нам форме нет. Или, по крайней мере, так утверждают те кто должен вести базы данных и реестры создаваемые государством.

И действительно, есть данные которых, скорее всего, просто не существует, например данее по границам участков почтовых отделений. В мире, например в переписи открытых данных Open Knowledge Foundation это один из важных наборов данных, но полноценно отсутствующий в России.

Но есть и другая сторона этой медали. Есть уже созданные государственные порталы и проекты в которых собраны большие базы данных недоступные в машиночитаемом виде для граждан. И это именно тот случай когда чиновники не могут сказать что данных нет, вопрос лишь в качестве данных и их доступности в удобном виде.

Далее я буду писать только о тех порталах и проектах что созданы и поддерживаются на государственные деньги. И тех которые содержат немало полезной информации.

ОБД Мемориал

Ссылка: http://obd-memorial.ru
Открытые данные из существующих государственных порталов

С сайта мы можем узнать что:
На сегодняшний день в ОБД введено 13,7 млн. цифровых копий документов о безвозвратных потерях периода Великой Отечественной войны из 38 тыс. архивных дел ЦА МО РФ, ЦВМА, РГВА, ГА РФ, региональных архивов Росархива и 42,2 тыс. паспортов воинских захоронений существующих мест воинских захоронений в Российской Федерации и за ее пределами.

Дополнительно в ОБД загружено более 1000 томов Книги Памяти.

Всего в ОБД около 29 млн. записей из архивных документов (не путать с общим числом боевых потерь — 8,67 млн. чел.) и около 10 млн. записей из Книги Памяти.

Иначе говоря за государственный счет была проведена маштабнейшая работа по оцифровке данных и переводе их в базу данных онлайн, но при этом не предоставлено ни одного интерфейса для работы с данными — ни дампов базы, ни API с REST+JSON, ничего другого что позволило бы вести аналитическую работу над данными.

Зачем это нужно? То что не сделало государство — могут сделать желающие волонтеры и разработчики проведя геокодирование данных, создавая мобильные приложения и региональные проекты посвященные Великой отечественной войне.

Читать полностью »

Открытый код — Github для государства

Гитхаб уже много лет как является одним из лидирующих сервисов и сообществ разработчиков работающих с открытым кодом. Не секрет что в последние годы Гитхабом пользуется всё большее число представителей органов власти и гражданских хакеров (civil hackers).

В качестве последней инициативы — на Гитхабе появился специальный проект «Гитхаб для государства» (Github for Government) где были собраны аккаунты многочисленных государственных ведомств с разбивкой по странам.

На сегодняшний день десятки государственных разработчиков и чиновников используют Гитхаб в своей основной работе. Многие проекты разрабатываются полностью открыто с публичными багтрекерами, разработчиками отвечающими на вопросы и публичную экспертизу.
Читать полностью »

Несколько мифов об открытом доступе к науке (Open Access)

4 октября журнал Science опубликовал исследование, посвященное публикации псевдонаучной статьи в 157 рецензируемых журналах открытого доступа (Open Access, OA). Автор исследования “Who’s afraid of peer review?” (“Кто боится рецензирования?”) — биолог Джон Боханнон (John Bohannon) — рассказывает о подготовке статьи, содержащей очевидные методологические ошибки, и ее отправке в несколько сотен журналов открытого доступа. Читать полностью »

image

От команды Гитхаба всё чаще слышны высказывания о том, что совместная разработка ПО — далеко не единственный сценарий применения их сайта. Сооснователь и CEO Гитхаба Том Престон-Вернер заявил недавно: «Мы хотим, сделать Гитхаб настолько гибким и простым, чтобы им могли пользоваться юристы, чиновники, кто угодно… Сейчас мы постоянно обсуждаем со множеством людей то, как они используют Гитхаб, и как ещё его можно использовать».

Уже есть несколько примеров использования Гитхаба не для разработки софта, а для написания книг, законов, публикации наборов данных. А 15 октября на Гитхабе открылся раздел government.github.com, специально предназначенный для проектов, связанных с электронным правительством, открытыми данными, гражданскими инициативами и законотворчеством. Список государственных учреждений, общественных организаций, правительств и муниципалитетов, использующих Гитхаб, уже насчитывает десятки наименований.
Читать полностью »

Одной из причин причина слабого использования Linked Data-баз знаний в обычных, ненаучных приложениях является то, что мы не привыкли придумывать юзкейсы, видя перед собой только данные. Трудно спорить с тем, что сейчас в России производится крайне мало взаимосвязанных данных. Однако это не значит, что разработчик, создающий приложение для русскоязычной аудитории совсем уж отрезан от мира семантического веба: кое-что всё-таки у нас есть.
image
Основными источниками данных для нас являются международные базы знаний, включающие русскоязычный контент: DBpedia, Freebase и Wikidata. В первую очередь это справочные, лингвистические и энциклопедические данные. Каждый раз когда вам в голову приходит мысль распарсить кусочек википедии или викисловаря — ущипните себя как следует и вспомните о том, что всё, что хранится в категориях, инфобоксах или таблицах, уже распарсено и доступно через API с помощью SPARQL или MQL-интерфейса.

Я попробую привести несколько примеров полезных энциклопедических данных, которые вы не найдете нигде, кроме Linked Data.

Эта статья — первая из цикла Базы знаний. Следите за обновлениями.

  • Часть 1 — Введение
  • Часть 2 — Freebase: делаем запросы к Google Knowledge Graph
  • Часть 3 — Dbpedia — ядро мира Linked Data
  • Часть 4 — Wikidata — семантическая википедия

Читать полностью »

image

В контексте последних законов, событий и тенденций как никогда очевидна ценность рутрекера как базы данных различного контента, а не как конкретного ресурса. К сожалению все мои призывы к администрации рутрекера предоставить общедоступный, полный, удобный дамп их базы наткнулся на полное непонимание с их стороны. Выкладывать нечто, что они называют зашифрованной «базой» — я не считаю решением проблемы по причинам, изложенным в вышеприведенных ветках обсуждения и продублированным ниже.

К сожалению, решить проблему своими силами у меня не хватило ни времени, ни, будем откровенны, знаний. Но к счастью, мои слова возымели действие на людей, которые и тем и другим обладают. В итоге эти люди организовались и сообща сделали то, о чём так долго говорили большевики о чем я писал, а именно с помощью скриптов обошли рутрекер, сдампили все описания раздач с хешами, распарсили их и скомпоновали в удобную для употребления базу. В дополнение к этому так же была написана «морда»: программа для удобной работы с базой конечных пользователей, не знающих с какого конца держат grep. К сожалению, аккаунта на хабре никто из этой команды не имеет (если не считать read-only), в песочнице статья могла бы потеряться, поэтому меня выбрали как рупор для данной площадки. Я, честно говоря, раздумывал совсем недолго и только над тем, как правильнее все сделать. Если будут какие-то вопросы — задавайте мне в комментах, я либо отвечу сам, либо переадресую разработчикам. Технические тексты от первого лица, но я имею к ним косвенное отношение, они оставлены в таком виде для простоты восприятия.

Прежде, чем перейти к технической части и ссылкам, хотел бы добавить, что весь смысл этой затеи в том, чтобы как можно больше людей сохранили эту базу к себе. Поэтому очень Вас прошу, скачать данные по ссылкам ниже (желательно использовать торрент) и оставаться на раздаче как можно дольше. Скорее всего в будущем база будет обновляться, но этот момент еще не продуман до конца.

Читать полностью »

Возможно вы знаете в России действует Совет по открытым данным при Правительственной комиссии по координации деятельности Открытого правительства.

Что такое совет по открытым данным

Это такой орган при правительстве на заседаниях которого обсуждают всевозможные аспекты открытых данных как то:

  • министерства отчитываются об открытии данных;
  • все органы власти согласуют и озвучивают свою позицию по открытости;
  • обсуждается открытие ключевых массивов данных;
  • +масса других вопросов: открытые лицензии, ТЗ на единый портал открытых данных, стандарты и форматы и многое другое

Я никак не могу похвастаться что работа в советах — это очень интересное занятие. Больше половины участников — это представители госорганов и около государственных учреждений. Собственно я думаю что я там один из немногих из участков кто там из ИТ отрасли, умеет программировать и из некоммерческого сектора одновременно (я возглавляю НП «Информационная культура»).
Может быть именно по этой причине я там и больше всех говорю про то что такое открытые данные на самом деле.

Однако, несмотря на то что все эти заседания весьма утомительны, я не могу сказать что они бесполезны. Многие из российских госорганов открыли немало данных, пусть пока и не самых полезных.

Почти всё это происходит на федеральном уровне. И есть закономерный вопрос, а что в регионах? А в регионах вот что.

А что же в регионах?

Читать полностью »

Вы наверняка знаете что сейчас идет, заканчивается и начинается много соревнований по открытым данным и многие проводят хакатоны.

Например, Хакатон Яндекса пройдет завтра-послезавтра и еще не поздно зарегистрироваться, наши друзья в Санкт-Петербурге проводят свой Хакатон 5-6 октября.

Читать полностью »

14 — 15 сентября в Москве пройдёт первый Хакатон Яндекса, участники которого будут два дня и две ночи создавать проекты на основе открытых государственных данных с помощью технологий Яндекса.

Я уже много лет занимаюсь тем, чтобы у российских разработчиков рос интерес к работе с открытыми данными. Именно для этого создан конкурс Apps4Russia, организованный некоммерческим партнерством «Информационная культура». В этом году в нем появилась номинация для тех, кто создает приложения на отрытых данных и технологиях Яндекса. Эти события подтолкнули систематизированно рассказать здесь об истории открытых данных, их источниках, примерах использования и многих других важных вещах.

image

То, что сейчас мы можем узнать подробные результаты выборов по каждому участку, — это норма, а еще совсем недавно это было не так даже в очень развитых странах.
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js