Собираем «Плохие данные» (bad data)

2013-11-27 в 13:49, admin, рубрики: Блог компании НП «Информационная культура», открытые данные, метки: открытые данные

Не секрет что больше данных — это не означает что данные станут лучше. Чаще это происходит иначе и примеров когда данные публикуются в ужасающем виде немало.

Например, данные Рособоронзаказа о которых я писал ранее (http://habrahabr.ru/company/infoculture/blog/201260/) и где можно увидеть.
Точно также данные публикует и МВД России — это вот такой массив — mvd.ru/opendata/od1

А есть много других данных когда CSV файлы создаются на базе непригодных для анализа Excel файлов, или когда данные публикуют без описания схем, или когда публикуют невалидные XML файлы и многое другое.

Чтобы собрать все такие случаи коллеги из Open Knowledge Foundation начали собирать все примеры.

Собираем «Плохие данные» (bad data)

Вот тут сайт проекта — okfnlabs.org/bad-data/, а вот тут раздел в github'е — github.com/okfn/bad-data/issues?page=1&state=open где собраны примеры из которых 5 прорабатывается и 2 уже зарегистрировано.

Конечно, пока описанное кажется не очень сложным, неправильное форматирование или таблицы перемешанные с картинками в PDF. Но будет больше.

Давайте поможем коллегам и если Вы встретите где-либо опубликованные данные с которыми невозможно работать — предлагаю размещать их в комментариях к этому посту, а тем кто готов включиться — еще и у коллег из OKF.

Автор: ibegtin

Источник