Не секрет что больше данных — это не означает что данные станут лучше. Чаще это происходит иначе и примеров когда данные публикуются в ужасающем виде немало.
Например, данные Рособоронзаказа о которых я писал ранее (http://habrahabr.ru/company/infoculture/blog/201260/) и где можно увидеть.
Точно также данные публикует и МВД России — это вот такой массив — mvd.ru/opendata/od1
А есть много других данных когда CSV файлы создаются на базе непригодных для анализа Excel файлов, или когда данные публикуют без описания схем, или когда публикуют невалидные XML файлы и многое другое.
Чтобы собрать все такие случаи коллеги из Open Knowledge Foundation начали собирать все примеры.
Вот тут сайт проекта — okfnlabs.org/bad-data/, а вот тут раздел в github'е — github.com/okfn/bad-data/issues?page=1&state=open где собраны примеры из которых 5 прорабатывается и 2 уже зарегистрировано.
Конечно, пока описанное кажется не очень сложным, неправильное форматирование или таблицы перемешанные с картинками в PDF. Но будет больше.
Давайте поможем коллегам и если Вы встретите где-либо опубликованные данные с которыми невозможно работать — предлагаю размещать их в комментариях к этому посту, а тем кто готов включиться — еще и у коллег из OKF.
Автор: ibegtin