Рубрика «открытые данные» - 11

Добрый день.

В открытом доступе наконец-то появился огромный справочник штрихкодов с наименованиями товаров, категориями и брендами.

Мы работаем над ним лет 8 и теперь в нем около 3 миллионов штрихкодов в стандартах EAN (EAN-13, EAN-8) и UPC (UPC-A, UPC-E).

Читать полностью »

Дисклеймер: да, я пытался связаться с разработчиками. Нет, ответа не было. «Дыре» скорее всего столько же лет, сколько и их мобильному приложению, и возможно ей уже давно кто-то пользуется. И я до конца не понимаю, это везде декларируется как фича, просто никто не думал, что можно батчем начислить 2.4 миллионам обслуживаемых абонентов рандомные расходы по счетчикам. Ну и получить их ФИОадрес, как минимум. Может и правда, ничего такого в этом нет. А может, просто пока Рублевка и другие интересные места не обслуживаются ими, но скоро будут. И тогда врядли жители этих мест порадуются, что можно будет хоть на карте с аватарками их показать.

Предыстория: коллега живет в Московской области, скачал себе приложение, указал свой ЛС счет (который печатается на квиточке), а потом то ли ошибся, то ли тупо попробовал указать счет на +1 больше. Автоинкремент типа. И получил вместо своей 57-ой квартиры — следующую, 58ую.
Читать полностью »

Несколько месяцев назад вышла первая версия Kepler.gl — нового Open Source инструмента для визуализации и анализа больших наборов гео-данных.

В этой статье я предлагаю вам познакомится с основными возможностями приложения и создать с его помощью две картографические визуализации, которые позволят нам узнать несколько интересных фатов о платных парковках Москвы.

Как создать карту московских парковок с помощью Kepler.gl - 1

Но сперва несколько слов о том, кто и зачем создал Kepler.gl

Читать полностью »

Сегодня была анонсирована бета версия онлайн-игры WikiBest, которая является частью научных исследований в области качества данных в Википедии. Примечательно, что в настоящее время игра позволяет сравнивать качество данных в 5 языковых версиях Википедии: русский, украинский, белорусский, польский, английский. В скором будущем планируется расширить количество языков.

image
Читать полностью »

fig0

В свежем номере журнала The Lancet опубликована моя статья — любопытная карта и небольшое к ней пояснение. Решил рассказать об этом на Хабре, поскольку есть надежда, что реализованный способ визуализации данных может пригодиться еще кому-то.

Kashnitsky, I., & Schöley, J. (2018). Regional population structures at a glance. The Lancet, 392(10143), 209–210. https://doi.org/10.1016/S0140-6736(18)31194-2

Собственно, вот карта в высоком разрешении (кликабельно).

fig1

Карту можно воспроизвести точь-в-точь за несколько минут, код на гитхабе.

Данные создают цвета

Читать полностью »

Мы рады рассказать вам о том, что наши коллеги из подразделения Microsoft Research опубликовали данные, полученные в результате многолетних трудов по курированию и изучению информации из научных работ. В частности, стали доступны данные по инженерии, компьютерным наукам, информатике, математике, физике, биологии, социальным и естественным наукам. Подробнее под катом!

Базы данных Microsoft Research теперь доступны для всех - 1Читать полностью »

Боремся с ошибками и «костылями» в ЕГРЮЛ — госреестре юридических лиц - 1

На прошлой неделе мы выпустили статью про устройство ЕГРЮЛ — госреестра с данными 10 миллионов компаний. Тот материал рассказывает о базовых вещах, поэтому начать лучше с него.

Здесь же мы раскроем богатую и благодатную тему — проблемы ЕГРЮЛа, которые не дают нашим разработчикам заскучать.
Читать полностью »

Как устроен ЕГРЮЛ — единый госреестр юридических лиц - 1

ЕГРЮЛ — это государственный реестр юридических лиц, в котором хранятся данные 10 миллионов российских компаний. Управляет справочником ФНС.

Из ЕГРЮЛ мы берем данные организаций для «Подсказок», «Единого клиента» и «Фактора». В статье расскажем, как мы жили до справочника, как получаем к нему доступ и как с ним работаем.
Читать полностью »

Хотите знать, как религия влияет на рабочий день, у кого самый длинный обеденный перерыв, и правда ли что Москва никогда не спит? Но это же Хабр, а не жёлтая газета, так что историю вам поведает самый объективный рассказчик из всех — данные пользовательской активности.

Понедельник начинается в субботу, или что можно узнать о жизни в другой стране из логов sci-hub - 1

Вам когда-нибудь доводилось найти пиратский настоящий клад? Такой что с первого взгляда становится понятно, что вы теперь богач. Если находили, то наверняка первый месяц провели, обложившись книжками, увеличительными стеклами и всем, что может помочь вам узнать про находку всё. А следующие несколько месяцев вы хвастались находкой всем друзьям.

Что-то в этом роде произошло со мной, когда я наткнулся на логи sci-hub. Вроде в интернете полно открытых данных, но чтобы заполучить журнал учёта на 195 миллионов записей — это не каждый день так везёт. Несколько недель я изучал доставшееся мне богатство, а теперь пришёл на хабр, чтобы рассказать вам, что я нарыл.
Читать полностью »

Графики с необычными пиками мы теперь видим после каждых федеральных выборов. Впервые в массы они вышли после выборов в 2011 году, когда люди и увидели фальсификации, и ознакомились в целом с анализом данных по выборам и с проблемой целочисленного деления в частности.

У распределений даже стали появляться свои имена. Это и «борода Чурова» для выборов 2011, и «пик Володина» для знаменитых 62.2% в Саратове. Поскольку до сих пор даже на хабре появляются статьи, не знакомые с решением проблемы целочисленного деления и не согласные "добавлять мусор" небольшой случайной добавки в данные, давайте посмотрим на результаты совсем иначе. Мы зайдём к построению графиков с противоположной стороны, где проблемы целочисленного деления вообще нет. И тоже увидим пики на целых значениях.

Нахождение числа комиссий, «рисовавших» целые значения явки на президентских выборах РФ 2018 года - 1

Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js