Максим Дубинин — основатель проекта GIS-Lab и директор компании NextGIS, которая разрабатывает одноименный продукт. Наверное, его имя известно в России почти любому, кто связан с темой ГИС. Кто использует данные OSM, какого они качества и почему их не ценят — обо всем этом он рассказал в интервью.Читать полностью »
Рубрика «открытые данные» - 5
Максим Дубинин: «В OpenStreetMap нужно заниматься тем, что тебе важно, а не пытаться «спасти» проект в целом»
2020-03-30 в 23:21, admin, рубрики: OpenStreetMap, qgis, Геоинформационные сервисы, интервью, картография, карты, открытые данные, Социальные сети и сообщества, экологияКоронавирус: информационные онлайн сервисы
2020-03-25 в 13:01, admin, рубрики: Биотехнологии, визуализация данных, Здоровье гика, коронавирус, Научно-популярное, открытые данныеКоронавирус COVID-19 – это новый вызов для всего человечества. Мир никогда не был так сильно взволнован своим здоровьем и мировой экономикой как сейчас. Тревога и паника – вот те эмоции, которые испытывают люди. Это абсолютно нормально переживать, паниковать и тревожиться. Все мы боимся заразиться от безжалостного и беспощадного вируса, который может мучительно убить. Шанс выжить при коронавирусе есть, как и шанс быть полностью уничтоженным им. Если сильно поддаться под эти негативные эмоции, можно начать мониторить всё подряд и прислушиваться к странным советам новоиспеченных блогеров. Например, есть много чеснока или запасаться неимоверным количеством гречки и туалетной бумаги.
Ведь, паника и тревога нам нужны, чтобы мы быстро принимали решение. К примеру, оставаться дома во время карантина и выходить на улицу только в случае острой необходимости, не забыв надеть маску. Но иногда бывает так, что паника и тревога играют с нами в злую шутку, если им начать поддаваться. И вот тогда начинается массовая истерия, много распространенных фейковых новостей в соцсетях или покупка 10 рулонов туалетной бумаги вместо запаса еды на месяц-два. Поэтому, старайтесь не паниковать, соблюдать спокойствие, чаще мыть руки и следить за достоверными источниками информации.
Читать полностью »
Нужно ли курить для защиты от SARS-CoV-2
2020-03-20 в 9:52, admin, рубрики: COVID-19, SARS-CoV-2, Здоровье гика, коронавирус, открытые данные, химия
Неимоверно крутые арты китайских художников, посвященные борьбе с эпидемией. Брал тут.
Новый вирус быстро расширяет свой ареал, разгоняя население целых стран на удаленку и заставляя бояться друг друга. У меня есть ощущение, что скоро будет не слишком весело. Я придерживаюсь прогноза, что большинство так или иначе переболеет SARS-CoV-2. Тем не менее, это не значит, что вам надо кидаться в окно трамвая при первом кашлянувшем соседе.
Нашел несколько интересных фактов по курению. Есть подозрение, что будет бонус у вейперов и потребителей никотиновой жвачки. Но это не точно.
Попробуем сухо пробежаться по основным фактам и выбрать наиболее правильную стратегию с точки зрения теории игр. Например, что выгоднее, заболеть сейчас или прятаться до последнего? А еще крайне рекомендую посмотреть пост от Milfgard, чтобы знать в каком транспорте безопаснее перемещаться и что делать, если рядом кто-то кашляет в вагоне.
Пока писал этот материал, вышло множество других на эту тему. Сразу прошу прощения, если буду где-то повторяться.
Читать полностью »
Коронавирус: как мы себя обманываем
2020-03-18 в 15:40, admin, рубрики: coronavirus, COVID-19, covid19, Биотехнологии, визуализация данных, Здоровье гика, коронавирус, Научно-популярное, открытые данные, пандемия, эпидемияЯ прекрасно понимаю, что степень истерии на фоне коронавируса привела общество к конфликту между последователями и отрицателями всеобщей паникики. Достаточно острая групповая поляризации не вызывала особого желания излагать свою точку зрения на широкую публику. Но когда меня всюду начали преследовать конспирологические теории и бездумные толкования данных, то я понял, что утешающих аргументов очень мало и решил восполнить их дифицит.
Искажение смертности
Уверен для многих станет откровением факт того, что количество смертей при наличии коронавируса, зафиксированных в ВОЗ, не является числом смертей от коронавируса.
А как вы думали? Новая для человечества инфекция ещё до конца не изучена, но в больнице из пригорода какого-нибудь Ливорно уже умеют определять смерть от неё? Назвать причину смерти - это же не баг при компиляции отловить. Всё гораздо сложнее.
Есть заключительный клинический диагноз. Основное заболевание может включать несколько нозологических форм. Существует понятие конкурирующих заболеваний, которыми одновременно страдал умерший и каждое из которых в отдельности могло привести к смерти.
Есть ещё заключение о причине смерти по результатам патологоанатомического вскрытия, а также случаи его расхождения с заключительным клиническим диагнозом, которые разрешаются экспертной комиссией.
Именно поэтому ВОЗ чёрным по белому пишет:
Определение истинной смертности от COVID-19 требует дополнительного времени. Сегодняшние данные свидетельствуют о том, что общий коэффициент смертности составляет 3–4%, при этом уровень смертности от инфекции будет ниже.
Город и данные: анализ пешеходной доступности объектов в Праге с помощью data science
2020-03-16 в 8:25, admin, рубрики: data engineering, визуализация данных, графы, открытые данные, Программирование, статический анализ, урбанистика
Несколько лет назад компания Veeam открыла R&D центр в Праге. Изначально у нас был небольшой офис примерно на 40 человек, но компания активно растет, и сейчас, в новом просторном офисе Rustonka нас уже больше двухсот. Veeam нанимает сотрудников не только из Чехии и Евросоюза, но и активно релоцирует успешных кандидатов из России. Многие переезжают вместе с женой и детьми, и вот тут у них возникает вопрос, с которым я и моя семья столкнулись четыре года назад, когда мы впервые оказались в Праге: нам надо было решить, где выбрать жилье, в какой садик будет ходить дочка, и решить множество других проблем, которые возникали по причине полного незнания города. Конечно, можно проверить всё это своими ногами, но мне захотелось подойти к вопросу с инженерной точки зрения и решить эту задачу с помощью дата-сайнс подхода — с помощью анализа данных в открытом доступе определить наиболее благоприятные для проживания районы Праги.
Определение степени благоприятности района — довольно обширная задача, и оценка может быть весьма субъективна, поэтому для начала, я немного конкретизирую и опишу проблему следующим образом:
Какой район Праги наиболее привлекателен с точки зрения пешеходной доступности инфраструктуры для детей в возрасте от 10 до 16 лет?
Под пешеходной доступностью в своей работе я беру расстояние в 1300 метров. Именно такой порог, согласно различным исследованиям, считается оптимальным для этой возрастной группы.
В качестве объектов инфраструктуры я выбрал такие, которые, по моему мнению, посещает большинство детей. Это школы, библиотеки, образовательные центры, спортивные центры и игровые площадки.
Пытаемся разобраться с разительными различиями в уровне смертности от коронавируса в Италии и Южной Корее
2020-03-12 в 15:42, admin, рубрики: coronavirus, COVID-19, covid19, Биотехнологии, Здоровье гика, коронавирус, Научно-популярное, открытые данные, пандемия, эпидемияПервый подтверждённый случай коронавируса в Италии и Южной Корее примерно 20 января. Население — 60М в Италии, 51М — в Южной Корее.
На конец 11 марта 2020г. в Италии 12462 подтверждённых случае и 827 смертей, ~6.6%. В Южной Корее — 7755, 61, ~0.77%. (числа отсюда [1]).
В Италии ситуация хуже почти на порядок (в 8.5 раз). Но почему? Попробуем хотя бы частично разобраться.
Дисклеймер. Я — не медик и не биолог.
В рамках этого текста буду играть за математика с опытом биоинформатики.
Поэтому рассуждения могут оказаться не имеющими отношения к действительности. С другой стороны все факты будут подтверждены пруфлинками.
Если у вас есть факты с пруфлинками — жгите!
Читать полностью »
Коронавирус: почему надо действовать прямо сейчас
2020-03-12 в 2:02, admin, рубрики: coronavirus, COVID-19, covid19, Биотехнологии, визуализация данных, Здоровье гика, коронавирус, Научно-популярное, открытые данные, пандемия, эпидемияВступление
Учитывая всё, что происходит с коронавирусом, может оказаться очень сложно принять решение, что делать прямо сейчас. Стоит ли подождать, пока станет больше информации? Надо ли предпринять что-то уже сегодня? Если да, то что?
В этой статье со множеством графиков, данных и моделей из большого числа источников мы постараемся ответить на вопросы:
- Сколько людей заболеют коронавирусом в вашем регионе?
- Что случится, когда они начнут заболевать?
- Что вы должны делать?
- Когда?
Когда вы закончите читать статью, вы придёте к следующим выводам:
- Коронавирус приближается к вам.
- Он приближается с экспоненциальной скоростью: сперва постепенно, а потом внезапно.
- Это вопрос нескольких дней. Может быть, неделя или две.
- Когда это случится, ваша система здравоохранения будет перегружена.
- Ваши сограждане будут лечиться в коридорах.
- Изможденные медицинские работники сломаются. Некоторые погибнут.
- Им придётся решать, кто из пациентов получит лечение, а кто умрет.
- Единственный способ предотвратить это — социальная изоляция уже сегодня. Не завтра. Сегодня.
- Это значит держать как можно больше людей дома, начиная с сегодняшнего дня.
Если вы политик, общественный деятель или руководитель, у вас есть власть и ответственность, чтобы предотвратить описанное выше.
Сейчас вы можете опасаться: что, если это избыточная реакция? Не станут ли люди смеяться надо мной? Вдруг они разозлятся на меня? Не буду ли я выглядеть глупо? Не лучше ли подождать, пока другие сделают первые шаги? Что, если это слишком навредит бизнесу?
Однако через 2-4 недели, когда весь мир будет закрыт и изолирован, когда окажется, что несколько драгоценных дней социальной изоляции, которые вы организовали, спасли жизни, вас больше не будут критиковать. Люди будут благодарить вас за то, что вы приняли правильное решение.
Итак, давайте разбираться.
Очистка данных, как игра «Камень, Ножницы, Бумага». Это игра с финишем или без? Часть 2. Практическая
2020-02-21 в 15:43, admin, рубрики: big data, data accuracy, data analysis, data anomaly, data cleansing, data completeness, data consistency, data engineering, data mining, data preparation, data quality, data structures, dirty data, Алгоритмы, грязные данные, обработка данных, открытые данные, очистка данныхВ части первой описывалось, что данная публикация сделана на основе датасета результатов кадастровой оценки объектов недвижимости в Ханты-Мансийском АО.
Практическая часть представлена в виде шагов. Проводилась вся очистка в Excel, так как самый распространенный инструмент и описанные операции может повторить большинство специалистов знающих Excel. И достаточно неплохо подходит для работы в «рукопашную».
Нулевым этапом поставлю работы по запуску, сохранению файла, так как он размером 100 мб, то при количестве этих операций десятки и сотни на них уходит существенное время.
Открытие, в среднем, — 30 сек.
Сохранение – 22 сек.
Первый этап начинается с определения статистических показателей датасета.
Таблица 1. Статпоказатели датасета
Читать полностью »
Как определить оператора и регион по номеру телефона
2020-02-20 в 11:10, admin, рубрики: Блог компании HFLabs, номер телефона, определить оператора по номеру, определить регион по номеру, открытые данные, Разработка под e-commerce, сотовая связь, сотовый оператор, телефонная связь
Полезно знать, какого телефонного оператора выбрал клиент и в каком регионе. Тогда можно разбить клиентскую базу географически и не звонить ночами. Или проводить промоакции вместе с операторами. А некоторые наши заказчики экономят: для каждого оператора выбирают самого дешевого СМС-агрегатора.
Поэтому «Дадата» с давних пор находит оператора по номеру телефона. Алгоритм простой — сделай и пользуйся. Разве что в 2013 году, когда отменили «мобильное рабство», пришлось чуть скорректировать процесс. В этой статье расскажу, как у нас все работает.
В процессе есть большая сложность — получить доступ к базе перенесенных номеров. Частным лицам его не выдают, да и компаниям придется тяжело. Об этом — в отдельном разделе.
Читать полностью »