Рубрика «open data»
Информационная среда на принципах Open Data
2020-09-12 в 14:07, admin, рубрики: open data, децентрализация, децентрализованные сети, открытые данные, социальные сети
Предлагаемая информационная среда является своего рода децентрализованной социальной сетью. Но в отличии от многих существующих решений — данная среда имеет ряд полезных свойств помимо децентрализации и создана на базе достаточно простых и стандартных технических решений (email, json, текстовые файлы и немного блокчейна). Что позволяет любому желающему с базовыми знаниями программирования создавать свои сервисы для данной среды.
Читать полностью »
Угадай меня, если сможешь: прогнозирование рейтинга фильма до его выхода
2019-09-10 в 20:13, admin, рубрики: data mining, data science, machine learning, open data, python, sklearn, машинное обучение, открытые данныеНедавно мне на глаза попался датасет на Kaggle с данными о 45 тысячах фильмов с Full MovieLens Dataset. Данные содержали не только информацию об актерах, съемочной команде, сюжете и т.п., но и оценки, выставленные фильмам пользователями ресурса (26 миллионов оценок от 270 тыс.пользователей).
Стандартная задача для таких данных — это рекомендательная система. Но мне в голову почему-то пришло прогнозирование рейтинга фильма на основе информации, доступной до его выхода. Я не знаток кинематографа, и поэтому обычно ориентируюсь на рецензии, выбирая что посмотреть из новинок. Но ведь рецензенты тоже несколько biased — они-то смотрят гораздо больше разных фильмов, чем рядовой зритель. Поэтому спрогнозировать, как оценит фильм обычная публика, показалось занятным. Читать полностью »
Математическое расследование, как подделывали выборы губернатора в Приморье 16 сентября 2018 года
2019-07-23 в 14:18, admin, рубрики: big data, colab, open data, python, z3, выборы-2018, невыборы, открытые данные, приморский крайВо втором туре выборов губернатора Приморского края 16 сентября 2018 года встречались действующий и.о. губернатора Андрей Тарасенко и занявший второе место в первом туре коммунист Андрей Ищенко. В ходе подсчета голосов на сайте ЦИК РФ отображалась информационная панель с растущим числом обработанных протоколов и голосов за кандидатов.
Публикация подробных данных по участкам на официальном сайте ЦИК www.izbirkom.ru замерла после ввода 1484 (95.74%) протоколов и не возобновлялась до самого конца. Поэтому когда в трансляции лидер голосования вдруг поменялся с Ищенко на Тарасенко, было неясно, как именно это могло произойти. В СМИ просто писали «после обработки 99,03% протоколов лидер сменился».
Однако, располагая промежуточными суммарными данными из информационной панели, с помощью простой математики и программирования можно подробно установить, что именно происходило с протоколами в ночь после выборов. Используем Python, Colab от Google и Z3 theorem prover от Microsoft Research. Ну и добьём всё обычной дедукцией.
Говорит и показывает: отличается ли риторика популярных украинских политиков?
2019-03-11 в 12:29, admin, рубрики: machine learning, natural language processing, open data, python, sklearn, машинное обучение, открытые данныеМожно ли по цитате определить, кто из политиков ее автор? Украинская НКО Vox Ukraine делает проект VoxCheck, в рамках которого проверяет высказывания наиболее рейтинговых политиков. Недавно они выложили всю базу проверенных цитат. Я как раз слушаю курсы по NLP и решила проверить, насколько точно по тексту цитаты можно определить ее автора.
Disclaimer. Эта статья написана из интереса к теме и желания опробовать изученный материал на практике, без претензий на максимально точный и детальный анализ.
Читать полностью »
Тим Бернерс-Ли выходит на тропу войны: «Один маленький шаг для web…»
2018-10-05 в 20:18, admin, рубрики: Decentralisation, decentralization, Inrupt, open data, open source, Tim Berners-Lee, Блог компании Philtech Initiative, глобальные проекты, децентрализованные сети, открытые данные, технологические решения, филантропия, филтех
Я всегда считал, что web для всех. Вот почему я и все остальные яростно сражаются, чтобы защитить его. Изменения, которых нам удалось добиться, создали лучший и более связанный мир. Но помимо всего хорошего, что мы достигли, сеть превратилась в двигатель несправедливости и разделения; на который оказывают влияние мощные силы, использующие его для своих собственных целей.
Сегодня я считаю, что мы достигли критического переломного момента, и это кардинальное изменение к лучшему возможно и необходимо.
Вот почему я в последние годы работал с несколькими людьми в Массачусетском технологическом институте и в других местах, чтобы разработать Solid, проект с открытым исходным кодом для восстановления власти и способности к действию отдельных лиц в web.
Solid изменяет текущую модель, где пользователи должны передавать персональные данные цифровым гигантам в обмен на субъективную стоимость. Как мы все выяснили, это не в наших интересах. Solid — это то, как мы развиваем web, чтобы восстановить равновесие — путем предоставления каждому из нас полного контроля над данными, личными или нет, революционным способом.Читать полностью »
Как создать карту московских парковок с помощью Kepler.gl
2018-07-31 в 11:22, admin, рубрики: kepler.gl, MapBox, open data, open source, визуализация данных, Геоинформационные сервисы, карты, Московские парковки, открытые данныеНесколько месяцев назад вышла первая версия Kepler.gl — нового Open Source инструмента для визуализации и анализа больших наборов гео-данных.
В этой статье я предлагаю вам познакомится с основными возможностями приложения и создать с его помощью две картографические визуализации, которые позволят нам узнать несколько интересных фатов о платных парковках Москвы.
Но сперва несколько слов о том, кто и зачем создал Kepler.gl
Понедельник начинается в субботу, или что можно узнать о жизни в другой стране из логов sci-hub
2018-06-13 в 6:32, admin, рубрики: data mining, data visualization, it-эмиграция, lifestyle, logs, open data, sci-hub, веб-аналитика, визуализация данных, открытые данныеХотите знать, как религия влияет на рабочий день, у кого самый длинный обеденный перерыв, и правда ли что Москва никогда не спит? Но это же Хабр, а не жёлтая газета, так что историю вам поведает самый объективный рассказчик из всех — данные пользовательской активности.
Вам когда-нибудь доводилось найти пиратский настоящий клад? Такой что с первого взгляда становится понятно, что вы теперь богач. Если находили, то наверняка первый месяц провели, обложившись книжками, увеличительными стеклами и всем, что может помочь вам узнать про находку всё. А следующие несколько месяцев вы хвастались находкой всем друзьям.
Что-то в этом роде произошло со мной, когда я наткнулся на логи sci-hub. Вроде в интернете полно открытых данных, но чтобы заполучить журнал учёта на 195 миллионов записей — это не каждый день так везёт. Несколько недель я изучал доставшееся мне богатство, а теперь пришёл на хабр, чтобы рассказать вам, что я нарыл.
Читать полностью »
Как мы участвовали в хакатоне от OpenData
2018-04-23 в 16:41, admin, рубрики: data science, Linked data, open data, академический университет, анализ данных, Блог компании СПБАУ, кейс, машинное обучение, открытые данные, ХакатоныВсем привет, в этой статье я хочу рассказать про Why So Serious Hack. Про то, что вообще нас туда привело, чем хакатоны в классическом понимании отличаются от хакатонов с контестом и что нам помогло выиграть.
Перспективы развития публичных данных
2017-02-26 в 14:15, admin, рубрики: open data, Исследования и прогнозы в IT, открыте данные, публичные данные, управление даннымиКогда защищенные цифровые данные начинают открываться и становятся доступны широкому кругу экспертов информационное пространство обогащается и разогревается. При этом оно усилиями многих аналитиков, исследователей и экспертов структурируется по тематикам и группам, упорядочивается и выстраивается по линиям приоритетных трендов, оптимизируется и вырабатывает новые подходы, технологии и модели решения проблем.
Несомненно, что при этом количество альтернативных вариантов растет, а выбор наиболее эффективного из них усложняется.
Остановимся на некоторых интересных вопросах перспективного развития публичных данных.
Читать полностью »