Рубрика «данные» - 14

Вступление

Несколько дней назад в блоге The Daily Viz была опубликована запись, которая привлекла внимание широкой общественности как пример простой и эффективной визуализации данных.

Визуализация представляла собой карту популярности дней рождения, реализованную как теплокарта (heatmap) в виде календаря. По вертикали располагались числа, по горизонтали — месяцы, и, глядя в эту незамысловатую таблицу, мы могли по насыщенности оттенка судить о том, насколько популярен тот или иной день в году с точки зрения деторождения.

Через какое-то время автор визуализации опубликовал в том же блоге второй пост, извинившись за то, что ввел сообщество в заблуждение, не прокомментировав должным образом исходные данные, использованные в работе над изображением. Проблема была в том, что исходный сет данных не содержал информации о реальном числе родившихся в тот или иной день людей. Информация была дана в другом виде — на каком месте (rank) находится тот или иной день в «рейтинге» популярности дней рождения.

То есть, разница между первой и второй позицией в рейтинге могла быть колоссальной (скажем, в два раза), но отличались бы они все равно только на один тон. Иными словами, визуализация не отражала реальных данных из-за того, что сет содержал лишь производные данные.

Немного подумав над этой проблемой, я решил описать собственный пример создания такой визуализации от начала до конца — т. е. от сбора данных до, собственно, отрисовки изображения. Этот пример хорош тем, что он, с одной стороны, относительно прост, а с другой — является целостным завершенным проектом с определенным интересным результатом.Читать полностью »

Все чаще появляются топики, которые посвящены проблемам хранения, поиска и структурирования данных. И источники самих топиков растут из за неприятного факта, что порой тебе нет возможности что-то найти, пусть даже самое простое. И в итоге поисков люди находят развлекательные порталы и вещи, на которых и оседают. Например, последний топик Идеальный персональный менеджер информации — какой он?, в нем автор упоминает ситуацию про поиск какой-то определенной формулы. И что каким-то странным образом поиск формулы превращается в просмотр роликов.

Ситуация реальная. Ты чего-то ищешь, а далее твой глаз цепляется за что-то постороннее и привлекательное. А далее…

И каждый раз предлагается унифицировать и стандартизировать способ хранения данных.

Читать полностью »

Давно хотел перевести, но сейчас как раз подходящее время в связи со сменой лицензии у OpenStreetMap.

Главная потенциальная ценность данных для всего общества в целом — это то, что большее количество данных потенциально способствует расширяющемуся научному сотрудничеству и воспроизводимости, более эффективным рынкам, увеличивающейся правительственной и корпоративной прозрачности и, в целом, ускорению нахождения и понимания решений глобальных и социальных потребностей.

Большая часть потенциальной ценности данных, в частности их ценность для всего общества, реализовывается за счёт использования без организационных преград. Как это происходит (юридически)? Многие сайты дают узкое разрешение на использование данных с помощью условий предоставления услуг. Активно обмен специальными данными происходит среди исследователей. И всё чаще открытые данные освобождаются посредством распространения на публичных условиях (например, лицензий CC или передачи в общественное достояние CC0) для преодоления ограничений авторского права, которые в противном случае способны ограничить распространение или повторное использование данных.

Многие организации, учреждения и правительства используют инструменты CC для данных.

Лицензии CC используются для баз данных следующими организациями (подробнее):
Australia Federal Government, Australia Queensland State Government, ChEMBL, DBpedia, Finnish Libraries, Freebase, Geocommons, Google, Greece Government, Italian Government, MusicBrainz, Mydosis Portal, New Zealand Government, Open Directory Project (dmoz), OpenStreetMap, Powerhouse Museum, Spain (Basque) Government — Open Data Euskadi, Stack Overflow, Uniprot, United Kingdom Government.

Инструмент CC0 используется для баз данных следующими организациями (подробнее):
The British Library, CERN Library, Cologne-based Libraries, Digg, Dryad, Europeana, FigShare, Flickr, Genomes Unzipped, German National Library, German Wikipedia, GlaxoSmithKline (GSK), National Library of Spain, Italian Piemonte Regional Government, MichiganView, Netherlands Government, Open Library, OpenEI, OpenJurist.org, Personal Genome Project, Polar Information Commons, Proteome Commons Tranche Network, Public.resource.org, Safecast, Sage Bionetworks — Sage Commons, Spanish National Library, Smithsonian Cooper-Hewitt Museum, SimpleGeo, Swedish National Library, Talis Connected Commons, University of Florida Library, University of Michigan Library, WisconsinView, Université de Montréal Biodiversity Centre, Mercy Corps, Open Clip Art Library.

Часто задаваемые вопросы о данных

Могут ли базы данных быть выпущенные по лицензиям CC?

Да, лицензии CC могут быть использованы для любых защищенных авторским правом произведений, включая защищённые авторским правом на базу данных. Лицензия CC может быть применена к любому или всем копирайт-аспектам базы данных и её содержимого.Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js