На примере парадокса Монти Холла посмотрим, что общего между статистикой и интуицией, и как визуализация данных может помочь принять правильное решение, основанное на статистической оценке.
Рубрика «визуализация данных» - 43
Снова про Монти Холла или статистика как коллективная интуиция
2017-03-19 в 8:27, admin, рубрики: адаптивный интерфейс, визуализация данных, монти холл, статистическое оцениваниеCommon Bird Census, или биоинформатика в орнитологии. Проект в хорошие руки
2017-03-16 в 10:56, admin, рубрики: data mining, Matlab, визуализация данных, географические системы, Геоинформационные сервисы, математика, машинное зрение, наука, обработка изображенийВсем доброго времени, друзья.
Введение
Когда мы думаем о биоинформатике, мы обычно представляем себе какие-нибудь сложные последовательности ДНК, фолдинг белка или, на худой конец, моделирование диффузии вируса.
В данной же статье речь пойдёт несколько о другой теме, куда более близкой, можно сказать, машинному зрению и анализу документов, или даже прикладной автоматизации, чем высокой науке. Но на самом деле, тема важна и актуальна, хотя бы уже потому, что существует в очень интересной экологической нише.
КДПВ:
Кого заинтересовал — прошу под кат.
Читать полностью »
PG Metricus — сбор метрик из plpgsql кода или как три строчки кода упростили жизнь
2017-03-15 в 11:21, admin, рубрики: pg metrics, plpgsql, postgresql, Блог компании Avito, визуализация данных, сбор метрик, метки: pg metrics, plpgsql, сбор метрикНачнем с того, что все ваши объявления живут в базе PostgreSQL. До сих пор львиная часть бизнес-логики скрыта в хранимых процедурах, и не всегда их работу удобно контролировать.
Для нас хранимые процедуры удобны, в первую очередь тем, что не надо передавать гигабайты данных между базой и приложением. Удобно сделать несколько действий с разными таблицами в базе, а в приложение только отчитаться о том, что всё было выполнено успешно. Это действительно удобно, но в то же время это привносит и ряд проблем. Бизнес-логика частично прячется в базе, механизмы, которые используются для отладки и мониторинга на PHP/Go/Python/etc неприменимы на стороне СУБД. Конечно, есть свои замечательные средства, например, pg_stat_statements, но иногда они не могут в полной мере ответить на вопрос, какой именно кусок кода в нашей большой и сложной хранимке работает не так. Предложенное нами решение не претендует на звание «серебряной пули», но может помочь быстро определить среднее время выполнения кусков кода внутри хранимой процедуры, которая выполняется тысячи раз в секунду, и сделать это без создания лишней нагрузки. Интересно? Добро пожаловать!
Читать полностью »
Asterisk и не только. Виртуальные файловые системы. Шаг назад или два вперед?
2017-03-14 в 10:57, admin, рубрики: asterisk, python, vfs, визуализация данных, системное программированиеОписывая участие в проекте по модернизации VoIP оператора связи Часть 1 и Часть 2, одной из задач, которая выпала из поля зрения, было создание унифицированного инструмента для визуализации и мониторинга работы сервера Asterisk. По сути, после выхода из данного проекта, навязчивая идея привести отображение информации Asterisk к более удобному виду вылилась в проект создания прототипа унифицированной виртуальной файловой системы, объединяющей возможности всех разрозненных инструментов доступных в Asterisk.
Думаю что многие из администраторов, которые имели дело с Asterisk, зачастую удивлялись тому количеству различных команд, при помощи которых из Asterisk можно получать данные. Речь пойдёт об учётных записях для абонентских устройств, пользователях для аутентификации, каналах, а также о нестандартном применении виртуальных файловых систем.
Открытый курс машинного обучения. Тема 2: Визуализация данных c Python
2017-03-06 в 12:58, admin, рубрики: data mining, data science, mlcourse_open, ods, plotly, python, seaborn, tsne, visualization, анализ данных, Блог компании Open Data Science, визуализация данных, машинное обучение
Привет всем, кто начал проходить курс! Новые участники, добро пожаловать! Второе занятие посвящено визуализации данных в Python. Сначала мы посмотрим на основные методы библиотек Seaborn и Plotly, затем поанализируем знакомый нам по первой статье набор данных по оттоку клиентов телеком-оператора и подглядим в n-мерное пространство с помощью алгоритма t-SNE.
Напомним, что к курсу еще можно подключиться, дедлайн по 1 домашнему заданию – 6 марта 23:59.
Сейчас статья уже будет существенно длиннее. Готовы? Поехали!
Открытый курс машинного обучения. Тема 1. Первичный анализ данных с Pandas
2017-02-28 в 9:45, admin, рубрики: churn rate, data analysis, data mining, data science, mlcourse_open, ods, pandas, pivot tables, python, seaborn, Блог компании Open Data Science, визуализация данных, машинное обучение, уроки pythonСтарт открытого курса OpenDataScience
Привет всем, кто ждал запуска открытого курса по практическому анализу данных и машинному обучению!
Первая статья посвящена первичному анализу данных с Pandas.
Пока в серии планируется 7 статей, идущих вместе с тетрадками Jupyter (репозиторий mlcourse_open), соревнованиями и домашними заданиями.
Далее идет список будущих статей, описание курса и собственно, первая тема – введение в Pandas.
Визуализация алгоритмов сортировки обменом на JavaScript
2017-02-26 в 13:49, admin, рубрики: javascript, Алгоритмы, алгоритмы сортировки, визуализация, визуализация данныхДоброго времени суток всем читателям и авторам habrahabr.ru. Речь в данной статье будет идти о визуализации простейших алгоритмов сортировки.
На выполнение данной работы меня вдохновил Timo Bingmann – аспирант из Института теоретической информатики и алгоритмов при Технологическом институте Карлсруэ (Германия) [1]. Тимом была написана отличная статья, где можно почитать немного о истории визуализаций и аудификаций алгоритмов [2]. Программисты, как никто знают, как тяжело идет процесс понимания абстрактных сущностей, и как сильно в этом помогают метафоры и методы визуализации. Когда какому-либо объекту из реальной жизни аналогично присваиваются свойства и методы виртуальных объектов.
День открытых данных в Москве
2017-02-17 в 14:57, admin, рубрики: бизнес, Блог компании «Информационная культура», визуализация данных, день открытых данных, криминальная статистика, открытые данные, Спортивное программирование, хакатон
На протяжении нескольких лет активисты и любители открытых данных в заранее согласованный день проводят более сотни мероприятий различных форматов в разных городах и странах. В этом году таким днем стало 4 марта, на которое уже запланировано 145 мероприятий в десятке стран. Одним из них будет День открытых данных в Москве (для участия нужно зарегистрироваться), для которого мы подготовили много интересного: от новых массивов данных, которые можно использовать на хакатоне, до мастер-классов и лекций не только по привычным для нас госфинансам, но и по бизнес-моделям проектов, использующих открытые данные, или по этике использования больших данных.
Читать полностью »
Как получать пятёрки с помощью анализа данных?
2017-02-09 в 23:46, admin, рубрики: анализ данных, визуализация, визуализация данных, машинное обучение
Привет! Я уверен, что среди нас есть много студентов и, наверное, все из них признают, что на своём студенческом пути встречали такие науки, о гранит которых можно сломать зубы. Вот поэтому хочу вам рассказать о том, как хобби — наука о данных, помогло мне сдать один из самых сложных предметов в семестре на пятёрку. Если вам интересно — прошу под кат.
Читать полностью »
Анализ статей Хабрахабр и Geektimes
2017-02-05 в 19:18, admin, рубрики: wolfram language, wolfram mathematica, Алгоритмы, визуализация, визуализация данных, обработка данных, парсинг, поиск закономерностей, Программирование, статистика, хабрахабр
Сначала была идея собрать частотный словарь слов Хабрахабр и Geektimes, но потом нашла прекрасное: Детальный анализ Хабрахабра с помощью языка Wolfram Language (Mathematica) (перед просмотром данной статьи рекомендую пройти по ссылке), увидела разницу в результатах и решила сделать подобное для статей с Хабрахабр и Geektimes. В обзор не попали статьи с подкастами и нестандартным оформлением (habrahabr.ru/article). Получился анализ 170000 статей. Все изображения кликабельны. Код Wolfram Notebook на github. Датасет на Яндекс.Диске.
Читать полностью »