Что делать, если вам нужно нарисовать граф, но попавшиеся под руку инструменты рисуют какой-то комок волос или вовсе пожирают всю оперативную память и вешают систему? За последние пару лет работы с большими графами (сотни миллионов вершин и рёбер) я испробовал много инструментов и подходов, и почти не находил достойных обзоров. Поэтому теперь пишу такой обзор сам.
Читать полностью »
Рубрика «визуализация данных» - 19
BI: 6 трендов в сфере бизнес-аналитики
2019-09-03 в 8:03, admin, рубрики: Анализ и проектирование систем, Блог компании ГК ЛАНИТ, визуализация данных, ЛанитТехнологии BI применяются бизнесом уже не один десяток лет. Однако сегодня с развитием облачных технологий, BigData и машинного обучения BI выходит на новый уровень. К чему это ведет и какими станут практики BI в ближайшие годы — читайте в нашем посте. Под катом — немного истории, актуальные тренды и результаты исследований.

Расчет нулевой гипотезы, на примере анализа зарплат украинских программистов
2019-09-01 в 14:31, admin, рубрики: data mining, data science, python, анализ данных, визуализация данных, данные, зарплаты, статистика, Статистика в ITРешил поделиться, да бы и самому не забывать, как можно использовать простые статистические инструменты для анализа данных. В качестве примера использовался анонимный опрос относительно зарплат, стажа и позиций украинских программистов за 2014 и 2019 год. (1)
Этапы анализа
- Препроцессинг данных и предварительный анализ (кому интересно код тут)
- Графическое представление данных. Функция плотности распределения.
- Формулируем нулевую гипотезу (H0) (2)
- Выбираем метрику для анализа
- Используем метод bootstraping для формирования нового массива данных
- Рассчитываем p-value (3) для подтверждения или опровержения гипотезы
Препроцессинг данных
После некоторых манипуляций (код тут), приводим данные в следующий вид:
# Строка здесь это отдельный результат опроса, колонки переменные.
display(data_14_1.head(), data_19_1.head())
print('Всего опрошеных програмистов: n
{} чел. в 14 году и {} в 19 году'.format(len(data_14_1), len(data_19_1)))
Time series данные в реляционной СУБД. Расширения TimescaleDB и PipelineDB для PostgreSQL
2019-08-28 в 10:23, admin, рубрики: PipelineDB, postgresql, time series, time series database, timescaledb, Администрирование баз данных, Блог компании Конференции Олега Бунина (Онтико), визуализация данных, временные ряды, хранение данныхTime series данные или временные ряды — это данные, которые изменяются во времени. Котировки валют, телеметрия перемещения транспорта, статистика обращения к серверу или нагрузки на CPU — это time series данные. Чтобы их хранить требуются специфичные инструменты — темпоральные базы данных. Инструментов — десятки, например, InfluxDB или ClickHouse. Но даже у самых лучших решений для хранения временных рядов есть недостатки. Все time series хранилища низкоуровневые, подходят только для time series данных, а обкатка и внедрение в текущий стек — дорого и больно.
Но, если у вас стек PostgreSQL, то можете забыть о InfluxDB и всех остальных темпоральных БД. Ставите себе два расширения TimescaleDB и PipelineDB и храните, обрабатываете и проводите аналитику time series данных прямо в экосистеме PostgreSQL. Без внедрения сторонних решений, без недостатков темпоральных хранилищ и без проблем их обкатки. Что это за расширения, в чем их преимущества и возможности, расскажет Иван Муратов (binakot) — руководитель отдела разработки в «Первой Мониторинговой Компании».
Читать полностью »
Алгорейв: как программисты устраивают вечеринки
2019-08-27 в 16:41, admin, рубрики: алгорейв, Алгоритмы, Блог компании Mail.Ru Group, визуализация, визуализация данных, лайвкодинг, музыка, ПрограммированиеРазработчики будущего пишут не просто код — они создают алгоритмический рейв. Алгорейв — это написание и использование алгоритмов, генерирующих танцевальную музыку в режиме реального времени перед физически присутствующей аудиторией.
Генеративная музыка — явление не новое. Известно, что даже нейросеть способна создавать музыку, которую сложно отличить от творчества талантливого композитора. Однако алгорейв имеет свои отличительные особенности.
Если работа традиционного диджея строится вокруг правильного сведения треков (конечно, если он не крутит с флешки готовый микс), то алгорейверы импровизируют, допускают и исправляют ошибки прямо во время представления. При этом лайвкодеры транслируют происходящее на экране ноутбука.
Читать полностью »
Облако точек. Как мы развиваем цифровые технологии в строительстве
2019-08-22 в 8:06, admin, рубрики: 3d, Блог компании Инфосистемы Джет, визуализация, визуализация данных, облако точек, обработка изображений, Работа с 3D-графикойВозможно, вы в курсе, а может быть и нет, но мы плотно занимаемся разработкой технологий Индустрии 4.0. IoT, машинное обучение на реальном производстве, цифровые двойники предприятий – со всеми этими вещами мы знакомы не понаслышке. Другими словами, мы знаем, как подружить «цифру» с брутальным тяжёлым машиностроением или нефтедобычей.
Но сегодня мы хотим рассказать о чуть менее героических разработках для не менее суровой строительной отрасли. Мы решили озаглавить свой рассказ «Облако точек», и совсем скоро вы поймёте, почему именно так.
Читать полностью »
Как собрать когорты пользователей в виде графиков в Grafana [+docker-образ с примером]
2019-08-21 в 9:32, admin, рубрики: Grafana, mysql, Блог компании PromoPult, веб-аналитика, визуализация, визуализация данных, когортный анализ, когорты пользователей![Как собрать когорты пользователей в виде графиков в Grafana [+docker-образ с примером] - 1 Как собрать когорты пользователей в виде графиков в Grafana [+docker-образ с примером]](https://www.pvsm.ru/images/2019/08/21/kak-sobrat-kogorty-polzovatelei-v-vide-grafikov-v-Grafana-docker-obraz-s-primerom.png)
Как мы решили задачу визуализации когорт пользователей в сервисе Promopult c помощью Grafana.
Promopult — мощный сервис с большим числом пользователей. За 10 лет работы число регистраций в системе перевалило за миллион. Те, кто сталкивался с подобными сервисами, знают, что этот массив юзеров далеко не однороден.
Кто-то зарегался и «уснул» навеки. Кто-то забыл пароль и зарегался еще пару раз за полгода. Кто-то несет деньги в кассу, а кто-то пришел за халявными инструментами. И хорошо бы с каждого получить некий профит.
На таких больших массивах данных, как у нас, анализировать поведение отдельного юзера и принимать микро-решения бессмысленно. А вот отлавливать тренды и работать с большими группами — можно и нужно. Что мы, собственно, и делаем.
Deep Learning vs common sense: разрабатываем чат-бота
2019-08-21 в 8:40, admin, рубрики: elmo, natural language processing, t-sne, tf-idf, usedataconf, Алгоритмы, Блог компании Конференции Олега Бунина (Онтико), визуализация данных, искусственный интеллект, косинусное расстояние, машинное обучение, сиамские сети, Чат-ботыЧем больше пользователей у вашего сервиса, тем выше вероятность, что им понадобится помощь. Чат с техподдержкой — очевидное, но довольно дорогое решение. Но если применить технологии машинного обучения, можно неплохо сэкономить.
Отвечать на простые вопросы сейчас может и бот. Более того, чат-бота можно научить определять намерения пользователя и улавливать контекст так, чтобы он мог решить большинство проблем пользователей без участия человека. Как это сделать, помогут разобраться Владислав Блинов и Валерия Баранова — разработчики популярного помощника Олега.
Двигаясь от простых методов к более сложным в задаче разработки чат-бота, разберем вопросы практической реализации и посмотрим, какой прирост качества можно получить и сколько это будет стоить.
Читать полностью »
UX Резюме: Перезагрузка
2019-08-19 в 14:44, admin, рубрики: resume, ux design, ux для новичков, ux/ui, визуализация данных, дизайн, Карьера в IT-индустрии, личный бренд, личный брендинг, резюме, резюме IT-специалистаПрактически у каждого из вас есть резюме, не так ли? Так как это важная часть вашего основного набора инструментов используемого при поиске работы, точно такая же, как и портфолио (если у вас еще есть проблемы с этим — то вам сюда). Однако, уверены ли вы, что оно проходит через элементарные автоматические проверки при подаче заявки на вакансию своей мечты?
Как визуализировать звук в вебе: подборка тематических материалов и видеолекций с теорией и практикой
2019-08-19 в 13:18, admin, рубрики: Аудиомания, Блог компании Аудиомания, визуализация данных, звук, Разработка веб-сайтов, разработка игрВ прошлый раз мы подготовили для вас дайджест с открытыми библиотеками для визуализации аудиоконтента и решили найти материалы о том, как со всем этим работать. Получилась подборка руководств по теме для разработчиков веб-приложений или игр.