Бойтесь операций, buffers приносящих…
На примере небольшого запроса рассмотрим некоторые универсальные подходы к оптимизации запросов на PostgreSQL. Пользоваться ими или нет — выбирать вам, но знать о них стоит.
Читать полностью »
Рубрика «визуализация данных» - 16
PostgreSQL Antipatterns: вредные JOIN и OR
2019-12-10 в 9:00, admin, рубрики: dba, explain, explain.tensor.ru, lazy sql, postgresql, sql, sql antipatterns, Администрирование баз данных, базы данных, визуализация данных, ленивые вычисленияХабра-анализ: что заказывают пользователи в подарок от Хабра
2019-12-08 в 16:25, admin, рубрики: DIY, diy или сделай сам, habrbusters, визуализация данных, никто не читает теги, Разработка веб-сайтов, Социальные сети и сообщества, хабр, хабра-анализ, хабра-детектив
Вы ведь заметили, что на календаре уже декабрь? Вероятно, вы уже почти готовы к празднованию, купили подарки, поучаствовали в Хабра-АДМ и запаслись мандаринками. Естественно, каждый Хабра-пользователь хочет не только дарить, но и получать что-то на новый год. А поскольку каждый из нас достаточно переборчивый, то часто мы сами заказываем себе подарки.
В том числе мы заказываем подарки и от Хабра. Причём целый год без перерывов. Давайте посмотрим, что же мы заказали в этом году и что из этого уже получили. А также, что мы ещё можем получить.
Итак, самый полный список того, что же пользователи просили у Хабра за этот год. Начнём!
Хабра-детектив и праздничное настроение
2019-12-04 в 17:14, admin, рубрики: DIY, diy или сделай сам, habrbusters, визуализация данных, никто не читает теги, Социальные сети и сообщества, Статистика в IT, хабр, хабра-анализ, хабра-детектив
Вы ведь слышали фразу "часто комментарии намного полезнее самой статьи"? На Хабре она встречается достаточно регулярно. В основном речь идёт о дополнительных технических подробностях, взгляде с точки зрения другой технологии или просто альтернативных мнениях.
Но сегодня меня интересуют вовсе не технические комментарии. Дело в том, что недавно на Хабре открылась регистрация в "Клуб анонимных Дед Морозов" (а закрывается она уже завтра). Давайте попробуем выяснить "всё, что только возможно" и есть ли на Хабре новогодний дух.
Итак, что же можно узнать о Хабра-АДМ? Приступим.
Актуальные библиотеки визуализации данных для react-разработчиков
2019-12-04 в 14:07, admin, рубрики: html5, javascript, ReactJS, библиотека javascript, визуализация данных, графики, графики и диаграммы, дашборд, диаграммы, Разработка веб-сайтовПривет! Представляю вашему вниманию перевод статьи «Data Visualization Libraries for React Developers in 2019» автора Veronika Rovnik.
Вот уже несколько лет подряд React не сдаёт позиции и входит в тройку самых любимых библиотек профессиональных разработчиков по всему миру, имея на то все основания.
Вы когда-нибудь сталкивались с необходимостью улучшить своё приложение аналитическими и визуальными функциями и получить представление о данных?
Читать полностью »
Визуализация и анализ структуры сообществ с помощью графов
2019-12-01 в 16:04, admin, рубрики: data mining, Блог компании Leader-ID, визуализация данных, графы и визуализация, Социальные сети и сообщества, Управление сообществомГрафы — классный инструмент для визуализации больших объемов данных и связей между отдельными элементами. Мы использовали его для оценки связанности наших сообществ и понимания взаимодействия между разными группами и тематическими направлениями.
В итоге мы нашли людей-суперконнекторов, узнали, чем отличаются сообщества в разных городах России, а также выяснили, что предпринимателей среди тех, кому за 50, в два с половиной раза больше, чем в среднем по всем участникам наших сообществ.
Панель мониторинга Grafana для пивной системы BeerTender
2019-11-29 в 8:13, admin, рубрики: BeerTender, data mining, diy или сделай сам, Grafana, GTS, ITSumma, OVHcloud, Warp 10, Блог компании ITSumma, визуализация данных, временной ряд, гаджеты, пивоПояснение. BeerTender — устройство для охлаждения и розлива пива от Krups и Heineken. По заявлению производителей, оно сохраняет качества свежего пива в течение 30 дней после открытия кега. Конечно, системным администраторам и девопсам удобно отслеживать температуру и уровень пива в своём бочонке с помощью привычных онлайновых панелей мониторинга. В предыдущей статье рассказывалось, как подключить BeerTender к Warp 10, а сейчас мы настроим панель мониторинга Grafana
OVHcloud, крупнейший европейский хостер и облачный провайдер, активно использует платформу Warp 10. В один кластер Warp 10 стекаются все их данные мониторинга. Это 400 000 серверов, 27 дата-центров, в общей сложности несколько миллионов метрик в секунду!
У них много панелей мониторинга, а теперь OVHcloud является мейнтейнером опенсорсного плагина Warp 10 Grafana, разработку которого мы начали некоторое время назад. О нём и поговорим. Если хотите сами попробовать, данные в открытом доступе — можете скопировать WarpScript ниже.
Читать полностью »
О чем молчит EXPLAIN, и как его разговорить
2019-11-26 в 18:21, admin, рубрики: dba, explain, explain.tensor.ru, postgresql, Администрирование баз данных, базы данных, визуализация данныхКлассический вопрос, с которым разработчик приходит к своему DBA или владелец бизнеса — к консультанту по PostgreSQL, почти всегда звучит одинаково: «Почему запросы выполняются на базе так долго?»
Традиционный набор причин:
- неэффективный алгоритм
когда вы решили сделать JOIN нескольких CTE по паре десятков тысяч записей - неактуальная статистика
если фактическое распределение данных в таблице уже сильно отличается от собранной ANALYZE'ом в последний раз - «затык» по ресурсам
и уже не хватает выделенных вычислительных мощностей CPU, постоянно прокачиваются гигабайты памяти или диск не успевает за всеми «хотелками» БД - блокировки от конкурирующих процессов
И если блокировки достаточно сложны в поимке и анализе, то для всего остального нам достаточно плана запроса, который можно получить с помощью оператора EXPLAIN (лучше, конечно, сразу EXPLAIN (ANALYZE, BUFFERS) ...) или модуля auto_explain.
Но, как сказано в той же документации,
«Понимание плана — это искусство, и чтобы овладеть им, нужен определённый опыт, …»
Но можно обойтись и без него, если воспользоваться подходящим инструментом!
Читать полностью »
Нейросеть для определения хейтеров — «не, ну это бан»
2019-11-17 в 14:49, admin, рубрики: big data, data mining, data science, python, визуализация данных, комментарии, машинное обучение, нейросетиПривет!
Часто ли вы видите токсичные комментарии в соцсетях? Наверное, это зависит от контента, за которым наблюдаешь. Предлагаю немного поэкспериментировать на эту тему и научить нейросеть определять хейтерские комментарии.
Итак, наша глобальная цель — определить является ли комментарий агрессивным, то есть имеем дело с бинарной классификацией. Мы напишем простую нейросеть, обучим ее на датасете комментариев из разных соцсетей, а потом сделаем простой анализ с визуализацией.
Для работы я буду использовать Google Colab. Этот сервис позволяет запускать Jupyter Notebook'и, имея доступ к GPU (NVidia Tesla K80) бесплатно, что ускорит обучение. Мне понадобится backend TensorFlow, дефолтная версия в Colab 1.15.0, поэтому просто обновим до 2.0.0.
Импортируем модуль и обновляем.
Julia и нейронные сети: Flux
2019-11-11 в 7:55, admin, рубрики: dataframes, Julia, боги смерти едят только яблоки, визуализация данных, искусственный интеллект, классификация, машинное обучение, нейронные сети, Перцептрон, Программирование
Прошло чуть больше года, с тех пор как MIT объявил о релизе высокопроизводительного языка общего назначения Julia. С тех пор язык набирает популярность: он используется в более чем 1500 университетах (в некоторых преподается в качестве первого ЯП), а области применения охватывают от медицинской диагностики и планирования космических миссий до таких насущных проблем, как оптимизация трафика школьных автобусов.
Одним из ключевым полей деятельности многих проектов, как не трудно догадаться, является машинное обучение, для которого на Julia есть множество мощных инструментов, а недавно вышел в свет довольно интересный проект — Система вероятностного программирования общего назначения "GEN".
Сегодня же мы обратим внимание на, как понятно из названия, пакет Flux, предоставляющий всю мощь нейронных сетей. Постараемся пройти путь от обработки и исследования наборов изображений до обученной нейронной сети, чтобы получить полноценный классификатор!
Визуальное представление выборов в Санкт-Петербурге — магия накрутки голосов
2019-11-10 в 20:50, admin, рубрики: big data, data mining, data science, geopandas, pandas, python, анализ данных, визуализация данных, выборы, Геоинформационные сервисыПривет!
В сентябре этого (2019) года прошли выборы Губернатора Санкт-Петербурга. Все данные о голосовании находятся в открытом доступе на сайте избирательной комиссии, мы не будем ничего ломать, а просто визуализируем информацию с этого сайта www.st-petersburg.vybory.izbirkom.ru в нужном для нас виде, проведем совсем несложный анализ и определим некоторые «волшебные» закономерности.
Обычно для подобных задач я использую Google Colab. Это сервис, который позволяет запускать Jupyter Notebook'и, имея доступ к GPU (NVidia Tesla K80) бесплатно, это заметно ускорит пирсинг данных и их дальнейшую обработку. Мне понадобились некоторые подготовительные работы перед импортом.
%%time
!apt update
!apt upgrade
!apt install gdal-bin python-gdal python3-gdal
# Install rtree - Geopandas requirment
!apt install python3-rtree
# Install Geopandas
!pip install git+git://github.com/geopandas/geopandas.git
# Install descartes - Geopandas requirment
!pip install descartes
Далее импорты.
import requests
from bs4 import BeautifulSoup
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import geopandas as gpd
import xlrd
Описание используемых библиотек
- requests — модуль для запроса на подключение к сайту
- BeautifulSoup — модуль для парсинга html и xml документов; позволяет получить доступ напрямую к содержимому любых тегов в html
- numpy — математический модуль с базовым и необходимым набором математических функций
- pandas — библиотека для анализа данных
- matplotlib.pyplot — модуль-набор методов построения
- geopandas — модуль для построения карты выборов
- xlrd — модуль для чтения табличных файлов
Настал момент собирать сами данные, парсим. Избирком позаботился о нашем времени и предоставил отчетность в таблицах, это удобно.
Читать полностью »