Рубрика «seaborn»

Инструменты Python для анализа данных на примере данных стриминг-сервиса

2025-03-26 в 10:16, admin, рубрики: analytics, jupyter notebook, numpy, pand, python3, seaborn

В данной статье будет рассказано о некоторых методах библиотек Python, с помощью которых можно производить анализ данных, писать аналитические запросы к набору данных, визуализировать необходимую информацию в виде графиков и гистограмм.

Для примеров использования методов библиотек Python взят готовый датасет с информацией о пользователях онлайн-кинотеатра, о фильмах и их рейтинге. Будут использованы три библиотеки: Pandas, Numpy для аналитических запросов и Seaborn для визуализации.

1. Обработка данных

1.1 Импортирование файлов

Читать полностью »

Возможности функции scatterplot() библиотеки seaborn

2024-11-03 в 8:15, admin, рубрики: scatterplot, seaborn

Графики отношений (relational plots) относятся к типу графиков, которые показывают взаимосвязи между двумя или более переменными. Эти графики позволяют находить зависимости и закономерности в данных.

В библиотеке seaborn существует два основных типа графиков отношений:

Диаграмма рассеяния (scatter plot). Диаграмма рассеяния показывает взаимосвязь двух переменных в виде точек на графике. В библиотеке seaborn диаграммы рассеяния строятся функцией scatterplot().
Линейный график (line plot). Читать полностью »

Визуализация столбца из DataFrame с помощью библиотеки Seaborn

2019-07-13 в 20:13, admin, рубрики: DataFrame, pandas, python, seaborn, визуализация данных, интернет-маркетинг

Попробуем визуализировать данные по рекламным кампаниям, которые храняться в DataFrame.

Дано:

DataFrame, в котором хранится статистика по рекламным кампаниям по следующим показателям:

CampaignName
Date
Impressions
Clicks
Ctr
Cost
AvgCpc
BounceRate
AvgPageviews
ConversionRate
CostPerConversion
Conversions

Визуализация столбца из DataFrame с помощью библиотеки Seaborn - 1

Импортируем все необходимое:

import seaborn as sns
from pandas import Series,DataFrame

Прочитаем наш DataFrame из csv

f=DataFrame.from_csv("cashe.csv",header=0,sep='',index_col=0,parse_dates=True)

Читать полностью »

Как без особенных усилий создать ИИ-расиста

2019-01-17 в 14:48, admin, рубрики: ConceptNet Numberbatch, glove, matplotlib, numpy, pandas, python, scikit-learn, scipy, seaborn, word2vec, анализ тональности, дерево синтаксического анализа, искусственный интеллект, классификатор, машинное обучение, сентимент-анализ

Предостерегающий урок.

Сделаем классификатор тональности!

Анализ тональности (сентимент-анализ) — очень распространённая задача в обработке естественного языка (NLP), и это неудивительно. Для бизнеса важно понимать, какие мнения высказывают люди: положительные или отрицательные. Такой анализ используется для мониторинга социальных сетей, обратной связи с клиентами и даже в алгоритмической биржевой торговле (в результате боты покупают акции Berkshire Hathaway после публикации положительных отзывов о роли Энн Хэтэуэй в последнем фильме).

Метод анализа иногда слишком упрощён, но это один из самых простых способов получить измеримые результаты. Просто подаёте текст — и на выходе положительные и отрицательные оценки. Не нужно разбираться с деревом синтаксического анализа, строить граф или какое-то другое сложное представление.
Читать полностью »

Идентификация мошенничества с использованием Enron dataset. Часть 2-ая, поиск оптимальной модели

2018-10-07 в 12:41, admin, рубрики: enron, pandas, python, seaborn, классификация, машинное обучение

Представляю вашему вниманию вторую часть статьи о поиске подозреваемых в мошениничестве на основе данных из Enron Dataset. Если вы не читали первую часть, ознакомиться с ней можно здесь.

Сейчас речь пойдет про процесс построения, оптимизации и выбора модели, которая даст ответ: стоит ли подозревать человека в мошеничестве?

Читать полностью »

Идентификация мошенничества с использованием Enron dataset. Часть 1-ая, подготовка данных и отбор признков

2018-09-30 в 9:57, admin, рубрики: enron, pandas, python, seaborn, классификация, машинное обучение

Корпорация Enron — это одна из наиболее известных фигур в американском бизнесе 2000-ых годов. Этому способствовала не их сфера деятельности (электроэнергия и контракты на ее поставку), а резонанс в связи с мошенничеством в ней. В течении 15 лет доходы корпорации стремительно росли, а работа в ней сулила неплохую заработную плату. Но закончилось всё так же быстротечно: в период 2000-2001гг. цена акций упала с 90$/шт практически до нуля по причине вскрывшегося мошенничества с декларируемыми доходами. С тех пор слово "Enron" стало нарицательным и выступает в качестве ярлыка для компаний, которые действуют по аналогичной схеме.

В ходе судебного разбирательства, 18 человек (в том числе крупнейшие фигуранты данного дела: Эндрю Фастов, Джефф Скиллинг и Кеннет Лей) были осуждены.

image![image](http://https://habrastorage.org/webt/te/rh/1l/terh1lsenbtg26n8nhjbhv3opfi.jpeg)

Вместе с тем были опубликованы архив электронной переписки между сотрудниками компании, более известный как Enron Email Dataset, и инсайдерская информация о доходах сотрудников данной компании.

В статье будут рассмотрены источники этих данных и на основе их построена модель, позволяющая определить, является ли человек подозреваемым в мошенничестве. Звучит интересно? Тогда, добро пожаловать под хабракат. Читать полностью »

Анализ резюме HH.RU: много графиков и немного сексизма и дискриминации

2017-12-18 в 7:21, admin, рубрики: data mining, headhunter, hh.ru, seaborn, Блог компании HeadHunter, визуализация данных, графики, зарплата, Исследования и прогнозы в IT, Карьера в IT-индустрии, резюме, резюме IT-специалиста, сексизм

Недавно мне на глаза попалась статья про анализ датасета резюме hh.ru, который участвовал в каком-то хакатоне. Это навело меня на мысль самому поиграться с данными резюме. Тем более что у меня их немного больше. Я выбрал самую интересную для меня профобласть, которую можно указать в резюме, — «Информационные технологии, интернет, телеком».

Под катом вас ожидает много графиков, на которых вы узнаете, сколько получают люди в различных айтишных специализациях, выпускники каких вузов хотят больше всего денег, у каких работодателей айтишники задерживаются меньше всего, зарабатывают ли пользователи гуглопочты больше, чем пользователи почты Яндекса или Мейла, и много другой информации.

Анализ резюме HH.RU: много графиков и немного сексизма и дискриминации - 1
Читать полностью »

Хронология уровня CO в атмосфере США (решение задачи Kaggle с помощью Python+Feature Engineering)

2017-10-27 в 22:31, admin, рубрики: big data, kaggle, pandas, python, python3, seaborn, sklearn, визуализация данных

Хочу поделиться опытом решения задачи по машинному обучению и анализу данных от Kaggle. Данная статья позиционируется как руководство для начинающих пользователей на примере не совсем простой задачи.

Выборка данных

Выборка данных содержит порядка 8,5 млн строк и 29 столбцов.Вот некоторые из параметров:

Широта-latitude
Долгота-longitude
Способ взятия пробы-method_name
Дата и время взятия пробы-date_local

Задача

Найти параметры максимально влияющие на уровень CO в атмосфере.
Создание гипотезы, предсказывающей уровень CO в атмосфере.
Создание нескольких простых визуализаций.

Читать полностью »

Открытый курс машинного обучения. Тема 2: Визуализация данных c Python

2017-03-06 в 12:58, admin, рубрики: data mining, data science, mlcourse_open, ods, plotly, python, seaborn, tsne, visualization, анализ данных, Блог компании Open Data Science, визуализация данных, машинное обучение

Открытый курс машинного обучения. Тема 2: Визуализация данных c Python - 1

Привет всем, кто начал проходить курс! Новые участники, добро пожаловать! Второе занятие посвящено визуализации данных в Python. Сначала мы посмотрим на основные методы библиотек Seaborn и Plotly, затем поанализируем знакомый нам по первой статье набор данных по оттоку клиентов телеком-оператора и подглядим в n-мерное пространство с помощью алгоритма t-SNE.

Напомним, что к курсу еще можно подключиться, дедлайн по 1 домашнему заданию – 6 марта 23:59.

Сейчас статья уже будет существенно длиннее. Готовы? Поехали!

Читать полностью »

Открытый курс машинного обучения. Тема 1. Первичный анализ данных с Pandas

2017-02-28 в 9:45, admin, рубрики: churn rate, data analysis, data mining, data science, mlcourse_open, ods, pandas, pivot tables, python, seaborn, Блог компании Open Data Science, визуализация данных, машинное обучение, уроки python

Старт открытого курса OpenDataScience

Привет всем, кто ждал запуска открытого курса по практическому анализу данных и машинному обучению!

Открытый курс машинного обучения. Тема 1. Первичный анализ данных с Pandas - 1

Первая статья посвящена первичному анализу данных с Pandas.

Пока в серии планируется 7 статей, идущих вместе с тетрадками Jupyter (репозиторий mlcourse_open), соревнованиями и домашними заданиями.

Далее идет список будущих статей, описание курса и собственно, первая тема – введение в Pandas.

Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «seaborn»

Инструменты Python для анализа данных на примере данных стриминг-сервиса

1. Обработка данных

1.1 Импортирование файлов

Возможности функции scatterplot() библиотеки seaborn

Визуализация столбца из DataFrame с помощью библиотеки Seaborn

Дано:

Импортируем все необходимое:

Прочитаем наш DataFrame из csv

Как без особенных усилий создать ИИ-расиста

Идентификация мошенничества с использованием Enron dataset. Часть 2-ая, поиск оптимальной модели

Идентификация мошенничества с использованием Enron dataset. Часть 1-ая, подготовка данных и отбор признков

Анализ резюме HH.RU: много графиков и немного сексизма и дискриминации

Хронология уровня CO в атмосфере США (решение задачи Kaggle с помощью Python+Feature Engineering)

Открытый курс машинного обучения. Тема 2: Визуализация данных c Python

Открытый курс машинного обучения. Тема 1. Первичный анализ данных с Pandas

Старт открытого курса OpenDataScience