Рубрика «pandas» - 7

Открытый курс машинного обучения. Тема 1. Первичный анализ данных с Pandas

2017-02-28 в 9:45, admin, рубрики: churn rate, data analysis, data mining, data science, mlcourse_open, ods, pandas, pivot tables, python, seaborn, Блог компании Open Data Science, визуализация данных, машинное обучение, уроки python

Старт открытого курса OpenDataScience

Привет всем, кто ждал запуска открытого курса по практическому анализу данных и машинному обучению!

Открытый курс машинного обучения. Тема 1. Первичный анализ данных с Pandas - 1

Первая статья посвящена первичному анализу данных с Pandas.

Пока в серии планируется 7 статей, идущих вместе с тетрадками Jupyter (репозиторий mlcourse_open), соревнованиями и домашними заданиями.

Далее идет список будущих статей, описание курса и собственно, первая тема – введение в Pandas.

Читать полностью »

Однажды встретились JMeter и незнакомка…

2016-11-20 в 0:26, admin, рубрики: groovy, http, java, jmeter, jni, jupyter, pandas, wget, балансировка нагрузки, высокая производительность, плагин, Тестирование IT-систем, Тестирование веб-сервисов

Однажды встретились JMeter и незнакомка… - 1
Кадр из фильма «Дом у озера». Встреча (www.kinopoisk.ru)

Джим ещё не знал, как подойти к ней, с чего начать разговор и на каком языке его вести. Но он видел многое, владел языками и имел в рукаве не один козырь. И будучи уверенным в помощи верных друзей (это мы с вами) и забыв про сомнения, шёл на встречу судьбе.

Ниже рассказ о том, как Джим завоёвывал снова и снова сердце незнакомой системы. Не подумайте, что незнакомок было несколько. Она была одна, единственная, но такая разная, и от того истории будут следовать одна за другой.
Читать полностью »

Выбираем html-парсер для Apache.JMeter

2016-08-23 в 4:18, admin, рубрики: csv, Google Chrome, jmeter, pandas, python, webpagetest, Тестирование IT-систем, Тестирование веб-сервисов

Среднее качество полноты извлечения ссылок на встроенные ресурсы html-парсерами Apache.JMeter
Среднее качество работы парсеров (для семи сайтов)

Предлагаю:

посчитать среднее качество полноты извлечения ссылок на встроенные ресурсы html-парсерами Apache.JMeter;
проверить правда ли извлечение ссылок в Apache.JMeter 3.0 стало более полным;
испытать в деле плагин CsvLogWriter.

Как гласит народная мудрость: Верить верь, но…
Читать полностью »

Немного про кино или как делать интерактивные визуализации в python

2016-08-20 в 19:30, admin, рубрики: jupyter notebook, pandas, plotly, python, visualisation, визуализация данных, метки: jupyter notebook, plotly

Немного про кино или как делать интерактивные визуализации в python - 1

Введение

В этой заметке я хочу рассказать о том, как можно достаточно легко строить интерактивные графики в Jupyter Notebook'e с помощью библиотеки plotly. Более того, для их построения не нужно поднимать свой сервер и писать код на javascript. Еще один большой плюс предлагаемого подхода — визуализации будут работать и в NBViewer'e, т.е. можно будет легко поделиться своими результатами с коллегами. Вот, например, мой код для этой заметки.

Для примеров я взяла скаченные в апреле данные о фильмах (год выпуска, оценки на КиноПоиске и IMDb, жанры и т.д.). Я выгрузила данные по всем фильмам, у которых было хотя бы 100 оценок — всего 36417 фильмов. Про то, как скачать и распарсить данные КиноПоиска, я рассказывала в предыдущем посте.

Читать полностью »

Визуализация статистики ЕВРО-2016 с помощью Python и Inkscape

2016-07-20 в 7:18, admin, рубрики: api, inkscape, matplotlib, pandas, python, vector graphics, визуализация данных

Визуализация статистики ЕВРО-2016 с помощью Python и Inkscape - 1
Привет!

Прошло чуть больше недели с окончания Чемпионата Европы 2016 во Франции. Этот чемпионат запомнится нам неудачным выступлением сборной России, проявленной волей сборной Исландии, потрясающей игрой сборных Франции и Португалии. В этой статье мы поработаем с данными, построим несколько графиков и отредактируем их в векторном редакторе Inkscape. Кому интересно — прошу под кат.
Читать полностью »

World of Tanks: от чего же зависит винрейт танков?

2016-06-03 в 10:57, admin, рубрики: data analysis, data mining, pandas, python, world of tanks, визуализация данных, статистика

Сегодня мы поговорим об использовании Wargaming API, построим много графиков и проанализируем, от чего же зависит винрейт танков. Сразу хочу отметить, что я не гуру World of Tanks, и если я где-то ошибся, то напишите пожалуйста в комментариях.

Читать полностью »

Meduza.io: а как же лайки?

2016-05-06 в 8:52, admin, рубрики: data mining, pandas, python, seaborn, визуализация данных

Как-то раз, читая новости на Медузе, я обратил внимание на то, что у разных новостей разное соотношение лайков из Facebook и ВКонтакте. Какие-то новости мегапопулярны на fb, а другими люди делятся только во ВКонтакте. Захотелось присмотреться к этим данным, попытаться найти в них интересные закономерности. Заинтересовавшихся приглашаю под кат!

Читать полностью »

Парадокс Симпсона и немного Pandas

2016-03-19 в 21:33, admin, рубрики: pandas, python, математика, парадоксы

О чем статья?

В этой статье я хочу рассмотреть один из наиболее известных примеров парадокса Симпсона, попутно немного рассказав о MultiIndex в Pandas.
Обо всем по порядку.

Парадокс Симпсона — контринтуитивное явление в Статистике, когда мы видим в каждой из групп данных определенную зависимость, но при объеденении этих групп зависимость исчезает или становится противоположной. Например, если смотреть изменение среднего заработка женщин 25 лет и старше, работающих полный день, между 2000 и 2012 годами с различным уровнем образования, то мы получим следующие цифры (все расчеты проводились с поправкой на инфляцию):

Less than 9th grade -3.7%
9th-12th but didn’t finish -6.7%
High school graduate -3.3%
Some college but no degree -3.7%
Associate’s degree -10.0%
Bachelor’s degree or more -2.7%

По этим цифрам можно сделать вывод, что заработок женщин за 12 лет снизился. Однако, на самом деле, средний заработок женщин с полной занятостью вырос на 2.8% (подробнее про этот пример можно почитать тут).

Одним из наиболее известных примеров парадокса Симпсона является случай половой дискриминации при поступлении в Калифорнийский унивеситет Berkeley. Его и будем рассматривать далее.
Читать полностью »

Pandasql vs Pandas для решения задач анализа данных

2016-03-14 в 10:40, admin, рубрики: pandas, pandasql, python, анализ данных

О чем речь?

В этой статье я бы хотела рассказать о применении python-библиотеки Pandasql.

Многие люди, сталкивающиеся с задачами анализа данных, уже, скорее всего, знакомы с библиотекой Pandas. Pandas позволяет быстро и удобно работать с табличными данными: фильтровать, группировать, делать join над данными; строить сводные таблицы и даже рисовать графики (для простых визуализации достаточно функции plot(), а если хочется чего-то позаковыристее, то поможет библиотека matplotlib). На Хабре не раз рассказывали о применении этой библиотеки для работы с данными: раз, два, три.

Но по моему опыту далеко не все знают о библиотеке Pandasql, которая позволяет работать с Pandas DataFrames как с таблицами и обращаться к ним, используя язык SQL. В некоторых задачах проще выразить желаемое с помощью декларативного языка SQL, поэтому я считаю, что людям, работающим с данными, полезно знать о наличии такой функциональности. Если говорить о реальных задачах, то я использовала эту библиотеку для решения задачи join'a таблиц по нечетким условиям (необходимо было объединить записи о событиях из разных систем по примерно совпадающему времени, разрыв порядка 5 секунд).

Рассмотрим использование этой библиотеки на конкретных примерах.
Читать полностью »

Сравниваем цены в книжных интернет магазинах c помощью python, pandas и matplotlib

2016-02-09 в 7:32, admin, рубрики: data mining, matplotlib, pandas, python

Сегодня мы попробуем найти самый дешевый и самый дорогой интернет магазин книг.
Сравнивать будем бумажные книги, которые есть в наличии. В разных магазинах очень разное количество книг. Где-то менее 1000, а где-то более 200 000 книг.

Сравниваем цены в книжных интернет магазинах c помощью python, pandas и matplotlib - 1

Кстати, гистограмма настоящая. Как она построена и другие интересные закономерности под катом.
Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «pandas» - 7

Открытый курс машинного обучения. Тема 1. Первичный анализ данных с Pandas

Старт открытого курса OpenDataScience

Однажды встретились JMeter и незнакомка…

Выбираем html-парсер для Apache.JMeter

Немного про кино или как делать интерактивные визуализации в python

Введение

Визуализация статистики ЕВРО-2016 с помощью Python и Inkscape

World of Tanks: от чего же зависит винрейт танков?

Meduza.io: а как же лайки?

Парадокс Симпсона и немного Pandas

О чем статья?

Pandasql vs Pandas для решения задач анализа данных

О чем речь?

Сравниваем цены в книжных интернет магазинах c помощью python, pandas и matplotlib

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «pandas» - 7

Старт открытого курса OpenDataScience

Введение

О чем статья?

О чем речь?

Новости

Актуальные темы

Архив