Рубрика «pandas» - 6

Анализ данных с использованием Python

2018-04-08 в 13:31, admin, рубрики: matplotlib, numpy, pandas, python, визуализация данных, Программирование

Анализ данных с использованием Python - 1

Язык программирования Python в последнее время все чаще используется для анализа данных, как в науке, так и коммерческой сфере. Этому способствует простота языка, а также большое разнообразие открытых библиотек.

В этой статье разберем простой пример исследования и классификации данных с использованием некоторых библиотек на Python. Для исследования, нам понадобится выбрать интересующий нас набор данных (DataSet). Разнообразные наборы Dataset'ы можно скачать с сайта. DataSet обычно представляет собой файл с таблицей в формате JSON или CSV. Для демонстрации возможностей исследуем простой набор данных с информацией о наблюдениях НЛО. Наша цель будет не получить исчерпывающие ответы на главный вопрос жизни, вселенной и всего такого, а показать простоту обработки достаточно большого объема данных средствами Python. Собственно, на месте НЛО могла быть любая таблица.

Читать полностью »

Мульти-классификация Google-запросов с использованием нейросети на Python

2018-03-11 в 13:45, admin, рубрики: keras, NLTK, numpy, pandas, python, ИИ, классификация, математика, машинное обучение, Семантика

Прошло уже достаточно времени с момента публикации моей первой статьи на тему обработки естественного языка. Я продолжал активно исследовать данную тему, каждый день открывая для себя что-то новое.
Сегодня я бы хотел поговорить об одном из способов классификации поисковых запросов, по отдельным категориям с помощью нейронной сети на Keras. Предметной областью запросов была выбрана сфера автомобилей.
За основу был взят датасет размером ~32000 поисковых запросов, размеченных по 14ти классам: Автоистория, Автострахование, ВУ (водительское удостоверение), Жалобы, Запись в ГИБДД, Запись в МАДИ, Запись на медкомиссию, Нарушения и штрафы, Обращения в МАДИ и АМПП, ПТС, Регистрация, Статус регистрации, Такси, Эвакуация.Читать полностью »

Pygest #19. Релизы, статьи, интересные проекты, пакеты и библиотеки из мира Python [20 ноября 2017 — 5 декабря 2017]

2017-12-06 в 9:30, admin, рубрики: cpython, digest, django, django framework, machine learning, pandas, pycharm, pygame, python, события из мира python, Учебный процесс в IT, Читальный зал

Всем привет! Это уже девятнадцатый выпуск дайджеста на Хабрахабр о новостях из мира Python.

Присылайте свои интересные события из мира Python. Вместе мы сделаем Python еще лучше:)

Итак, поехали!

Читать полностью »

Pygest #18. Релизы, статьи, интересные проекты, пакеты и библиотеки из мира Python [5 ноября 2017 — 15 ноября 2017]

2017-11-20 в 11:14, admin, рубрики: cpython, digest, elasticsearch, machine learning, pandas, python, python2, Rust, scrapy, sqlalchemy, TensorFlow, Учебный процесс в IT, Читальный зал

Всем привет! Это уже восемнадцатый выпуск дайджеста на Хабрахабр о новостях из мира Python.

В связи с загруженностью andrewnester, автора предыдущих digests, и с его разрешения, честь опубликовать данный выпуск выпала мне.

Итак, поехали!

Читать полностью »

Руководство к созданию собственного когортного отчёта по возвратности

2017-11-10 в 22:47, admin, рубрики: data analysis, mysql, pandas, python, sql, Анализ и проектирование систем, Аналитика мобильных приложений, веб-аналитика

Пример когортного отчёта со значениями LTV

Когортный анализ возвратности пользователей является мощным способом для понимания разных групп клиентов — их поведения и значимости для бизнеса. Однако итоговые таблицы бывает трудно понять с первого раза, а с ходу придумать, как их построить, ещё сложнее.

В статье будет описан относительно простой, но полезный алгоритм построения когортой таблицы, а также приведены наброски кода с Python/Pandas и SQL. Если Вам необходимо программно реализовать построение когортного отчёта или просто интересно узнать этот алгоритм — прошу под кат.

Читать полностью »

Хронология уровня CO в атмосфере США (решение задачи Kaggle с помощью Python+Feature Engineering)

2017-10-27 в 22:31, admin, рубрики: big data, kaggle, pandas, python, python3, seaborn, sklearn, визуализация данных

Хочу поделиться опытом решения задачи по машинному обучению и анализу данных от Kaggle. Данная статья позиционируется как руководство для начинающих пользователей на примере не совсем простой задачи.

Выборка данных

Выборка данных содержит порядка 8,5 млн строк и 29 столбцов.Вот некоторые из параметров:

Широта-latitude
Долгота-longitude
Способ взятия пробы-method_name
Дата и время взятия пробы-date_local

Задача

Найти параметры максимально влияющие на уровень CO в атмосфере.
Создание гипотезы, предсказывающей уровень CO в атмосфере.
Создание нескольких простых визуализаций.

Читать полностью »

Призрак локомотива или биржевой рынок через призму корреляций

2017-07-27 в 15:08, admin, рубрики: data mining, DataFrame, Normality Test, pandas, python, машинное обучение

В этой статье будет продемонстрирована техника обработки информации по биржевым котировкам с помощью пакета pandas (python), а также изучены некоторые «мифы и легенды» биржевой торговли посредством применения методов математической статистики. Попутно кратко рассмотрим особенности использования библиотеки plotly.
Одной из легенд трейдеров является понятие «локомотива». Описать ее можно следующим образом: есть бумаги «ведущие» и есть бумаги «ведомые». Если поверить в существование подобной закономерности, то можно «предсказывать» будущие движения финансового инструмента по движению «локомотивов» («ведущих» бумаг). Так ли это? Есть ли под этим основания?

Читать полностью »

Расчет оттока клиентов банка (решение задачи с помощью Python)

2017-05-24 в 9:18, admin, рубрики: kaggle, pandas, python, sklearn, Занимательные задачки

Data-driven подход к продакшну – Фильтры по акциям

2017-05-16 в 10:36, admin, рубрики: data analysis, google analytics, google tag manager, growth hacking, jquery, json, pandas, product analytics, python, Блог компании Агентство AGIMA, веб-аналитика

data analysis

Что вас ждет в статье:
Описание подхода, который мы применили для исследования фильтров на сайте одного из наших клиентов, а также детальное описание технологий.

На кого рассчитана статья:
Статья будет интересна веб-аналитикам и всем, кто сталкивается с задачами исследования пользовательского опыта на основе количественных данных.

Дисклеймер:
Все описанное в статье является лишь мнением автора (Артем Кулбасов, веб-аналитик AGIMA) и не является единственно верным решением задачи. Многие описанные в статье технологии могут быть заменены аналогами.

Читать полностью »

Как быстрее всего сфоткать 35 билбордов в Москве

2017-04-13 в 12:02, admin, рубрики: googlemaps, pandas, python, Геоинформационные сервисы

Идеи, чем заняться на выходных, ITшники черпают из сотни разных источников. Я, к примеру, недавно увидел конкурс Открытого чемпионата школ по Экономике, заключающегося в том, чтобы сфотографировать максимальное число билбордов Чемпионата. Адреса организаторы любезно предоставили. И несмотря на то, что приз взрослому там не светит (это школьный конкурс), тем не менее крайне интересно было бы узнать, за какое минимальное время можно решить такую задачу.

Как быстрее всего сфоткать 35 билбордов в Москве - 1
Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «pandas» - 6

Анализ данных с использованием Python

Мульти-классификация Google-запросов с использованием нейросети на Python

Pygest #19. Релизы, статьи, интересные проекты, пакеты и библиотеки из мира Python [20 ноября 2017 — 5 декабря 2017]

Pygest #18. Релизы, статьи, интересные проекты, пакеты и библиотеки из мира Python [5 ноября 2017 — 15 ноября 2017]

Руководство к созданию собственного когортного отчёта по возвратности

Хронология уровня CO в атмосфере США (решение задачи Kaggle с помощью Python+Feature Engineering)

Призрак локомотива или биржевой рынок через призму корреляций

Расчет оттока клиентов банка (решение задачи с помощью Python)

Data-driven подход к продакшну – Фильтры по акциям

Как быстрее всего сфоткать 35 билбордов в Москве

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «pandas» - 6

Новости

Актуальные темы

Архив