Рубрика «pandas» - 5

Ускорение разведочного анализа данных с использованием библиотеки pandas-profiling

2019-05-13 в 9:30, admin, рубрики: pandas, pandas-profiling, python, анализ данных, Анализ и проектирование систем, Блог компании RUVDS.com, Программирование, хранение данных

Первым делом, приступая к работе с новым набором данных, нужно понять его. Для того чтобы это сделать, нужно, например, выяснить диапазоны значений, принимаемых переменными, их типы, а также узнать о количестве пропущенных значений.

Библиотека pandas предоставляет нам множество полезных инструментов для выполнения разведочного анализа данных (Exploratory Data Analysis, EDA). Но, прежде чем воспользоваться ими, обычно нужно начать с функций более общего плана, таких как df.describe(). Правда, надо отметить, что возможности, предоставляемые подобными функциями, ограничены, а начальные этапы работы с любыми наборами данных при выполнении EDA очень часто сильно похожи друг на друга.

Автор материала, который мы сегодня публикуем, говорит, что он — не любитель выполнения повторяющихся действий. В результате он, в поисках средств, позволяющих быстро и эффективно выполнять разведочный анализ данных, нашёл библиотеку pandas-profiling. Результаты её работы выражаются не в виде неких отдельных показателей, а в форме довольно подробного HTML-отчёта, содержащего большую часть тех сведений об анализируемых данных, которые может понадобиться знать перед тем, как приступать к более плотной работе с ними.
Читать полностью »

Как Netflix использует Питон

2019-05-07 в 17:53, admin, рубрики: Bless, bolt, flask, Jupyter Notebooks, Lemur, Metaflow, netflix, numpy, open source, pandas, Prism, python, Repokid, ruptures, scipy, Security Monkey, Spectator, TensorFlow, Winston, высокая производительность, машинное обучение

Как Netflix использует Питон - 1

Поскольку многие из нас готовятся к конференции PyCon, мы хотели немного рассказать, как Python используется в Netflix. Мы применяем Python на всём жизненном цикле: от принятия решения, какие сериалы финансировать, и заканчивая работой CDN для отгрузки видео 148 миллионам пользователей. Мы вносим свой вклад во многие пакеты Python с открытым исходным кодом, некоторые из которых упомянуты ниже. Если что-то вас интересует, посмотрите наш сайт вакансий или ищите нас на PyCon.
Читать полностью »

Хабрарейтинг: построение облака русскоязычных слов на примере заголовков Хабра

2019-03-05 в 13:28, admin, рубрики: data science, pandas, pymorphy, python, веб-аналитика, Социальные сети и сообщества, статистика, Статистика в IT, хабр

Привет.

В последней части Хабрарейтинга был опубликован метод построения облака слов для англоязычных терминов. Разумеется, задача парсинга русских слов является гораздо более сложной, но как подсказали в комментариях, для этого существуют готовые библиотеки.

Разберемся, как строить такую картинку:

Хабрарейтинг: построение облака русскоязычных слов на примере заголовков Хабра - 1

Также посмотрим облако статей Хабра за все годы.

Кому интересно, что получилось, прошу под кат.
Читать полностью »

Руководство по использованию pandas для анализа больших наборов данных

2019-03-04 в 9:10, admin, рубрики: big data, pandas, python, анализ данных, Анализ и проектирование систем, Блог компании RUVDS.com, хранение данных

При использовании библиотеки pandas для анализа маленьких наборов данных, размер которых не превышает 100 мегабайт, производительность редко становится проблемой. Но когда речь идёт об исследовании наборов данных, размеры которых могут достигать нескольких гигабайт, проблемы с производительностью могут приводить к значительному увеличению длительности анализа данных и даже могут становиться причиной невозможности проведения анализа из-за нехватки памяти.

В то время как инструменты наподобие Spark могут эффективно обрабатывать большие наборы данных (от сотен гигабайт до нескольких терабайт), для того чтобы полноценно пользоваться их возможностями обычно нужно достаточно мощное и дорогое аппаратное обеспечение. И, в сравнении с pandas, они не отличаются богатыми наборами средств для качественного проведения очистки, исследования и анализа данных. Для наборов данных средних размеров лучше всего попытаться более эффективно использовать pandas, а не переходить на другие инструменты.

В материале, перевод которого мы публикуем сегодня, мы поговорим об особенностях работы с памятью при использовании pandas, и о том, как, просто подбирая подходящие типы данных, хранящихся в столбцах табличных структур данных DataFrame, снизить потребление памяти почти на 90%.
Читать полностью »

Хабрамегарейтинг: лучшие статьи и статистика Хабра за 12 лет. Часть 1-2

2019-03-01 в 21:01, admin, рубрики: data science, matplotlib, pandas, python, веб-аналитика, Исследования и прогнозы в IT, Социальные сети и сообщества, статистика, Статистика в IT, хабр

После публикации рейтинга статей за 2017 и 2018 год, следующая идея была очевидна — собрать обобщенный рейтинг за все годы. Но просто собрать ссылки было бы банально (хотя и тоже полезно), поэтому было решено расширить обработку данных и собрать еще немного полезной информации.

Хабрамегарейтинг: лучшие статьи и статистика Хабра за 12 лет. Часть 1-2 - 1

Рейтинги, статистика и немного исходного кода на Python под катом.Читать полностью »

Хабрарейтинг 2018: лучшие материалы за 2018 год

2019-02-22 в 21:25, admin, рубрики: 2018, data science, matplotlib, pandas, python, веб-аналитика, Программирование, Социальные сети и сообщества, статистика, Статистика в IT

Данный пост является логическим завершением публикаций про жизненный цикл статьи на Хабре (первая и вторая части), в результате чего был сделан достаточно интересный инструмент для статистического анализа. Методика оказалась весьма полезной, и позволяет находить статьи по различным параметрам, например, статьи с самым высоким «качеством» (соотношением рейтинга к числу просмотров), самые «спорные» статьи, у которых больше всего полярных комментариев, самые комментируемые материалы, и пр.
Хабрарейтинг 2018: лучшие материалы за 2018 год - 1

Пора теперь извлечь из этого какую-то пользу, и составить статистический рейтинг статей за 2018 год. В идеале это хорошо было бы сделать к началу Нового Года, но умные мысли бывает, приходят с запозданием. Но лучше поздно чем никогда, это позволит перечитать какие-то полезные статьи тем, кто пропустил их в свое время. И небольшой «секретный бонус» в конце текста для тех, кто будет достаточно любопытен.

Тех, кому интересно что получилось, прошу под кат.
Читать полностью »

Как без особенных усилий создать ИИ-расиста

2019-01-17 в 14:48, admin, рубрики: ConceptNet Numberbatch, glove, matplotlib, numpy, pandas, python, scikit-learn, scipy, seaborn, word2vec, анализ тональности, дерево синтаксического анализа, искусственный интеллект, классификатор, машинное обучение, сентимент-анализ

Предостерегающий урок.

Сделаем классификатор тональности!

Анализ тональности (сентимент-анализ) — очень распространённая задача в обработке естественного языка (NLP), и это неудивительно. Для бизнеса важно понимать, какие мнения высказывают люди: положительные или отрицательные. Такой анализ используется для мониторинга социальных сетей, обратной связи с клиентами и даже в алгоритмической биржевой торговле (в результате боты покупают акции Berkshire Hathaway после публикации положительных отзывов о роли Энн Хэтэуэй в последнем фильме).

Метод анализа иногда слишком упрощён, но это один из самых простых способов получить измеримые результаты. Просто подаёте текст — и на выходе положительные и отрицательные оценки. Не нужно разбираться с деревом синтаксического анализа, строить граф или какое-то другое сложное представление.
Читать полностью »

Time Series Modelling

2019-01-16 в 8:36, admin, рубрики: data science, jupyter notebook, pandas, python, математика

This is a short article about understanding time series and main characteristics behind that.

Problem statement

We have time-series data with daily and weekly regularity. We want to ﬁnd the way how to model this data in an optimal way.

Time Series Modelling - 1
Читать полностью »

Идентификация мошенничества с использованием Enron dataset. Часть 2-ая, поиск оптимальной модели

2018-10-07 в 12:41, admin, рубрики: enron, pandas, python, seaborn, классификация, машинное обучение

Представляю вашему вниманию вторую часть статьи о поиске подозреваемых в мошениничестве на основе данных из Enron Dataset. Если вы не читали первую часть, ознакомиться с ней можно здесь.

Сейчас речь пойдет про процесс построения, оптимизации и выбора модели, которая даст ответ: стоит ли подозревать человека в мошеничестве?

Читать полностью »

Идентификация мошенничества с использованием Enron dataset. Часть 1-ая, подготовка данных и отбор признков

2018-09-30 в 9:57, admin, рубрики: enron, pandas, python, seaborn, классификация, машинное обучение

Корпорация Enron — это одна из наиболее известных фигур в американском бизнесе 2000-ых годов. Этому способствовала не их сфера деятельности (электроэнергия и контракты на ее поставку), а резонанс в связи с мошенничеством в ней. В течении 15 лет доходы корпорации стремительно росли, а работа в ней сулила неплохую заработную плату. Но закончилось всё так же быстротечно: в период 2000-2001гг. цена акций упала с 90$/шт практически до нуля по причине вскрывшегося мошенничества с декларируемыми доходами. С тех пор слово "Enron" стало нарицательным и выступает в качестве ярлыка для компаний, которые действуют по аналогичной схеме.

В ходе судебного разбирательства, 18 человек (в том числе крупнейшие фигуранты данного дела: Эндрю Фастов, Джефф Скиллинг и Кеннет Лей) были осуждены.

image![image](http://https://habrastorage.org/webt/te/rh/1l/terh1lsenbtg26n8nhjbhv3opfi.jpeg)

Вместе с тем были опубликованы архив электронной переписки между сотрудниками компании, более известный как Enron Email Dataset, и инсайдерская информация о доходах сотрудников данной компании.

В статье будут рассмотрены источники этих данных и на основе их построена модель, позволяющая определить, является ли человек подозреваемым в мошенничестве. Звучит интересно? Тогда, добро пожаловать под хабракат. Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «pandas» - 5

Ускорение разведочного анализа данных с использованием библиотеки pandas-profiling

Как Netflix использует Питон

Хабрарейтинг: построение облака русскоязычных слов на примере заголовков Хабра

Руководство по использованию pandas для анализа больших наборов данных

Хабрамегарейтинг: лучшие статьи и статистика Хабра за 12 лет. Часть 1-2

Хабрарейтинг 2018: лучшие материалы за 2018 год

Как без особенных усилий создать ИИ-расиста

Time Series Modelling

Problem statement

Идентификация мошенничества с использованием Enron dataset. Часть 2-ая, поиск оптимальной модели

Идентификация мошенничества с использованием Enron dataset. Часть 1-ая, подготовка данных и отбор признков

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «pandas» - 5

Problem statement

Новости

Актуальные темы

Архив