Рубрика «pandas» - 2

Восстанавливаем результаты выборов в Государственную думу 2021 года с помощью машинного обучения

2021-11-13 в 15:29, admin, рубрики: big data, data science, pandas, plotly, python, scikit-learn, Алгоритмы, визуализация данных, выборы, Государственная дума, Инфографика, искусственный интеллект, кластеризация, машинное обучение

Результаты выборов в государственную думу, которые проходили 17-19 сентября 2021 вызывают сомнения у многих экспертов. Независимый электоральный аналитик Читать полностью »

Находим аномалии в российской статистике COVID-19

2021-11-06 в 13:22, admin, рубрики: COVID-19, matplotlib, pandas, python, визуализация данных, здоровье, коронавирус, открытые данные, статистика

Читать полностью »

Посмотрите, как Google отслеживает ваше местоположение. С Python, Jupyter, Pandas, Geopandas и Matplotlib

2021-10-03 в 11:08, admin, рубрики: geolocation, gps, jupiter, matplotlib, pandas, python, виртуализация, Геоинформационные сервисы, Глобальные системы позиционирования, хранение данных

В разделе продаж можно услышать аббревиатуру ABC: Always Be Closing. Always Be Closing означает заключение сделки с покупателем. Последнее десятилетие породило еще одну аббревиатуру ABCD: Always Be Collecting Data.

Мы используем Google для почты, карт, фотографий, хранилищ, видео и многого другого. Мы используем Twitter, чтобы читать поток сознания одного президента. Мы используем Facebook для обмена сообщениями и… ну, почти все. Но наши родители пользуются им. Мы используем TikTok… Понятия не имею, зачем.

Читать полностью »

В шоке от цен на авиабилеты по России: как летать дешевле

2021-08-16 в 4:11, admin, рубрики: diy или сделай сам, pandas, python, визуализация данных, дешевые авиабилеты, лоукостер, открытые данные

Вы продаете билетов на самолеты? - Нет, только показываю. - Красивое…

Люди делятся на два типа: одни летают за тысячу рублей из Питера во Владивосток, другие сутками скрупулезно высчитывают маршруты через Казахстан, отказываются от багажа, соглашаются на микро-кресла и в итоге все равно получают космический ценник.

Почему так происходит, как формируются цены на авиабилеты и как в итоге покупать их дешевле — рассказываю под катом.

Читать полностью »

Формат таблиц в pandas

2020-10-03 в 11:37, admin, рубрики: data analysis, data visualization, pandas, python

Если вы пока ещё не знаете как транслировать данные напрямую заказчику в подсознание или, на худой конец, текст сообщения в slack, вам пригодится информация о том, как сделать процесс интерпретации таблиц более быстрым и комфортным.

Например, в excel для этого используется условное форматирование и спарклайны. А в этой статье мы посмотрим как визуализировать данные с помощью Python и библиотеки pandas: будем использовать свойства DataFrame.style и Options and settings.

Читать полностью »

Black [O]lives Matter: раса, криминал и огонь на поражение в США. Часть 3

2020-09-10 в 0:33, admin, рубрики: api, big data, black lives matter, data mining, data science, open source, pandas, python, rest, открытые данные, полиция, США

Продолжаем наше исследование, посвященное ситуации в США со стрельбой полицейских и уровнем преступности среди представителей белой и черной (афроамериканской) рас. Напомню, что в первой части я рассказал о предпосылках исследования, его целях и принятых оговорках / допущениях; а во второй части была демонстрация анализа взаимосвязи между расовой принадлежностью, преступностью и гибелью от рук служб правопорядка.

Напомню также и промежуточные выводы, сделанные на основе статистических наблюдений (за период с 2000 по 2018 год):

Читать полностью »

Black [O]lives Matter: раса, криминал и огонь на поражение в США. Часть 2

2020-09-04 в 5:18, admin, рубрики: api, big data, black lives matter, data mining, data science, open source, pandas, python, rest, открытые данные, полиция, США

В первой части статьи я описал предпосылки для исследования, его цели, допущения, исходные данные и инструменты. Сейчас можно без дальнейших разглагольствований сказать гагаринское...

Поехали!

Импортируем библиотеки и определяем путь к директории со всеми файлами:

import pandas as pd, numpy as np

# путь к папке с исходными файлами
ROOT_FOLDER = r'c:_PROG_Projectsus_crimes'

Гибель от рук закона

Читать полностью »

Python, pandas и решение трёх задач из мира Excel

2020-05-10 в 11:14, admin, рубрики: Excel, pandas, python, анализ данных, Блог компании RUVDS.com, Занимательные задачки, Разработка веб-сайтов

Excel — это чрезвычайно распространённый инструмент для анализа данных. С ним легко научиться работать, есть он практически на каждом компьютере, а тот, кто его освоил, может с его помощью решать довольно сложные задачи. Python часто считают инструментом, возможности которого практически безграничны, но который освоить сложнее, чем Excel. Автор материала, перевод которого мы сегодня публикуем, хочет рассказать о решении с помощью Python трёх задач, которые обычно решают в Excel. Эта статья представляет собой нечто вроде введения в Python для тех, кто хорошо знает Excel.

Читать полностью »

Как помочь pandas в обработке больших объёмов данных?

2020-05-09 в 13:16, admin, рубрики: Dask, pandas, python, Блог компании RUVDS.com, разработка, Разработка веб-сайтов

Библиотека pandas — это один из лучших инструментов для разведочного анализа данных. Но это не означает, что pandas — это универсальное средство, подходящее для решения любых задач. В частности, речь идёт об обработке больших объемов данных. Мне довелось провести очень и очень много времени, ожидая, пока pandas прочтёт множество файлов, или обработает их, вычислив на основе находящихся в них сведений какие-то интересующие меня показатели. Дело в том, что pandas не поддерживает механизмы параллельной обработки данных. В результате этому пакету не удаётся на полную мощность воспользоваться возможностями современных многоядерных процессоров. Большие наборы данных в pandas обрабатываются медленно.

Недавно я задался целью найти что-то такое, что позволит помочь мне в деле обработки больших данных. Мне удалось найти то, что я искал, я встроил найденный инструмент в свой конвейер обработки данных. Я использую его для работы с большими объёмами данных. Например — для чтения файлов, содержащих 10 гигабайт данных, для их фильтрации и агрегирования. Когда я справляюсь с решением подобных задач, я сохраняю то, что у меня получилось, в CSV-файле меньшего размера, который подходит для pandas, после чего приступаю к работе с полученными данными с помощью pandas.

Вот блокнот Jupyter, содержащий примеры к этому материалу, с которыми можно поэкспериментировать.
Читать полностью »

Большой туториал по обработке спортивных данных на python

2020-05-02 в 20:42, admin, рубрики: pandas, python, анализ данных, векторизация, визуализация данных, Восстановление данных, парсинг сайтов, скраппинг, спорт, статистика

Большой туториал по обработке спортивных данных на python - 1

Последние пару лет в свободное время занимаюсь триатлоном. Этот вид спорта очень популярен во многих странах мира, в особенности в США, Австралии и Европе. В настоящее время набирает стремительную популярность в России и странах СНГ. Речь идет о вовлечении любителей, не профессионалов. В отличие от просто плавания в бассейне, катания на велосипеде и пробежек по утрам, триатлон подразумевает участие в соревнованиях и системной подготовке к ним, даже не будучи профессионалом. Наверняка среди ваших знакомых уже есть по крайней мере один “железный человек” или тот, кто планирует им стать. Массовость, разнообразие дистанций и условий, три вида спорта в одном – все это располагает к образованию большого количества данных. Каждый год в мире проходит несколько сотен соревнований по триатлону, в которых участвует несколько сотен тысяч желающих. Соревнования проводятся силами нескольких организаторов. Каждый из них, естественно, публикует результаты у себя. Но для спортсменов из России и некоторых стран СНГ, команда tristats.ru собирает все результаты в одном месте – на своем одноименном сайте. Это делает очень удобным поиск результатов, как своих, так и своих друзей и соперников, или даже своих кумиров. Но для меня это дало еще и возможность сделать анализ большого количества результатов программно. Результаты опубликиваны на трилайфе: почитать.

Это был мой первый проект подобного рода, потому как лишь недавно я начал заниматься анализом данных в принципе, а также использовать python. Поэтому хочу рассказать вам о техническом исполнении этой работы, тем более что в процессе то и дело всплывали различные нюансы, требующие иногда особого подхода. Здесь будет про скраппинг, парсинг, приведение типов и форматов, восстановление неполных данных, формирование репрезентативной выборки, визуализацию, векторизацию и даже параллельные вычисления.
Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «pandas» - 2

Восстанавливаем результаты выборов в Государственную думу 2021 года с помощью машинного обучения

Находим аномалии в российской статистике COVID-19

Посмотрите, как Google отслеживает ваше местоположение. С Python, Jupyter, Pandas, Geopandas и Matplotlib

В шоке от цен на авиабилеты по России: как летать дешевле

Формат таблиц в pandas

Black [O]lives Matter: раса, криминал и огонь на поражение в США. Часть 3

Black [O]lives Matter: раса, криминал и огонь на поражение в США. Часть 2

Поехали!

Гибель от рук закона

Python, pandas и решение трёх задач из мира Excel

Как помочь pandas в обработке больших объёмов данных?

Большой туториал по обработке спортивных данных на python

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «pandas» - 2

Поехали!

Гибель от рук закона

Новости

Актуальные темы

Архив