Рубрика «pandas»

Экономия RAM с pandas.read_sql

2025-03-28 в 12:16, admin, рубрики: pandas, sql, оптимизация памяти

Рассмотрим потребление оперативной памяти (RAM) при загрузке pandas DataFrame из базы данных (БД).

Для этого воспользуемся мониторингом ресурсов на базе библиотеки psutil. Мониторинг фиксирует pss («Proportional Set Size») память, т. е. физически занимаемую процессом.

Используем небольшую таблицу синтетических транзакций:

Читать полностью »

Как мы искали должников при помощи Pandas

2025-03-17 в 18:12, admin, рубрики: pandas, sql, города, Петербург, Питон, урбанистика

Петербургский Фонд капитального ремонта опубликовал документы, в которых указана задолженность за каждую квартиру в городе по итогам 2024 года. Мы изучили эти файлы, чтобы ответить на вопрос: где и почему хуже всего платят за ремонт в своём доме.

Я занимаюсь анализом данных и дата-журналистикой в газете "Деловой Петербург". Расскажу о том, как объединяли информацию из множества локальных html-таблиц и приведу примеры кода на "Питоне".

Читать полностью »

Python для начинающих дата-аналитиков: как настроить виртуальное окружение?

2025-03-10 в 15:16, admin, рубрики: data analysis, jupyter notebook, pandas, pip, python, UV, venv

Введение

Привет! Меня зовут Женя и я работаю аналитиком данных. В этой статье я бы хотел рассказать начинающим аналитикам о том, как правильно настроить окружение для работы с Python. Когда я только начинал заниматься анализом данных, концепция питоновского виртуального окружения вводила меня в ступор, и здесь я постараюсь показать, что в ней нет ничего сложного.

Для этого мы:

Установим Python
Создадим и активируем виртуальное окружение при помощи базовых инструментов pip и venv
В качестве примера установим библиотеки notebook и pandas
Читать полностью »

Полный цикл аналитической разработки за пару минут

2025-01-14 в 8:15, admin, рубрики: ‎analitycs‬, BI, metabase, pandas

Сталкивались ли вы в вашей компании с проблемами?

Невозможностью по-быстрому создать таблицу. Вместо этого нужно катить миграцию, получать апрувы от DWH, следить за тем чтобы таблица была производительна и тд
Вам не нравится BI вашей компании или нравится но но хотелось бы делать визуализацию быстрее.

Если да, то эта статья для вас!

*Эта статья написана аналитиком для аналитиков! Если вы разработчик, DevOps или не дай бог DBA - уходите!
Читать полностью »

Создаём свой реестр данных на основе ФГИС «Аршин». Часть 1 — добавляем данные в PostgreSQL и сокращаем размер БД

2024-10-19 в 8:15, admin, рубрики: pandas, postgresql, sqlalchemy, АРШИН, обработка данных, реестр данных

Всем привет. Этот практический цикл статей рассчитан на начинающих. Я решил поделиться своим опытом создания реестра данных на основе государственного. Данные будут храниться в базе данных PostgreSQL, доступ к ним будет осуществляться через Fast API. В текущей статье займёмся загрузкой данных в базу и уменьшением её размеров.

Введение

Нам предстоит работать с данными о результатах поверки средств измерений, которые будем загружать из раздела сайта «Результаты поверок СИ Читать полностью »

Как простые NLP модели видят слова? | NLP | Пишем свой TF-IDF

2024-08-17 в 12:15, admin, рубрики: AI, deeplearning, jupyter notebook, machinelearning, math, nlp, numpy, pandas, python, tfidfvectorizer

Как модели видят наш текст?

Когда начинаешь погружаться в сферу NLP, сразу задумываешься, как модели представляют себе наш текст/наши слова? Ведь не логично бы звучало, если модель обрабатывала наши слова, как обычную последовательность букв. Это было бы не удобно и не понятно(как проводить операции со словами?).

Есть разные методы преобразования слов. Один из самых известных для не самых сложных моделей: TF-IDF.

Как работает TF-IDF?

TF-IDF(Term Frequency-Inverse Document Frequency) — это метод, который преобразует слова в числовые векторы, что делает их более понятными для моделей машинного обучения.

Читать полностью »

Интегрируем pandas с электронными таблицами: три способа

2024-08-17 в 11:15, admin, рубрики: csv, Excel, google spreadsheets, pandas, pandas dataframe, python, биоинформатика

Открываем и сохраняем файлы Excel в pandas

Pandas идеально подходит для работы с табличными данными – он способен открывать файлы Excel и проводить внутри преобразования. Более того, сохранить датафрейм тоже можно в файл Excel. Это делает удобной интеграцию pandas с офисным пакетом: результаты можно сразу красиво оформить для выступления на конференции или передачи коллегам, которые занимаются только “мокрой” биологией и не работают с инструментами data science.

Давайте посмотрим, как это делается. Если мы импортировали pandas под именем pd:

import pandas as pd

то считать фрейм данных из файла Excel можно следующим образом:Читать полностью »

Простые инструменты для пайплайнов: sqlite, pandas, gnuplot и другие

2023-09-16 в 8:59, admin, рубрики: bash, curl, Gnuplot, pandas, python3, sqlite3

Почему мой любимый API — это zip-файл на сайте Европейского центрального банка?

Когда доллар был самым высоким по отношению к евро?

Вот небольшая программа, которая это вычисляет:

curl -s https://www.ecb.europa.eu/stats/eurofxref/eurofxref-hist.zip 
| gunzip 
| sqlite3 -csv ':memory:' '.import /dev/stdin stdin' 
  "select Date from stdin order by USD asc limit 1;"

Вывод: 26.10.2000. (Попробуйте запустить его самостоятельно.)

Как это работает:

сurl загружает официальные исторические данные, которые публикует Европейский центральный банк Читать полностью »

Работа с поверхностными и глубокими копиями в Python

2022-12-02 в 13:00, admin, рубрики: data engineering, numpy, pandas, python, ruvds_перевод, Блог компании RUVDS.com, глубокое копирование, датафреймы, копирование данных, Программирование

В этой статье объясняется, как делать копии списков Python, массивов NumPy и датафреймов Pandas при помощи операций получения срезов, списочного индексирования (fancy indexing) и логического (boolean indexing). Эти операции очень часто используются при анализе данных и должны рассматриваться всерьёз, поскольку ошибочные предположения могут привести к падению быстродействия или неожиданным результатам.

Python кажется простым, но всякий раз, возвращаясь к его азам, ты находишь новые для освоения вещи. Здесь на ум приходит известное изречение Эйнштейна:

«Чем больше я узнаю, тем больше понимаю, как много я ещё не знаю».

Читать полностью »

Преступность в США и России: сравнительный обзор

2022-01-27 в 1:24, admin, рубрики: geopandas, pandas, python, визуализация данных, Инфографика, открытые данные, преступления, Россия, статистика, статистический анализ, США

Мотивация и цель исследования

Цель исследования -- на основе анализа открытых статистических данных сравнить ситуацию с преступностью в США и России и попытаться понять:

какие преступления количественно преобладают;
как изменяется преступность по годам;
каков уровень преступности в удельном выражении (на 1 млн. населения);
как указанные параметры распределяются территориально -- по штатам США и регионам России.

Источники данных

Для анализа используются только открытые официальные данные:

Количество совершенных преступлений по основным преступлениям (Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «pandas»

Экономия RAM с pandas.read_sql

Как мы искали должников при помощи Pandas

Python для начинающих дата-аналитиков: как настроить виртуальное окружение?

Введение

Полный цикл аналитической разработки за пару минут

Создаём свой реестр данных на основе ФГИС «Аршин». Часть 1 — добавляем данные в PostgreSQL и сокращаем размер БД

Введение

Как простые NLP модели видят слова? | NLP | Пишем свой TF-IDF

Как модели видят наш текст?

Как работает TF-IDF?

Интегрируем pandas с электронными таблицами: три способа

Открываем и сохраняем файлы Excel в pandas

Простые инструменты для пайплайнов: sqlite, pandas, gnuplot и другие

Работа с поверхностными и глубокими копиями в Python

Преступность в США и России: сравнительный обзор

Мотивация и цель исследования

Источники данных

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «pandas»

Введение

Введение

Как модели видят наш текст?

Как работает TF-IDF?

Открываем и сохраняем файлы Excel в pandas

Мотивация и цель исследования

Источники данных

Новости

Актуальные темы

Архив