Рубрика «pandas»

Всем привет. Этот практический цикл статей рассчитан на начинающих. Я решил поделиться своим опытом создания реестра данных на основе государственного. Данные будут храниться в базе данных PostgreSQL, доступ к ним будет осуществляться через Fast API. В текущей статье займёмся загрузкой данных в базу и уменьшением её размеров.

Введение

Нам предстоит работать с данными о результатах поверки средств измерений, которые будем загружать из раздела сайта «Результаты поверок СИЧитать полностью »

Как модели видят наш текст?

Когда начинаешь погружаться в сферу NLP, сразу задумываешься, как модели представляют себе наш текст/наши слова? Ведь не логично бы звучало, если модель обрабатывала наши слова, как обычную последовательность букв. Это было бы не удобно и не понятно(как проводить операции со словами?).

Есть разные методы преобразования слов. Один из самых известных для не самых сложных моделей: TF-IDF.

Как работает TF-IDF?

TF-IDF(Term Frequency-Inverse Document Frequency) — это метод, который преобразует слова в числовые векторы, что делает их более понятными для моделей машинного обучения.

Читать полностью »

Открываем и сохраняем файлы Excel в pandas

Pandas идеально подходит для работы с табличными данными – он способен открывать файлы Excel и проводить внутри преобразования. Более того, сохранить датафрейм тоже можно в файл Excel. Это делает удобной интеграцию pandas с офисным пакетом: результаты можно сразу красиво оформить для выступления на конференции или передачи коллегам, которые занимаются только “мокрой” биологией и не работают с инструментами data science.

Давайте посмотрим, как это делается. Если мы импортировали pandas под именем pd:

import pandas as pd

то считать фрейм данных из файла Excel можно следующим образом:Читать полностью »

Почему мой любимый API — это zip-файл на сайте Европейского центрального банка?

Когда доллар был самым высоким по отношению к евро?

Вот небольшая программа, которая это вычисляет:

curl -s https://www.ecb.europa.eu/stats/eurofxref/eurofxref-hist.zip 
| gunzip 
| sqlite3 -csv ':memory:' '.import /dev/stdin stdin' 
  "select Date from stdin order by USD asc limit 1;"

Вывод: 26.10.2000. (Попробуйте запустить его самостоятельно.)

Как это работает:

сurl загружает официальные исторические данные, которые публикует Европейский центральный банкЧитать полностью »

Работа с поверхностными и глубокими копиями в Python - 1


В этой статье объясняется, как делать копии списков Python, массивов NumPy и датафреймов Pandas при помощи операций получения срезов, списочного индексирования (fancy indexing) и логического (boolean indexing). Эти операции очень часто используются при анализе данных и должны рассматриваться всерьёз, поскольку ошибочные предположения могут привести к падению быстродействия или неожиданным результатам.

Python кажется простым, но всякий раз, возвращаясь к его азам, ты находишь новые для освоения вещи. Здесь на ум приходит известное изречение Эйнштейна:

«Чем больше я узнаю, тем больше понимаю, как много я ещё не знаю».

Читать полностью »

Мотивация и цель исследования

Цель исследования -- на основе анализа открытых статистических данных сравнить ситуацию с преступностью в США и России и попытаться понять:

  • какие преступления количественно преобладают;

  • как изменяется преступность по годам;

  • каков уровень преступности в удельном выражении (на 1 млн. населения);

  • как указанные параметры распределяются территориально -- по штатам США и регионам России.

Источники данных

Для анализа используются только открытые официальные данные:

  1. Количество совершенных преступлений по основным преступлениям (Читать полностью »

Восстанавливаем результаты выборов в Государственную думу 2021 года с помощью машинного обучения - 1

Результаты выборов в государственную думу, которые проходили 17-19 сентября 2021 вызывают сомнения у многих экспертов. Независимый электоральный аналитик Читать полностью »

В разделе продаж можно услышать аббревиатуру ABC: Always Be Closing. Always Be Closing означает заключение сделки с покупателем. Последнее десятилетие породило еще одну аббревиатуру ABCD: Always Be Collecting Data

Мы используем Google для почты, карт, фотографий, хранилищ, видео и многого другого. Мы используем Twitter, чтобы читать поток сознания одного президента. Мы используем Facebook для обмена сообщениями и… ну, почти все. Но наши родители пользуются им. Мы используем TikTok… Понятия не имею, зачем. 

Читать полностью »

Вы продаете билетов на самолеты? - Нет, только показываю. - Красивое…

Люди делятся на два типа: одни летают за тысячу рублей из Питера во Владивосток, другие сутками скрупулезно высчитывают маршруты через Казахстан, отказываются от багажа, соглашаются на микро-кресла и в итоге все равно получают космический ценник.

Почему так происходит, как формируются цены на авиабилеты и как в итоге покупать их дешевле — рассказываю под катом.

Читать полностью »

https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js