Есть два отличных пакета для работы с данными в R — dplyr
и data.table
. У каждого пакета свои сильные стороны. dplyr
элегантнее и похож на естественный язык, в то время как data.table
лаконичный, с его помощью многое можно сделать всего в одну строку. Более того, в некоторых случаях data.table
быстрее (сравнительный анализ доступен здесь), и это может определить выбор, если есть ограничения по памяти или производительности. Сравнение dplyr
и data.table
можно также почитать на Stack Overflow и Quora.
Здесь можно найти руководство и краткое описание data.table
, а здесь — для dplyr
. Также можно почитать обучающие материалы по dplyr
на DataScience+.
Контекст
Я уже долго использую dplyr
и data.table
для работы с данными. Если кто-то знаком только с одним из пакетов, возможно, будет полезно посмотреть на код, выполняющий одно и то же, в обоих, чтобы изучить второй.
dplyr
В dplyr
есть пять глаголов, предназначенных для выполнения большинства операций по работе с данными. Select — для выбора одного или более столбцов. Filter — для выбора строк на основании каких-либо критериев. Arrange — для сортировки данных по одному или нескольким столбцам по возрастанию или убыванию. Mutate — для добавления к данным новых столбцов. Summarise — для выделения части данных.
data.table
У data.table
очень короткий общий формат — DT[i, j, by], который можно интерпретировать так: возьмите DT, выберите строки, используя i, и вычислите j, сгруппировав по by.
Работа с данными
Сначала установим некоторые пакеты для нашего проекта.
library(dplyr)
library(data.table)
library(lubridate)
library(jsonlite)
library(tidyr)
library(ggplot2)
library(compare)
Будем использовать данные из DATA.GOV. Это данные о выплатах по искам государственного медицинского страхования, их можно загрузить отсюда. Загрузим данные в формате JSON с помощью функции fromJSON
пакета jsonlite
. Поскольку JSON — стандартный формат данных для асинхронного взаимодействия между браузером и сервером, полезно разобраться в коде ниже, с помощью которого получают данные. Введение в работу с JSON-данными с пакетом jsonlite
можно найти здесь и здесь. Однако, если вы хотите сосредоточиться только на командах dplyr
и data.table
, можно спокойно запустить код ниже в двух разных окнах и не вникать в подробности.
spending=fromJSON("https://data.medicare.gov/api/views/nrth-mfg3/rows.json?accessType=DOWNLOAD")
names(spending)
"meta" "data"
meta=spending$meta
hospital_spending=data.frame(spending$data)
colnames(hospital_spending)=make.names(meta$view$columns$name)
hospital_spending=select(hospital_spending,-c(sid:meta))
glimpse(hospital_spending)
Observations: 70598
Variables:
$ Hospital.Name (fctr) SOUTHEAST ALABAMA MEDICAL CENT...
$ Provider.Number. (fctr) 010001, 010001, 010001, 010001...
$ State (fctr) AL, AL, AL, AL, AL, AL, AL, AL...
$ Period (fctr) 1 to 3 days Prior to Index Hos...
$ Claim.Type (fctr) Home Health Agency, Hospice, I...
$ Avg.Spending.Per.Episode..Hospital. (fctr) 12, 1, 6, 160, 1, 6, 462, 0, 0...
$ Avg.Spending.Per.Episode..State. (fctr) 14, 1, 6, 85, 2, 9, 492, 0, 0,...
$ Avg.Spending.Per.Episode..Nation. (fctr) 13, 1, 5, 117, 2, 9, 532, 0, 0...
$ Percent.of.Spending..Hospital. (fctr) 0.06, 0.01, 0.03, 0.84, 0.01, ...
$ Percent.of.Spending..State. (fctr) 0.07, 0.01, 0.03, 0.46, 0.01, ...
$ Percent.of.Spending..Nation. (fctr) 0.07, 0.00, 0.03, 0.58, 0.01, ...
$ Measure.Start.Date (fctr) 2014-01-01T00:00:00, 2014-01-0...
$ Measure.End.Date (fctr) 2014-12-31T00:00:00, 2014-12-3...
Как показано выше, все столбцы импортированы как факторные переменные. Давайте сделаем числовые данные числами.
cols = 6:11; # Это столбцы, которые надо сделать числовыми
hospital_spending[,cols] <- lapply(hospital_spending[,cols], as.numeric)
Последние два столбца указывают начало и конец измерения. Давайте используем пакет lubridate
, чтобы исправить их.
cols = 12:13; # Эти столбцы надо заменить на даты
hospital_spending[,cols] <- lapply(hospital_spending[,cols], ymd_hms)
Теперь давайте убедимся, что столбцы имеют правильный тип.
sapply(hospital_spending, class)
$Hospital.Name
"factor"
$Provider.Number.
"factor"
$State
"factor"
$Period
"factor"
$Claim.Type
"factor"
$Avg.Spending.Per.Episode..Hospital.
"numeric"
$Avg.Spending.Per.Episode..State.
"numeric"
$Avg.Spending.Per.Episode..Nation.
"numeric"
$Percent.of.Spending..Hospital.
"numeric"
$Percent.of.Spending..State.
"numeric"
$Percent.of.Spending..Nation.
"numeric"
$Measure.Start.Date
"POSIXct" "POSIXt"
$Measure.End.Date
"POSIXct" "POSIXt"
Создать таблицу с данными
Можно создать таблицу с данными (data.table) с помощью функции data.table()
:
hospital_spending_DT = data.table(hospital_spending)
class(hospital_spending_DT)
"data.table" "data.frame"
Выбрать некоторые столбцы
Чтобы выбрать столбцы в dplyr
, используем глагол select
. В data.table
, в свою очередь, можно задать имена столбцов.
Выбор одной переменной
Выберем переменную «Hospital Name».
from_dplyr = select(hospital_spending, Hospital.Name)
from_data_table = hospital_spending_DT[,.(Hospital.Name)]
Теперь нужно убедиться, что результаты dplyr
и data.table
одинаковы.
compare(from_dplyr,from_data_table, allowAll=TRUE)
TRUE
dropped attributes
Удаление одной переменной
from_dplyr = select(hospital_spending, -Hospital.Name)
from_data_table = hospital_spending_DT[,!c("Hospital.Name"),with=FALSE]
compare(from_dplyr,from_data_table, allowAll=TRUE)
TRUE
dropped attributes
Также можно взять функцию :=
, изменяющую входную таблицу данных (data.table) по ссылке.
Используем и функцию copy()
, создающую копию исходного объекта, т.е. любая следующая операция над данными по ссылке на копию не затронет начальный объект.
DT=copy(hospital_spending_DT)
DT=DT[,Hospital.Name:=NULL]
"Hospital.Name"%in%names(DT)
FALSE
Аналогично можно одновременно удалить несколько переменных:
DT=copy(hospital_spending_DT)
DT=DT[,c("Hospital.Name","State","Measure.Start.Date","Measure.End.Date"):=NULL]
c("Hospital.Name","State","Measure.Start.Date","Measure.End.Date")%in%names(DT)
FALSE FALSE FALSE FALSE
Выбор нескольких переменных
Давайте выберем переменные Hospital.Name, State, Measure.Start.Date и Measure.End.Date.
from_dplyr = select(hospital_spending, Hospital.Name,State,Measure.Start.Date,Measure.End.Date)
from_data_table = hospital_spending_DT[,.(Hospital.Name,State,Measure.Start.Date,Measure.End.Date)]
compare(from_dplyr,from_data_table, allowAll=TRUE)
TRUE
dropped attributes
Удаление нескольких переменных
Давайте теперь удалим переменные Hospital.Name, State, Measure.Start.Date и Measure.End.Date из исходного набора данных hospital_spending и таблицы данных (data.table) hospital_spending_DT.
from_dplyr = select(hospital_spending, -c(Hospital.Name,State,Measure.Start.Date,Measure.End.Date))
from_data_table = hospital_spending_DT[,!c("Hospital.Name","State","Measure.Start.Date","Measure.End.Date"),with=FALSE]
compare(from_dplyr,from_data_table, allowAll=TRUE)
TRUE
dropped attributes
В dplyr
есть функции contains()
, starts_with()
и ends_with()
, которые можно использовать с глаголом select
. В data.table
разрешены регулярные выражения. В качестве примера выберем столбцы, содержащие в имени слово «Date».
from_dplyr = select(hospital_spending,contains("Date"))
from_data_table = subset(hospital_spending_DT,select=grep("Date",names(hospital_spending_DT)))
compare(from_dplyr,from_data_table, allowAll=TRUE)
TRUE
dropped attributes
names(from_dplyr)
"Measure.Start.Date" "Measure.End.Date"
Переименовать столбцы
setnames(hospital_spending_DT,c("Hospital.Name", "Measure.Start.Date","Measure.End.Date"), c("Hospital","Start_Date","End_Date"))
names(hospital_spending_DT)
"Hospital" "Provider.Number." "State" "Period" "Claim.Type" "Avg.Spending.Per.Episode..Hospital." "Avg.Spending.Per.Episode..State." "Avg.Spending.Per.Episode..Nation." "Percent.of.Spending..Hospital." "Percent.of.Spending..State." "Percent.of.Spending..Nation." "Start_Date" "End_Date"
hospital_spending = rename(hospital_spending,Hospital= Hospital.Name, Start_Date=Measure.Start.Date,End_Date=Measure.End.Date)
compare(hospital_spending,hospital_spending_DT, allowAll=TRUE)
TRUE
dropped attributes
Автор: Инфопульс Украина