replyr
— сокращение от REmote PLYing of big data for R (удаленная обработка больших данных в R).
Почему стоит попробовать replyr
? Потому что он позволяет применять стандартные рабочие подходы к удаленным данным (базы данных или Spark).
Можно работать так же, как и с локальным data.frame
. replyr
предоставляет такие возможности:
- Обобщение данных:
replyr_summary()
.
- Объединение таблиц:
replyr_union_all()
.
- Связывание таблиц по строкам:
replyr_bind_rows()
.
- Использование функций разделения, объединения, комбинирования (
dplyr::do()
): replyr_split()
, replyr::gapply()
.
- Аггрегирование/распределение:
replyr_moveValuesToRows()
/ replyr_moveValuesToColumns()
.
- Отслеживание промежуточных результатов.
- Контроллер объединений.
Скорее всего, вы всё это делаете с данными локально, поэтому такие возможности сделают работу со Spark
и sparklyr
гораздо легче.
replyr
— продукт коллективного опыта использования R в прикладных решениях для многих клиентов, сбора обратной связи и исправления недостатков.
Примеры ниже.
Читать полностью »