replyr
— сокращение от REmote PLYing of big data for R (удаленная обработка больших данных в R).
Почему стоит попробовать replyr
? Потому что он позволяет применять стандартные рабочие подходы к удаленным данным (базы данных или Spark).
Можно работать так же, как и с локальным data.frame
. replyr
предоставляет такие возможности:
- Обобщение данных:
replyr_summary()
. - Объединение таблиц:
replyr_union_all()
. - Связывание таблиц по строкам:
replyr_bind_rows()
. - Использование функций разделения, объединения, комбинирования (
dplyr::do()
):replyr_split()
,replyr::gapply()
. - Аггрегирование/распределение:
replyr_moveValuesToRows()
/replyr_moveValuesToColumns()
. - Отслеживание промежуточных результатов.
- Контроллер объединений.
Скорее всего, вы всё это делаете с данными локально, поэтому такие возможности сделают работу со Spark
и sparklyr
гораздо легче.
replyr
— продукт коллективного опыта использования R в прикладных решениях для многих клиентов, сбора обратной связи и исправления недостатков.
Примеры ниже.
Читать полностью »