Рубрика «R» - 16

Лучшие пакеты для работы с данными в R, часть 1

2016-05-30 в 5:03, admin, рубрики: data mining, R, Блог компании Инфопульс Украина

Есть два отличных пакета для работы с данными в R — dplyr и data.table. У каждого пакета свои сильные стороны. dplyr элегантнее и похож на естественный язык, в то время как data.table лаконичный, с его помощью многое можно сделать всего в одну строку. Более того, в некоторых случаях data.table быстрее (сравнительный анализ доступен здесь), и это может определить выбор, если есть ограничения по памяти или производительности. Сравнение dplyr и data.table можно также почитать на Stack Overflow и Quora.

Здесь можно найти руководство и краткое описание data.table, а здесь — для dplyr. Также можно почитать обучающие материалы по dplyr на DataScience+.
Читать полностью »

Рост хоккеистов: анализируем данные всех чемпионатов мира в текущем веке

2016-05-24 в 4:00, admin, рубрики: cohort analysis, cohort effect, data mining, exploratory data analysis, IIHF, R, визуализация данных, когортный анализ, когортный эффект, открытые данные, Программирование, регрессия, рост спортсменов, сборная России, спортивная аналитика, хоккей, чемпионат мира по хоккею 2016, метки: IIHF, регрессия, рост спортсменов, сборная России, хоккей, чемпионат мира по хоккею 2016

На днях завершился очередной чемпионат мира по хоккею.

За просмотром матчей родилась идея. Когда в перерывах телевизионная камера показывает уходящих в раздевалку игроков, трудно не заметить, насколько они огромные. На фоне тренеров, функционеров команд, сотрудников ледовой арены, журналистов или просто фанатов они, как правило, выглядят очень внушительно.

Вот, к примеру, восходящие звезды финского хоккея, Патрик Лайне и Александр Барков, вместе с преданными поклонниками

Рост хоккеистов: анализируем данные всех чемпионатов мира в текущем веке - 2

Источник

И я задался вопросами. Действительно ли хоккеисты выше обычных людей? Как изменяется рост хоккеистов со временем в сравнении с обычными людьми? Есть ли устойчивые межстрановые различия?

Читать полностью »

R в Microsoft Azure для победы на хакатоне. Инструкция по применению

2016-05-19 в 2:07, admin, рубрики: big data, Microsoft Azure, R, машинное обучение, Облачные вычисления, хакатон

Стандартный план любого хакатона ↓
Microsoft Azure Machine Learning Hackathon
R, один из популярнейших языков программирования среди data scientist'ов, получает все большую и большую поддержку как среди opensource-сообщества, так и среди частных компаний, которые традиционно являлись разработчиками проприетарных продуктов. Среди таких компаний – Microsoft, чья интенсивно увеличивающая поддержка языка R в своих продуктах/сервисах, привлекла к себе и мое внимание.

Одним из «локомотивов» интеграции R с продуктами Майкрософт является облачная платформа Microsoft Azure. Кроме того, появился отличный повод повнимательнее взглянуть на связку R + Azure – это проходящий в эти выходные (21-22 мая) хакатон по машинному обучению, организованный Microsoft.

Хакатон – мероприятие, где ~~кофе~~ время чрезвычайно ценный ресурс. В контексте этого я ранее писал о best practices обучения моделей в Azure Machine Learning. Но Azure ML – это не инструмент для прототипирования; это скорее сервис для создания продукта с SLA со всеми вытекающими отсюда затратами как на время разработки, так и на стоимость владения.

R же прекрасно подходит для создания прототипов, для копания (mining) в данных, для быстрой проверки своих гипотез – то есть
всего того, что нам нужно на такого типа соревнованиях! Ниже я расскажу, как использовать всю мощь R в Azure – от создания прототипа до публикации готовой модели в Azure Machine Learning.
Читать полностью »

Панамские документы. С миру по нитке

2016-05-16 в 8:30, admin, рубрики: data mining, R, shiny, shiny dashboards, визуализация данных, хабр не для политики

Как многим известно из прессы, международный консорциум журналистов-расследователей (ICIJ) выложил в свободный доступ, так называемый «Панамский архив»: сведения о лицах, связанных с офшорными компаниями по всему миру, полученные неизвестными лицами из панамской юридической фирмы Mossack Fonseca.

Можно по разному относиться и к самим этим данным, к способу их получения и публикации в открытом доступе. Но, если абстрагироваться от этих вопросов, то это просто информация, которую можно обработать и на которую можно посмотреть с разных углов (в прямом смысле).

Читать полностью »

R: обработка пропущенных значений

2016-05-15 в 15:23, admin, рубрики: data analysis, data mining, data science, R, Блог компании Инфопульс Украина

Пропущенные значения в данных — обычное в реальных задачах явление. Нужно знать, как эффективно работать с ними, если цель — уменьшить погрешность и построить точную модель. Давайте рассмотрим разные варианты обработки пропущенных значений и их реализацию.
Читать полностью »

Агрегирующие функции в dplyr

2016-04-22 в 9:48, admin, рубрики: R, агрегация, Блог компании Инфопульс Украина

summarise() используется с агрегирующими функциями, которые принимают на вход вектор значений, а возвращают одно. Функция summarise_each() предлагает другой подход к summarise() с такими же результатами.

Цель этой статьи — сравнить поведение summarise() и summarise_each(), учитывая два фактора, которыми мы можем управлять:

1. Сколькими переменными оперировать

1А, одна переменная
1В, более одной переменной

2. Сколько функций применять к каждой переменной

2А, одна функция
2В, более одной функции

Получается четыре варианта:

Вариант 1: применить одну функцию к одной переменной
Вариант 2: применить много функций к одной переменной
Вариант 3: применить одну функцию к многим переменным
Вариант 4: применить много функций к многим переменным

Также проверим эти четыре случая с и без опции group_by().
Читать полностью »

R: геопространственные библиотеки

2016-04-15 в 8:24, admin, рубрики: R, Блог компании Инфопульс Украина, геоданные

Ввод/вывод, изменение и визуализация геопространственных данных — задачи, общие для многих дисциплин. Поэтому многие заинтересованы в создании хороших инструментов для их решения. Набор инструментов для работы с пространственными данными постоянно растет. Мы поверхностно рассмотрим каждый из них. Подробности можно получить по ссылкам на cran или github.

Мы не пытаемся заменить уже существующие в R геопространственные библиотеки — скорее, дополнить и создать небольшие инструменты, позволяющие легко воспользоваться только необходимыми вам функциями.
Читать полностью »

Прием докладов на конференцию по искусственному интеллекту и большим данным AI&BigData Lab

2016-04-04 в 8:05, admin, рубрики: artificial intelligence, big data, data mining, FlyElephant, R, Блог компании FlyElephant, Большие данные, искусственный интеллект, конференция, машинное обучение

Прием докладов на конференцию по искусственному интеллекту и большим данным AI&BigData Lab - 1

4 июня в Одессе, наша команда FlyElephant совместно с GeeksLab будет проводить третью ежегодную техническую конференцию по искусственному интеллекту и большим данным — AI&BigData Lab.

Читать полностью »

Маршрут перемещения потока данных: загрузка в реляционную БД

2016-03-30 в 6:27, admin, рубрики: R, RPostgreSQL, аdobe аnalytics, Администрирование баз данных, Блог компании ua-hosting.company, загрузка данных, ит-инфраструктура, код, реляционная бд, метки: аdobe аnalytics

Использование языка программирования R вместе со свободной реляционной системой управления базами данных PostgresSQL может значительно ускорить и упростить процесс загрузки данных в БД.

Маршрут перемещения потока данных: загрузка в реляционную БД - 1

Структурирование файлов

Перед началом загрузки данных в PostgreSQL, следует рассортировать файлы по типу в разные директории. R делает операции достаточно простыми на уровне ОС:

#### 1. Setting directory to FTP folder where files incoming from Adobe
## Has ~2000 files in it from 2 years of data
setwd("~/Downloads/datafeed/")

#### 2. Sort files into three separate folders
## Manifests - plain text files
if(!dir.exists("manifest")){
  dir.create("manifest")
  lapply(list.files(pattern = "*.txt"), function(x) file.rename(x, paste("manifest", x, sep = "/")) 
}

## Server calls tsv.gz
if(!dir.exists("servercalls")){
  dir.create("servercalls")
  lapply(list.files(pattern = "*.tsv.gz"), function(x) file.rename(x, paste("servercalls", x, sep = "/"))) 
}

## Lookup files .tar.gz
if(!dir.exists("lookup")){
  dir.create("lookup")
  lapply(list.files(pattern = "*.tar.gz"), function(x) file.rename(x, paste("lookup", x, sep = "/"))) 
}

Читать полностью »

Видео-туториалы запуска вычислительных задач на Python, R, С++, Octave и Blender во FlyElephant

2016-03-29 в 15:30, admin, рубрики: blender, c++, data mining, FlyElephant, gcc, gromacs, HPC, java, Julia, octave, OpenFOAM, openmp, python, R, SciLab, Блог компании FlyElephant, научные расчёты, Облачные вычисления, параллельное программирование, стартапы

Пару недель назад, наша команда выпустила свежий релиз FlyElephant — платформа для ученых, которая предоставляет готовую вычислительную инфраструктуру для проведения расчетов, помогает находить партнеров и совместно работать над проектами, а также управлять всеми данными из одного места.

В качестве вычислительного ресурса сейчас используется облако Azure, а пользователи могут запускать вычислительные задачи, написанные с помощью С++ (с поддержкой OpenMP), R, Python, Octave, Scilab, Java, Julia, OpenFOAM, GROMACS, Blender на серверах с количеством ядер от 1 до 32 и оперативной памятью до 448 ГБ.

Сегодня мы хотим поделиться видео-туториалсами запуска задач во FlyElephant. Под катом вы найдете видео, как запускать вычислительные задачи, написанные с помощью С++, R, Python, Octave и рендерить изображения с помощью Blender, а также промо-код для получения бесплатных дополнительных часов работы ваших задач.
Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «R» - 16

Лучшие пакеты для работы с данными в R, часть 1

Рост хоккеистов: анализируем данные всех чемпионатов мира в текущем веке

R в Microsoft Azure для победы на хакатоне. Инструкция по применению

Панамские документы. С миру по нитке

R: обработка пропущенных значений

Агрегирующие функции в dplyr

R: геопространственные библиотеки

Прием докладов на конференцию по искусственному интеллекту и большим данным AI&BigData Lab

Маршрут перемещения потока данных: загрузка в реляционную БД

Структурирование файлов

Видео-туториалы запуска вычислительных задач на Python, R, С++, Octave и Blender во FlyElephant

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «R» - 16

Структурирование файлов

Новости

Актуальные темы

Архив