Рубрика «R» - 11

Быстрая загрузка данных из файлов в R

2017-04-16 в 13:05, admin, рубрики: big data, data mining, R, высокая производительность, производительность

Недавно мы писали приложение на Shiny, где нужно было использовать очень большой блок данных (dataframe). Это непосредственно влияло на время запуска приложения, поэтому пришлось рассмотреть ряд способов чтения данных из файлов в R (в нашем случае это были csv-файлы, предоставленные заказчиком) и определить лучший.

Цель этой заметки — сравнить:

read.csv из utils — стандартный способ чтения csv-файлов в R
read_csv из readr, который в RStudio заменил предыдущий метод
load и readRDS из base, и
read_feather из feather и fread из data.table.

Читать полностью »

RStudio Connect — «фейслифтинг» Shiny для корпоративного применения

2017-04-11 в 14:30, admin, рубрики: big data, data mining, data science, R

Прошло достаточно времени с упоминания в предыдущей публикации об использовании RStudio Connect в боевых условиях для того, чтобы поделиться результатами. Краткое резюме — «дайте два!». И подумайте про оптимизацию отдела «аналитиков». Ниже приведены подробности.

В качестве дополнительного чтения рекомендую взглянуть детальную публикацию «Data at GDS (Government Digital Service). Reproducible Analytical Pipeline» в блоге аналитической службы гос.органов UK по аналогичной теме.

Читать полностью »

О линейной регрессии: байесовский подход к курсу рубля

2017-04-05 в 7:32, admin, рубрики: bayesian, data mining, jags, R, rjags, variable selection, анализ данных, Байес, временные ряды, всемирный заговор, курс, математика, машинное обучение, нефть, Программирование, регрессия, рубль, статистика, цены, эконометрика, метки: Временные ряды

О линейной регрессии: байесовский подход к курсу рубля - 1
Не секрет, что курс рубля напрямую зависит от стоимости нефти (и от кое-чего еще). Этот факт позволяет строить довольно интересные модели. В своей статье о линейной регрессии я коснулся некоторых вопросов, посвященных диагностике модели, а за кадром остался такой вопрос: есть ли более эффективная, но не слишком сложная альтернатива линейной регрессии? Традиционно используемый метод наименьших квадратов прост и понятен, но есть и другие подходы ~~(не такие понятные)~~.

Читать полностью »

Школа данных: Москва, Питер… онлайн

2017-04-03 в 22:10, admin, рубрики: big data, data mining, kaggle, R, sna, Алгоритмы, алгоритмы обработки данных, анализ данных, анализ социальных сетей, машинное обучение, рекомендательные системы, школа данных

Школа данных: Москва, Питер… онлайн - 1
Привет,

Можно ли с помощью данных управлять миром? Ну, ответ, очевиден. Вопрос в том, как…

Все уже слышали об успехе компании CambridgeAnalytica в предвыборной гонке Трампа и небезызвестного Brexit.

Статья собрала большое количество поклонников. В ней рассказаны потрясающие результаты, которых позволяет добиться современная аналитика. Однако, эти результаты достижимы только при соблюдении определенных нюансов, о которых умолчали авторы статьи и о которых мы хотели бы рассказать. Эти нюансы могут превратить данную задачу из легко решаемой в невозможную или наоборот.
Читать полностью »

R, GIS и fuzzyjoin: восстанавливаем демографические данные для NUTS регионов Дании

2017-04-03 в 15:43, admin, рубрики: data mining, gis, NUTS, R, административное деление, визуализация данных, Геоинформационные сервисы, дания, муниципалитеты, открытые данные, официальная статистика

В этом посте речь пойдет о том, как я восстанавливал демографические данные для регионов Дании, где после реформы территориального устройства 2007 года официальной гармонизации данных не проводилось. Это лишь небольшая часть гармонизации евростатовских данных, которую я выполнил в рамках своего phd проекта. Пост сперва опубликован в моем англоязычном блоге и в блоге Demotrends. Думаю, что он может быть интересен далеко не только демографам.

Что такое NUTS?

NUTS расшифровывается как Nomenclature of Territorial Units For Statistics. Это стандартизированная система административно-территориального деления, принятая странами Евросоюза. История вопроса уходит в 1970-е, когда родилась идея сделать регионы различных стран Европы сопоставимыми. В более или менее законченном и широко употребимом виде система появилась лишь на рубеже веков. Существуют три основных уровня NUTS (см. рис. 1), и наиболее распространенным в региональном анализе оказывается NUTS-2.

Рисунок 1. Иллюстрация принципа выделения регионов NUTS различного иерархического уровня

Читать полностью »

История 3-го места на ML Boot Camp III

2017-03-22 в 11:56, admin, рубрики: machine learning, ML Boot Camp, R, машинное обучение, Программирование, Спортивное программирование

Недавно завершился контест по машинному обучению ML Boot Camp III от Mail.Ru.

Будучи новичком в machine learning мне удалось занять 3-е место. И в этой статье я постараюсь поделиться своим опытом участия.

История 3-го места на ML Boot Camp III - 1

Читать полностью »

Тонкости R. Как минута час экономит

2017-03-01 в 6:18, admin, рубрики: big data, data mining, data science, R

Довольно часто enterprise задачи по обработке данных затрагивают данные, сопровождаемые временной меткой. В R такие метки, обычно хранятся как класс POSIXct. Выбор методов работы с таким типом данных по принципу аналогии может привести к большому разочарованию и убеждению о крайней медлительности R. Хотя если взглянуть на эту чуть более пристально, то оказывается, что дело не совсем в R, а в руках и голове.

Ниже затрону пару кейсов, которые встретились в этом месяце и возможные варианты их решения. В ходе решения появляются весьма интересные вопросы. Заодно упомяну инструменты, которые оказываются крайне полезными для решения подобных задачек. Практика показала, что об их существовании знают немногие.

Читать полностью »

R в enterprise задачах. Хитрости и трюки

2017-02-17 в 9:51, admin, рубрики: big data, data mining, data science, R

Несмотря на то, что задачи рядового бизнеса очень часто далеки от популярной темы больших данных и машинного обучения и часто связаны с обработкой относительно малых объёмов информации [десятки мегабайт — десятки гигабайт], размазанной в произвольных представлениях по различным видам источников, применение R в качестве основного инструмента позволяет легко и элегантно автоматизировать и ускорить эти задачи.

И, естественно, после проведения анализа необходимо все это презентовать, для чего можно с успехом использовать Shiny. Далее я приведу ряд трюков и подходов, которые могут помочь в этой задачах. Уверен, что любой практикующий аналитик сможет легко добавить свои хитрости, все зависит от решаемого класса задач.

Читать полностью »

Разница между статистикой и наукой о данных

2017-01-30 в 7:37, admin, рубрики: big data, data mining, data science, R, Алгоритмы, Блог компании Издательский дом «Питер», статистика, статистический анализ

Здравствуйте, уважаемые читатели.

Мы вновь попробуем посоветоваться с вами по поводу актуальности орейлевской новинки. На сей раз речь пойдет о статистике для Data Science.

Объем оригинала — 250 стр., дата выхода — 25 февраля.

Разница между статистикой и наукой о данных - 1

В книге рассмотрены лаконичные кейсы с небольшим количеством графиков и примеров на языке R.

Чтобы размышлять и голосовать было интереснее — под катом найдете статью, автор которой попытался уловить и описать разницу между статистикой и Data Science
Читать полностью »

Разработка на R: тайны циклов

2017-01-26 в 6:24, admin, рубрики: big data, data mining, microsoft, R, Блог компании Microsoft, Большие данные, журнал хакер, машинное обучение, Программирование, хакер, язык r

Меньше недели назад в журнале Хакер вышла авторская версия материала, посвященного фичам при использовании циклов при разработке на R. По согласованию с Хакером, мы делимся полной версией первой статьи. Вы узнаете о том, как правильно писать циклы при обработке больших объемов данных.

Разработка на R: тайны циклов - 1 Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «R» - 11

Быстрая загрузка данных из файлов в R

RStudio Connect — «фейслифтинг» Shiny для корпоративного применения

О линейной регрессии: байесовский подход к курсу рубля

Школа данных: Москва, Питер… онлайн

R, GIS и fuzzyjoin: восстанавливаем демографические данные для NUTS регионов Дании

Что такое NUTS?

История 3-го места на ML Boot Camp III

Тонкости R. Как минута час экономит

R в enterprise задачах. Хитрости и трюки

Разница между статистикой и наукой о данных

Разработка на R: тайны циклов

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «R» - 11

Что такое NUTS?

Новости

Актуальные темы

Архив