Рубрика «R» - 8

R — значит регрессия

2018-03-16 в 14:55, admin, рубрики: data mining, open source, R, математика, регрессионный анализ, статистика

Статистика в последнее время получила мощную PR поддержку со стороны более новых и шумных дисциплин — Машинного Обучения и Больших Данных. Тем, кто стремится оседлать эту волну необходимо подружится с уравнениями регрессии. Желательно при этом не только усвоить 2-3 приемчика и сдать экзамен, а уметь решать проблемы из повседневной жизни: найти зависимость между переменными, а в идеале — уметь отличить сигнал от шума.

Регрессия

Для этой цели мы будем использовать язык программирования и среду разработки R, который как нельзя лучше приспособлен к таким задачам. Заодно, проверим от чего зависят рейтинг Хабрапоста на статистике собственных статей.

Читать полностью »

Копирование данных с веб-сайта с помощью R и библиотеки rvest

2018-03-10 в 9:38, admin, рубрики: data mining, R, анализ данных, скрейпинг

Чтобы проводить анализ данных, необходимо сначала эти данные собрать. Для этой цели есть много разных методов. В этой статье мы будем говорить о копировании данных непосредственно с веб-сайта, или о скрейпинге (scraping). На Хабре есть несколько статей о том, как сделать копирование с помощью Python. Мы будем использовать язык R (вер.3.4.2) и его библиотеку rvest. В качестве примера рассмотрим копирование данных с Google Scholar (GS). Читать полностью »

R и СИБ. Как устранить противоречие интересов и запустить R на Linux в оффлайн-режиме

2017-12-18 в 14:58, admin, рубрики: big data, data mining, data science, R, Промышленное программирование

Является продолжением предыдущих публикаций.

Очень часто попытки применить инструменты DataScience в корпоративной среде встают в полное противоречие с требованиями Службы Информационной Безопасности (СИБ). В мире DataScience рекомендация «поставь с гитхаба» становится практически нерешаемой при полной изоляции аналитической машины от интернета. Тем не менее, задача запуска на linux инфраструктуры R в offline окружении вполне решаемая. Ниже приведу последовательность мантр, которые позволят это исполнить. Если какие-то шаги будут не совсем прозрачными, то скорректирую по мере появления комментариев. Эти же шаги можно использовать и для online инсталляции, пропуская шаги, относящиеся к хитрым трюкам или созданию локальных репозиториев. Собрано по крупицам на основании многократных инсталляций под разнообразные задачи. Практика показала, что тема весьма актуальна.

Читать полностью »

Анализируй это — Lenta.ru

2017-12-04 в 12:31, admin, рубрики: big data, BigData, data engineering, data mining, data science, R, открытые данные

Анализируй это — Lenta.ru - 1

Анализируй это. Lenta.ru (часть 1)

What, How, Why

What — анализ статей новостного ресурса Lenta.ru за последние 18 лет (с 1 сентября 1999 года). How — средствами языка R (с привлечением программы MySterm от Yandex на отдельном участке). Why… В моем случае, коротким ответом на вопрос "почему" будет "получение опыта" в Big Data. Более развернутым же объяснением будет "выполнение какого-либо реального задания, в рамках которого я смогу применить навыки, полученные во время обучения, а так же получить результат, который я бы смог показывать в качестве подтверждения своих умений".

Читать полностью »

Полёты на падающих снежинках

2017-12-02 в 8:40, admin, рубрики: catboost, data mining, php, R, random forest, веб-аналитика, Разработка веб-сайтов, статистика

1. Вступление

В очень сильно нагруженных порталах или API может возникать потребность в применении алгоритмов машинного обучения, например, с целью классификации пользователей. В рамках данной заметки будет показан процесс реализации некоторых высокопроизводительных линейных моделей, а также даны объяснения основных теоретических принципов.

Читать полностью »

Использование R для «промышленной» разработки

2017-11-13 в 12:05, admin, рубрики: big data, data mining, data science, R

Является продолжением предыдущих публикаций. Не секрет, что при упоминании R в числе используемых инструментов вторым по популярности является вопрос о возможности его применения в «промышленной разработке». Пальму первенства в России неизменно держит вопрос «А что такое R?»

Попробуем разобраться в аспектах и возможности применения R в «промышленной» разработке.

Читать полностью »

Как учёные перемещаются по миру

2017-11-10 в 7:02, admin, рубрики: ggplot, open source, ORCID, plotly, R, science, work and travel, Научно-популярное

Недавно в журнале Science была статья “Огромный архив резюме раскрыл самых путешествующих учёных” ( “Vast set of public CVs reveals the world’s most migratory scientists” ) — где на основе публичных данных из системы orcid была продемонстрирована статистика переезда учёных из страны в страну. Все данные использованные для статьи тоже были выложены в октрытый доступ, и я решил посмотреть куда-же разьезжаются учёные из России в общем, ну и из родного Физтеха в частности.

Читать полностью »

R, Asterisk и платяной шкаф

2017-11-04 в 7:13, admin, рубрики: big data, data mining, data science, R

Является продолжением предыдущих публикаций. Основное назначение публикаций — демонстрация возможностей R по решению различных "рутинных" задач по обработке данных, возникающих в бизнесе. Основной акцент ставится на создание законченного решения для конечного пользователя, а не на принципиальное решение частной задачи набором команд в консоли. Схематический прототип и продукт с конвейера имеют больше различий чем сходства.

По тонкой механике R есть огромное количество специализированных блогов, книг, а также github. Но обращаются к ним обычно только после того, как видят, что решение задачи средствами R возможно и весьма элегантно.

Читать полностью »

Какие самые нелюбимые языки программирования?

2017-11-02 в 8:56, admin, рубрики: R, stack overflow, Исследования и прогнозы в IT, карьера, Карьера в IT-индустрии, Программирование, резюме, языки программирования

На Stack Overflow Jobs каждый может опубликовать собственную Developer Story, чтобы поделиться достижениями и поспособствовать карьерному росту. При публикации можно добавить к статье теги, соответствующие языкам и технологиям, с которыми вы бы хотели работать и с которыми бы не хотели:

Какие самые нелюбимые языки программирования? - 1

Это даёт нам возможность изучить мнения сотен тысяч разработчиков. Есть много способов измерить популярность языка. Например, мы часто использовали для изучения трендов статистику визитов на Stack Overflow или просмотров вопросов. Но данные о тегах — уникальная возможность посмотреть, что людям не нравится, когда у них есть возможность сказать об этом в резюме.

(Некоторый анализ я публиковал в личном блоге два года назад, но эта статья дополнена более свежими данными и бóльшим количеством иллюстраций).
Читать полностью »

Глубокое обучение с R и Keras на примере Carvana Image Masking Challenge

2017-10-30 в 16:28, admin, рубрики: deep learning, image segmentation, kaggle, keras, R, unet, Блог компании Open Data Science, машинное обучение, обработка изображений, параллельное программирование

Глубокое обучение с R и Keras на примере Carvana Image Masking Challenge - 1

Привет!

Пользователи R долгое время были лишены возможности приобщиться к deep learning-у, оставаясь в рамках одного языка программирования. С выходом MXNet ситуация стала меняться, но своеобразная документация и частые изменения, ломающие обратную совместимость, все еще ограничивают популярность данной библиотеки.

Гораздо привлекательнее выглядит использование R-интерфейсов к TensorFlow и Keras с бекендами на выбор (TensorFlow, Theano, CNTK), подробной документацией и множеством примеров. В этом сообщении будет разобрано решение задачи сегментации изображений на примере соревнования Carvana Image Masking Challenge (победители), в котором требуется научиться отделять автомобили, сфотографированные с 16 разных ракурсов, от фона. "Нейросетевая" часть полностью реализована на Keras, за обработку изображений отвечает magick (интерфейс к ImageMagick), параллельная обработка обеспечивается parallel+doParallel+foreach (Windows) или parallel+doMC+foreach (Linux).

Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «R» - 8

R — значит регрессия

Копирование данных с веб-сайта с помощью R и библиотеки rvest

R и СИБ. Как устранить противоречие интересов и запустить R на Linux в оффлайн-режиме

Анализируй это — Lenta.ru

Анализируй это. Lenta.ru (часть 1)

What, How, Why

Полёты на падающих снежинках

1. Вступление

Использование R для «промышленной» разработки

Как учёные перемещаются по миру

R, Asterisk и платяной шкаф

Какие самые нелюбимые языки программирования?

Глубокое обучение с R и Keras на примере Carvana Image Masking Challenge

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «R» - 8

Анализируй это. Lenta.ru (часть 1)

What, How, Why

1. Вступление

Новости

Актуальные темы

Архив