Рубрика «R» - 17

Школа Данных «Билайн»: весна, знания, новый курс

2016-03-28 в 7:36, admin, рубрики: big data, data mining, kaggle, R, sna, Алгоритмы, алгоритмы обработки данных, анализ данных, анализ социальных сетей, Блог компании ВымпелКом (Билайн), машинное обучение, рекомендательные системы, школа данных

Школа Данных «Билайн»: весна, знания, новый курс - 1

Привет.

Итак, третий курс Школы Данных «Билайн» подходит к завершению и мы набираем четвёртый.

У нас 18 занятий, 36 часов, все основные темы машинного обучения и анализа данных, куча практики, куча домашек, два Kaggle соревнования, презентации и воркшопы от партнеров, возможность устройства в Билайн в команду BigData для лучших студентов, сокурсники из различных областей бизнеса, где применяется машинное обучение и много чего ещё.
Читать полностью »

Генерация и визуализация многомерных данных с R

2016-03-20 в 12:53, admin, рубрики: R, Блог компании Инфопульс Украина, визуализация, визуализация данных, генерация данных

Возможность генерировать данные с заданной корреляцией очень важна для моделирования. В R ожидаемо обширный набор инструментов — пакетов и функций для генерации и визуализации данных из многомерных распределений. Базовая функция для генерации многомерных нормально распределенных данных — mvrnorm() из пакета MASS, части R, хотя пакет mvtnorm также предлагает функции для симуляции и многомерного нормального, и t-распределения.
Читать полностью »

Настройка LaTeX-шаблонов для Jupyter notebook

2016-03-18 в 11:15, admin, рубрики: ipython, ipython notebook, Julia, jupyter, jupyter notebook, python, R, research, tools

Есть отличный инструмент для обучения/отчётов/написания умных книг про код — Jupyter Notebook. Если отчёт или книга, например, пишутся на кириллице, а нужно быстро сделать из этого PDF с красивыми формулами и тире правильной длины, то сразу обнаруживается проблема: в стандартном шаблоне, который Jupyter использует для конвертации блокнотов в PDF через LaTeX, нет подключения нужных пакетов с нужными параметрами, поэтому LaTeX просто не компилируется и PDF не получить.
Читать полностью »

Несколько мыслей о сравнении статистики

2016-03-14 в 15:24, admin, рубрики: R, анализ данных, веб-аналитика, интернет-маркетинг, Повышение конверсии, статистика

Сравнение некой сущности с известными объектами — это один из самых очевидных способов классификации. Чем больше объект похож на представителей известного нам множества, тем выше вероятность, что он принадлежит этому множеству. Для сравнения нам нужны конкретные метрики (цифры, пригодные для математической обработки). Но как вы понимаете, визуально анализировать подобные матрицы не очень удобно.
Читать полностью »

Работа с приватными репозиториями и другие обновления платформы FlyElephant

2016-03-07 в 23:04, admin, рубрики: big data, blender, c++, FlyElephant, gcc, gromacs, HPC, java, Julia, Microsoft Azure, octave, OpenFOAM, openmp, python, R, SciLab, Блог компании FlyElephant, высокая производительность, научные расчёты, Облачные вычисления, параллельное программирование, стартапы

Команда платформы FlyElephant подготовила ряд обновлений, которые позволяют работать с приватными репозиториями, повышают безопасность системы и улучшают работу с задачами.

FlyElephant — это платформа для ученых, которая предоставляет готовую вычислительную инфраструктуру для проведения расчетов, помогает находить партнеров и совместно работать над проектами, а также управлять всеми данными из одного места. FlyElephant автоматизирует рутинные задачи и позволяет сосредоточиться на основных вопросах исследований.

В качестве вычислительного ресурса используется облако Azure. Пользователи могут запускать вычислительные задачи, написанные с помощью С++ (с поддержкой OpenMP), R, Python, Octave, Scilab, Java, Julia, OpenFOAM, GROMACS, Blender на серверах с количеством ядер от 1 до 32 и оперативной памятью до 448 ГБ.

Среди нововведений можно отметить следующие:
Читать полностью »

Каким может быть стек технологий для торговли опционами на Московской бирже

2016-02-24 в 12:14, admin, рубрики: R, shiny, Блог компании ITinvest, онлайн-трейдинг, опционы, Программирование, разработка, фондовый рынок

В блоге на Хабре мы много пишем об использующемся для работы на фондовом рынке железе и софте. Не так давно мы рассматривали стек технологий для высокочастотной торговли, а сегодня речь пойдет о том, какие инструменты можно использовать для торговли опционами на Московской бирже. Материал на эту тему написал эксперт ITinvest Олег Мубаракшин.Читать полностью »

Стратегии по ускорению кода на R, часть 1

2016-02-22 в 9:07, admin, рубрики: R, Блог компании Инфопульс Украина, высокая производительность

Цикл for в R может быть очень медленным, если он применяется в чистом виде, без оптимизации, особенно когда приходится иметь дело с большими наборами данных. Есть ряд способов сделать ваш код быстрее, и вы, вероятно, будете удивлены, узнав насколько.

Эта статья описывает несколько подходов, в том числе простые изменения в логике, параллельную обработку и Rcpp, увеличивая скорость на несколько порядков, так что можно будет нормально обрабатывать 100 миллионов строк данных или даже больше.

Давайте попробуем ускорить код с циклом for и условным оператором (if-else) для создания колонки, которая добавляется к набору данных (data frame, df). Код ниже создает этот начальный набор данных.

# Создание набора данных
col1 <- runif (12^5, 0, 2)
col2 <- rnorm (12^5, 0, 2)
col3 <- rpois (12^5, 3)
col4 <- rchisq (12^5, 2)
df <- data.frame (col1, col2, col3, col4)

В этой части: векторизация, только истинные условия, ifelse.
В следующей части: which, apply, побайтовая компиляция, Rcpp, data.table.
Читать полностью »

Школа Данных «Билайн», для менеджеров

2016-02-08 в 8:02, admin, рубрики: big data, data mining, kaggle, R, sna, Алгоритмы, алгоритмы обработки данных, анализ данных, анализ социальных сетей, Блог компании ВымпелКом (Билайн), машинное обучение, рекомендательные системы, школа данных

Школа Данных «Билайн», для менеджеров - 1

Привет!

Итак, мы запустили третий курс Школы Данных «Билайн». Подробный отчет о занятиях от одного из участников можно почитать здесь.

Отчеты о работе Школы мы также будем выкладывать на официальной странице Школы в Facebook. Там же будем отвечать на вопросы, которые также можно направлять на dataschool@beeline.digital.

Набираем 4-ый курс, который стартует с 4 апреля. Запись, как всегда, на странице Школы.

Однако, данный пост не только об этом. До сих пор в Школе Данных мы учили аналитиков, учили тому, как применять методы машинного обучения для решения практических задач. Однако, практически любая практическая задача начинается с бизнес-потребности и бизнес- постановки.

Мы сейчас не будем говорить о том, что на заре больших данных считалось, что основные инсайты и применения аналитики идут скорее от данных. Это безусловно есть, но в нашей практике это происходит в соотношении 80 к 20, где 80 процентов всех задач для аналитика или даже больше рождается от бизнеса.

Однако, как же бизнес генерит эти задачи, если он, бизнес, не разбирается в аналитике данных? Да, очень просто. В нашей компании мы потратили какое-то время на объяснение бизнесу возможностей аналитики данных и теперь разные подразделения заваливают нас заказами придумывая все новые применения этим инструментам.
Читать полностью »

AI, BigData & HPC Digest #4

2016-02-06 в 13:24, admin, рубрики: AI, big data, BigData, data mining, FlyElephant, high performance computing, HPC, R, анализ данных, Блог компании FlyElephant, Большие данные, видео, высокая производительность, дайджест, искусственный интеллект, Мероприятия, Новости, подкасты, статьи

alt

Команда FlyElephant подготовила для Вас новый дайджест, включающий в себя подборку ссылок на интересные материалы по направлениям: искусственный интеллект, большие данные и высокопроизводительные вычисления.
Читать полностью »

Как уменьшить количество измерений и извлечь из этого пользу

2016-02-05 в 1:02, admin, рубрики: autoencoder, big data, data analysis, data mining, data science, deep learning, h2o, ICA, neural networks, NMF, PCA, R, SVD, главные компоненты, машинное обучение, Программирование, разложение

Как уменьшить количество измерений и извлечь из этого пользу - 1 Сначала я хотел честно и подробно написать о методах снижения размерности данных — PCA, ICA, NMF, вывалить кучу формул и сказать, какую же важную роль играет SVD во всем этом зоопарке. Потом понял, что получится текст, похожий на вырезки из опусов от Mathgen, поэтому количество формул свел к минимуму, но самое любимое — код и картинки — оставил в полном объеме.
Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «R» - 17

Школа Данных «Билайн»: весна, знания, новый курс

Генерация и визуализация многомерных данных с R

Настройка LaTeX-шаблонов для Jupyter notebook

Несколько мыслей о сравнении статистики

Работа с приватными репозиториями и другие обновления платформы FlyElephant

Каким может быть стек технологий для торговли опционами на Московской бирже

Стратегии по ускорению кода на R, часть 1

Школа Данных «Билайн», для менеджеров

AI, BigData & HPC Digest #4

Как уменьшить количество измерений и извлечь из этого пользу

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «R» - 17

Новости

Актуальные темы

Архив