Рубрика «R» - 7

Модели Эло и ЭлоБета в снукере

2018-07-11 в 8:32, admin, рубрики: data mining, data science, R, rstats, Алгоритмы, анализ данных, машинное обучение, снукер, эло, элобета

На протяжении многих лет я слежу за снукером, как за спортом. В нем есть всё: гипнотизирующая красота интеллектуальной игры, элегантность ударов киём и психологическая напряжённость соревнования. Но есть одна вещь, которая мне не нравится — его рейтинговая система.

Её основной недостаток заключается в том, что она учитывает только факт турнирного достижения без учёта "сложности" матчей. Такого недостатка лишена модель Эло, которая следит за "силой" игроков и обновляет её в зависимости от результатов матчей и "силы" соперника. Однако, и она подходит не идеально: считается, что все матчи проходят в равных условиях, а в снукере они играются до определённого количества выигранных фреймов (партий). Для учёта этого факта, я рассмотрел другую модель, которую назвал ЭлоБета.

В данной статье изучается качество моделей Эло и ЭлоБета на результатах снукерных матчей. Важно отметить, что основными целями являются оценка "силы" игроков и создание "справедливого" рейтинга, а не построение прогностических моделей для получения выгоды.

Читать полностью »

Аналитический паRашют для менеджера

2018-07-10 в 7:25, admin, рубрики: data mining, data science, R, визуализация данных

Комментарии в последней публикации «Насколько open-source экосистема R хороша для решения бизнес-задач?» насчет выгрузок в Excel привели к мысли, что имеет смысл потратить время и описать один из апробированных возможных подходов, который можно реализовать не выходя из R.

Ситуация достаточно типична. В компании всегда есть N методик по которым менеджеры вручную стараются строить в Excel отчеты. Даже если их и втоматизировать всегда остается ситуация, когда нужно срочно сделать какой-то новый произвольный срез или сделать представление для какого-либо руководителя в специфическом виде.

А еще есть ряд вручную поддерживаемых словарей в формате excel, чтобы преобразовывать представление данных в отчетах и выборках в правильной терминологии.

В силу того, что никакого подходящего инструмента (масса доп. нюансов будет ниже) так и не удалось найти, пришлось сваять «универсальный конструктор» на Shiny+R. В силу универсальности и параметризуемости настроек, такой конструктор можно легко сажать почти на любую систему в любой предметной области.

Является продолжением предыдущих публикаций.Читать полностью »

Насколько open-source экосистема R хороша для решения бизнес-задач?

2018-07-03 в 8:15, admin, рубрики: data mining, data science, python, R, визуализация данных

Поводом для публикации послужила запись в блоге Rstudio: «Shiny 1.1.0: Scaling Shiny with async», которая может очень легко пройти мимо, но которая добавляет очень весомый кирпичик в задаче применения R для задач бизнеса. На самом деле, в dev версии shiny асинхронность появилась примерно год назад, но это было как бы несерьезно и «понарошку» — это же dev версия. Перенос в основную ветку и публикация на CRAN является важным подтверждением, что многие принципиальные вопросы продуманы, решены и протестированы, можно спокойно переносить в продуктив и пользоваться.

А что еще есть в R, кроме «бриллианта», что позволяет превратить его в универсальный аналитический инструмент для практических задач?

Является продолжением предыдущих публикаций.Читать полностью »

Наивный Байес, или о том, как математика позволяет фильтровать спам

2018-07-02 в 15:17, admin, рубрики: algorithm, code, data analysis, example, machine learning, math, mathematics, naive bayes, R, statistics, tutorial, математика, машинное обучение, Статистика в IT

Привет! В этой статье я расскажу про то, как в настоящее время фильтруются спам письма чуть ли не во всех популярных почтовых службах. Пройдемся по теории, затем закрепим практикой, ну и в конце предоставлю свой набросок кода на мною обожаемом языке R. Буду стараться излагать максимально легкими выражениями и формулировками. Приступим!

Читать полностью »

Зимой и летом одним цветом? Поиск сезонности в данных

2018-06-14 в 4:10, admin, рубрики: data mining, enterprise, Microsoft SQL Server, R, Анализ и проектирование систем, Блог компании 2ГИС, внутренние продукты, пользовательские данные, Программирование, разработка под windows, сезонность

Зимой и летом одним цветом? Поиск сезонности в данных - 1

Однажды мы решили посмотреть, какие сезонные интересы есть у пользователей 2ГИС в разных городах. Всплески интереса к цветам, новогодним подаркам и шинам — вполне ожидаемы. Мы решили ими не ограничиваться и пойти дальше, проверив все сферы деятельности во всех 113 городах присутствия.

В этой статье я расскажу, как мы искали сезонности и какие особенности поведения пользователей в них обнаружили.

Читать полностью »

Конструктивные элементы надежного enterprise R приложения

2018-06-12 в 5:50, admin, рубрики: data mining, data science, R, Промышленное программирование

Тем, кто работает с R, хорошо известно, что изначально язык разрабатывался как инструмент для интерактивной работы. Естественно, что методы удобные для консольного пошагового применения человеком, который глубоко в теме, оказываются малопригодными для создания приложения для конечного пользователя. Возможность получить развернутую диагностику сразу по факту ошибки, проглядеть все переменные и трейсы, выполнить вручную элементы кода (возможно, частично изменив переменные) — все это будет недоступно при автономной работе R приложения в enterprise среде. (говорим R, подразумеваем, в основном, Shiny web приложения).

Однако, не все так плохо. Среда R (пакеты и подходы) настолько сильно эволюционировали, что ряд весьма нехитрых трюков позволяет элегантно решать задачу обеспечения стабильности и надежности работы пользовательских приложений. Ряд из них будет описан ниже.

Является продолжением предыдущих публикаций.Читать полностью »

Исследование рынка вакансий BA-SA

2018-06-09 в 12:57, admin, рубрики: data analysis, data mining, hh.ru, R, top skills, бизнес-аналитик

"Исследование рынка вакансий аналитиков" — так звучала вполне реальная задача одного вполне реального ведущего аналитика одной ни большой, ни маленькой фирмы. Рисерчер парсил десятки описаний вакансий с hh вручную, раскидывая их по запрашиваемым скиллам и увеличивая счетчик в соответствующей колонке спредшита.

Я увидела в этой задаче неплохое поле для автоматизации и решила попытаться справиться с ней меньшей кровью, легко и просто.

Меня интересовали следующие вопросы, затронутые в данном исследовании:

средний уровень зарплат бизнес- и системных аналитиков,
наиболее востребованные умения и личные качества на этой позиции,
зависимости (если есть) между определенными навыками и уровнем зп.

Спойлер: легко и просто не получилось.

Читать полностью »

Просто добавь воды: разработка с H2O.ai

2018-05-23 в 7:46, admin, рубрики: AI, Apache Spark, azure, azure iot, data science, DSVM, h2o, machine learning, microsoft, Microsoft Azure, python, R, spark, Блог компании Microsoft, ИИ, искусственный интеллект, машинное обучение, Питон, Разработка для интернета вещей

Привет! В течение последних нескольких лет интерес к технологиям машинного обучения и искусственного интеллекта быстро рос. Решение H2O.ai становится все более популярным в этой сфере: оно поддерживает быстрые алгоритмы машинного обучения в оперативной памяти и недавно получило поддержку глубокого обучения. Сегодня поговорим о разработке с использованием H2O.

Просто добавь воды: разработка с H2O.ai - 1 Читать полностью »

Глубокое обучение с использованием R и mxnet. Часть 1. Основы работы

2018-05-10 в 10:00, admin, рубрики: deep learning, mxnet, neural networks, open source, R, Блог компании Open Data Science, глубокое обучение, машинное обучение, нейронные сети, Программирование

Глубокое обучение с использованием R и mxnet. Часть 1. Основы работы - 1

Привет!

Эта статья является первой частью руководства по приготовления нейронных сетей с использованием библиотеки mxnet на языке R. Источником вдохновения послужила онлайн-книга Deep Learning — The Straight Dope, объема которой достаточно для осознанного использования mxnet на Питоне. Примеры оттуда будут воспроизводиться с поправкой на отсутствие реализации интерфейса Gluon для R. В первой части рассмотрим установку библиотеки и общие принципы работы, а также реализуем простую линейную модель для решения задачи регрессии.Читать полностью »

Ассоциативные правила, или пиво с подгузниками

2018-04-19 в 11:09, admin, рубрики: association rules, open data science, python, R, retail, Алгоритмы, ассоциативные правила, Блог компании Open Data Science, машинное обучение

Ассоциативные правила, или пиво с подгузниками - 1

Введение в теорию

Обучение на ассоциативных правилах (далее Associations rules learning — ARL) представляет из себя, с одной стороны, простой, с другой — довольно часто применимый в реальной жизни метод поиска взаимосвязей (ассоциаций) в датасетах, или, если точнее, айтемсетах (itemsests). Впервые подробно об этом заговорил Piatesky-Shapiro G [1] в работе “Discovery, Analysis, and Presentation of Strong Rules.” (1991) Более подробно тему развивали Agrawal R, Imielinski T, Swami A в работах “Mining Association Rules between Sets of Items in Large Databases” (1993) [2] и “Fast Algorithms for Mining Association Rules.” (1994) [3].
Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «R» - 7

Модели Эло и ЭлоБета в снукере

Аналитический паRашют для менеджера

Насколько open-source экосистема R хороша для решения бизнес-задач?

Наивный Байес, или о том, как математика позволяет фильтровать спам

Зимой и летом одним цветом? Поиск сезонности в данных

Конструктивные элементы надежного enterprise R приложения

Исследование рынка вакансий BA-SA

Просто добавь воды: разработка с H2O.ai

Глубокое обучение с использованием R и mxnet. Часть 1. Основы работы

Ассоциативные правила, или пиво с подгузниками

Введение в теорию

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «R» - 7

Введение в теорию

Новости

Актуальные темы

Архив