В то время как за окном температура на пути к очередным рекордам, интересно посмотреть, а какие вообще бывали температуры в произвольный интервал времени, за любые года за последние несколько десятилетий в 30 000 точках по всему миру. А может не прогадать с днями отпуска, и взять их в те дни, когда есть какое-то «статистическое преимущество» в выбранном местоположении по теплой погоде, а может быть по холодной, оценив его визуально на любой из трех типов диаграмм. Ну или можно просто повращать глобус, визуально оценить разнообразие температур и «как прекрасен этот мир».
Читать полностью »
Рубрика «R» - 19
Отпуск. Где? Когда? R
2015-12-21 в 8:30, admin, рубрики: data mining, R, shiny, shiny dashboards, визуализация данных, метеостанция, отпуск, погода, рекорды, температура воздухаФестиваль данных в музее Москвы, или как Big Data помогает жить и работать
2015-12-16 в 10:33, admin, рубрики: big data, data mining, kaggle, R, sna, Алгоритмы, алгоритмы обработки данных, анализ данных, анализ социальных сетей, Блог компании ВымпелКом (Билайн), машинное обучение, рекомендательные системы, школа данных
Привет Хабр,
Если вам давно было интересно, как Big Data применяется в разных областях бизнеса, науки и государственного управления и это хотелось услышать от самих людей, которые этим занимаются, то добро пожаловать на Фестиваль Данных, который будет проходить 19 декабря на Выставке Высоких Технологий SMIT в Музее Москвы.
В течение нескольких часов работы Фестиваля ведущие эксперты отрасли из Yandex, Школы Данных «Билайн», Data-Centric Alliance, Авито, ГУП «НИ и ПИ Генплана Москвы, НИУ ВШЭ расскажут гостям выставки о перспективах использования анализа данных в ближайшие несколько лет.
Читать полностью »
R в качестве инструмента мониторинга цен
2015-04-07 в 12:47, admin, рубрики: competitors, R, открытые данные, Программирование, Юлмарт лучше всех, метки: competitors, R, Юлмарт лучше всех В данной статье хотел бы коснуться такой темы как мониторинг конкурентов. Понимаю, что у данной темы есть как много сторонников, ведь так или иначе мониторинг необходим для успешного развития почти любой компании, так и противники, которые защищают интересы своего бизнеса от мониторщиков.
Те, кто как то связан с продажами на конкурентном рынке, наверняка знают, что мониторинг конкурентов является важной задачей. Результаты используются для совершенно различных целей — от изменения локальных политик ценообразования и ведения ассортимента до составления стратегических планов развития компании. Автор решил попрактиковаться в решении данной задачи и промониторить одного из крупных ритейлеров электроники в России, чьим регулярным клиентом автор является. Что из этого вышло — Читать полностью »
Мешок слов и сентимент-анализ на R
2015-04-07 в 9:12, admin, рубрики: data mining, kaggle, R, random forest, машинное обучение, мешок слов, сантимент-анализ, метки: R, R, random forest, мешок слов, сантимент-анализЭта статья подготовлена по мотивам (первой части) учебного задания Bag of Words Kaggle, но это не перевод. Оригинальное задание сделано на Python. Я же хотел оценить возможности языка R для обработки текстов на естественном языке и заодно попробовать реализацию Random Forest в обертке R-пакета caret.
Смысл задания – построить «машину», которая будет определенным образом обрабатывать обзоры фильмов на английском языке и определять тональность обзора, относя его к одному из двух классов: негативные/позитивные. В качестве обучающей выборки в задании используется набор данных с двадцатью пятью тысячами ревю из IMDB, размеченных неизвестными добровольцами.
Читать полностью »
Визуализация статистики производительности оборудования с R – Shiny
2015-03-18 в 12:36, admin, рубрики: data mining, R, shiny, statistics, анализ данных, ит-инфраструктура, метки: r «Безграмотными в 21 веке будут не те,
кто не умеет читать и писать,
а те, кто не умеет учиться,
разучиваться и переучиваться»
Элвин Тоффлер
У ИТ-специалистов могут возникать задачи, связанные с анализом производительности оборудования или анализом результатов различных генераторов нагрузки (ioMeter, Vdbench и прочее). В большинстве случаев для этих целей используется Excel с построением временных рядов, с нахождением основных описательных статистик и попытками это все как-то проанализировать. Существует альтернативное средство более быстрого и удобного анализа описательных статистик с разнообразными диаграммами и возможностью создания web-приложения для общего доступа. Касаться настоящей статистики с различными методами анализа данных не буду, только базовая описательная статистика (без проверки тестов и даже p-значения не будет) и разные диаграммы.
В этой статье я опишу один из вариантов того, как можно проанализировать такую информацию, представлять её в виде диаграмм (трафик!), и все это в виде web-приложения. Как следует из названия статьи – реализовано это на R, с пакетом (фреймворком) для web-приложений к R – Shiny.
Читать полностью »
Основы статистики: просто о сложных формулах
2015-02-13 в 11:01, admin, рубрики: big data, data mining, R, анализ данных, статистика, метки: Анализ данныхСтатистика вокруг нас
Статистика и анализ данных пронизывают практически любую современную область знаний. Все сложнее становится провести границу между современной биологией, математикой и информатикой. Экономические исследования и регрессионный анализ уже практически неотделимы друг от друга. Один из известных методов проверки распределения на нормальность — критерий Колмогорова-Смирнова. А вы знали, что именно Колмогоров внес огромный вклад в развитие математической лингвистики?
Еще будучи студентом психологического факультета СПбГУ я заинтересовался когнитивной психологией. Кстати, Иммануил Кант не считал психологию наукой, так как не видел возможности применять в ней математические методы. Мои текущие исследования посвящены моделированию психических процессов, и я надеюсь, что такие направления в современной когнитивной психологии, как вычислительные и коннективисткие модели, смягчили бы его отношение!
Читать полностью »