Не секрет, что курс рубля напрямую зависит от стоимости нефти (и от кое-чего еще). Этот факт позволяет строить довольно интересные модели. В своей статье о линейной регрессии я коснулся некоторых вопросов, посвященных диагностике модели, а за кадром остался такой вопрос: есть ли более эффективная, но не слишком сложная альтернатива линейной регрессии? Традиционно используемый метод наименьших квадратов прост и понятен, но есть и другие подходы (не такие понятные).
Рубрика «data mining» - 51
О линейной регрессии: байесовский подход к курсу рубля
2017-04-05 в 7:32, admin, рубрики: bayesian, data mining, jags, R, rjags, variable selection, анализ данных, Байес, временные ряды, всемирный заговор, курс, математика, машинное обучение, нефть, Программирование, регрессия, рубль, статистика, цены, эконометрика, метки: Временные рядыШкола данных: Москва, Питер… онлайн
2017-04-03 в 22:10, admin, рубрики: big data, data mining, kaggle, R, sna, Алгоритмы, алгоритмы обработки данных, анализ данных, анализ социальных сетей, машинное обучение, рекомендательные системы, школа данных
Привет,
Можно ли с помощью данных управлять миром? Ну, ответ, очевиден. Вопрос в том, как…
Все уже слышали об успехе компании CambridgeAnalytica в предвыборной гонке Трампа и небезызвестного Brexit.
Статья собрала большое количество поклонников. В ней рассказаны потрясающие результаты, которых позволяет добиться современная аналитика. Однако, эти результаты достижимы только при соблюдении определенных нюансов, о которых умолчали авторы статьи и о которых мы хотели бы рассказать. Эти нюансы могут превратить данную задачу из легко решаемой в невозможную или наоборот.
Читать полностью »
R, GIS и fuzzyjoin: восстанавливаем демографические данные для NUTS регионов Дании
2017-04-03 в 15:43, admin, рубрики: data mining, gis, NUTS, R, административное деление, визуализация данных, Геоинформационные сервисы, дания, муниципалитеты, открытые данные, официальная статистикаВ этом посте речь пойдет о том, как я восстанавливал демографические данные для регионов Дании, где после реформы территориального устройства 2007 года официальной гармонизации данных не проводилось. Это лишь небольшая часть гармонизации евростатовских данных, которую я выполнил в рамках своего phd проекта. Пост сперва опубликован в моем англоязычном блоге и в блоге Demotrends. Думаю, что он может быть интересен далеко не только демографам.
Что такое NUTS?
NUTS расшифровывается как Nomenclature of Territorial Units For Statistics. Это стандартизированная система административно-территориального деления, принятая странами Евросоюза. История вопроса уходит в 1970-е, когда родилась идея сделать регионы различных стран Европы сопоставимыми. В более или менее законченном и широко употребимом виде система появилась лишь на рубеже веков. Существуют три основных уровня NUTS (см. рис. 1), и наиболее распространенным в региональном анализе оказывается NUTS-2.
Рисунок 1. Иллюстрация принципа выделения регионов NUTS различного иерархического уровня
7 кейсов использования технологий Big Data в сфере производства
2017-04-03 в 12:39, admin, рубрики: apple, big data, data mining, general electric, intel, sap naha, sas, teradata, Yandex Data Factory, Блог компании New Professions Lab, газпром нефть, машинное обучение, ммк, сургутнефтьгаз На сегодняшний день технологии Big Data нашли свое применение практически в любых отраслях: ритейл, банкинг, здравоохранение, и, в свою очередь, сфера производства не стала исключением. Оптимизация производственной цепочки, выявление дефектов и контроль качества продукции, улучшение удобства использования продукта на основе поведения потребителей – неполный список результатов, которых можно достичь в производственной сфере благодаря Big Data. Рассмотрим несколько кейсов зарубежных и отечественных компаний, внедривших технологии больших данных в свою деятельность.
Читать полностью »
Открытый курс машинного обучения. Тема 6. Построение и отбор признаков
2017-04-03 в 11:07, admin, рубрики: data mining, feature engineering, feature extraction, machine learning, mlcourse_open, ods, open data science, python, Алгоритмы, Блог компании Open Data Science, машинное обучениеСообщество Open Data Science приветствует участников курса!
В рамках курса мы уже познакомились с несколькими ключевыми алгоритмами машинного обучения. Однако перед тем как переходить к более навороченным алгоритмам и подходам, хочется сделать шаг в сторону и поговорить о подготовке данных для обучения модели. Известный принцип garbage in – garbage out на 100% применим к любой задаче машинного обучения; любой опытный аналитик может вспомнить примеры из практики, когда простая модель, обученная на качественно подготовленных данных, показала себя лучше хитроумного ансамбля, построенного на недостаточно чистых данных.

Учим TensorFlow рисовать кириллицу
2017-04-03 в 9:10, admin, рубрики: data mining, deep learning, TensorFlow, машинное обучение, нейронные сети, обработка изображенийПривет! За последние годы новые подходы в обучении нейронных сетей позволили существенно расширить сферы практического применения машинного обучения. А появление большого количества хороших высокоуровневых библиотек дало возможность проверить свои навыки специалистам разного уровня подготовки.
Имея некоторый опыт в машинном обучении, я до текущего момента не имел дело конкретно с нейронными сетями. На волне их стремительной популярности было принято решение заполнить данный пробел и заодно попробовать написать об этом статью.
Я поставил себе две цели. Первая, придумать задачу, достаточно сложную чтобы при её решении столкнуться с проблемами, возникающими в реальной жизни. И вторая, решить эту задачу с использование одной из современных библиотек, разобравшись с особенностями работы с ними.
В качестве библиотеки был выбран TensorFlow. А за задачей и её решением прошу под кат…
Читать полностью »
Кластеризация текстовых документов по семантическим признакам (часть вторая: описание моделей)
2017-04-02 в 6:30, admin, рубрики: data mining, word2vec, кластеризация, машинное обучение, обработка текста, СемантикаМодели Word2Vec
Как было упомянуто в первой части публикации, модели получаются из classes — представления результата текста word2vec виде ассоциативно-семантических классов путем сглаживания распределений.
Идея сглаживания в следующем.
Читать полностью »
Рекомендательные системы в онлайн-образовании. Адаптивное обучение
2017-03-29 в 19:19, admin, рубрики: adaptive learning, data mining, personalization, recommender system, stepik, stepik.org, адаптивное обучение, адаптивность, машинное обучение, рекомендательные системы, стэпик, метки: adaptive learning, personalization, адаптивное обучение, адаптивностьНе прошло и полгода, как мы завершаем цикл статей об адаптивном обучении на Stepik! А, нет, прошло… Но я рада наконец представить вашему вниманию заключительную статью о том, зачем вообще нужно адаптивное обучение, как оно реализовано на Stepik и причём тут шахматы.

Глубинное обучение по особенностям заголовка и содержимого статьи для преодоления кликбейта
2017-03-27 в 13:49, admin, рубрики: BeautifulSoup4, data mining, Facebook, Joblib, open source, pickle, python, StopClickBaits, глубинное обучение, кликбейт, машинное обучение, нейросеть, скрапинг
Облако слов для кликбейта
TL;DR: Я добился точности распознавания кликбейта 99,2% на тестовых данных по особенностям заголовка и контента. Код доступен в репозитории GitHub.
Когда-то в прошлом я написал статью о выявлении кликбейта. Та статья получила хорошие отклики, а также много критики. Некоторые сказали, что нужно учитывать содержимое сайта, другие просили больше примеров из разных источников, а некоторые предложили попробовать методы глубинного обучения.
В этой статье я постараюсь решить эти вопросы и вывести выявление кликбейта на новый уровень.
Читать полностью »
Предсказываем будущее с помощью библиотеки Facebook Prophet
2017-03-23 в 11:01, admin, рубрики: arima, arma, data mining, machine learning, ods, Predictions, prophet, python, time series, Блог компании Open Data Science, математика, машинное обучениеПрогнозирование временных рядов — это достаточно популярная аналитическая задача. Прогнозы используются, например, для понимания, сколько серверов понадобится online-сервису через год, каков будет спрос на каждый товар в гипермаркете, или для постановки целей и оценки работы команды (для этого можно построить baseline прогноз и сравнить фактическое значение с прогнозируемым).
Существует большое количество различных подходов для прогнозирования временных рядов, такие как ARIMA, ARCH, регрессионные модели, нейронные сети и т.д.
Сегодня же мы познакомимся с библиотекой для прогнозирования временных рядов Facebook Prophet
(в переводе с английского, "пророк", выпущена в open-source 23-го февраля 2017 года), а также попробуем в жизненной задаче – прогнозировании числа постов на Хабрехабре.