Не секрет, что курс рубля напрямую зависит от стоимости нефти (и от кое-чего еще). Этот факт позволяет строить довольно интересные модели. В своей статье о линейной регрессии я коснулся некоторых вопросов, посвященных диагностике модели, а за кадром остался такой вопрос: есть ли более эффективная, но не слишком сложная альтернатива линейной регрессии? Традиционно используемый метод наименьших квадратов прост и понятен, но есть и другие подходы (не такие понятные).
Рубрика «регрессия» - 2
О линейной регрессии: байесовский подход к курсу рубля
2017-04-05 в 7:32, admin, рубрики: bayesian, data mining, jags, R, rjags, variable selection, анализ данных, Байес, временные ряды, всемирный заговор, курс, математика, машинное обучение, нефть, Программирование, регрессия, рубль, статистика, цены, эконометрика, метки: Временные рядыПорождение и выбор моделей машинного обучения. Лекция в Яндексе
2016-12-04 в 15:53, admin, рубрики: random forest, акселерометры, Алгоритмы, Блог компании Яндекс, временные ряды, Занимательные задачки, линейная регрессия, математика, машинное обучение, нейронные сети, опорные вектора, регрессияПрименение машинного обучения может включать работу с данными, тонкую настройку уже обученного алгоритма и т. д. Но масштабная математическая подготовка нужна и на более раннем этапе: когда вы только выбираете модель для дальнейшего использования. Можно выбирать «вручную», применяя разные модели, а можно и этот процесс попробовать автоматизировать.
Под катом — лекция ведущего научного сотрудника РАН, доктора наук и главного редактора журнала «Машинное обучение и анализ данных» Вадима Стрижова, а также большинство слайдов.
Рекомендательные системы в онлайн-образовании. Продолжение
2016-08-16 в 6:40, admin, рубрики: adaptive, adaptive learning, personalization, recommendation systems, stepic, stepic.org, адаптивность, Алгоритмы, Анализ и проектирование систем, без регистрации и смс, бесплатное образование, Блог компании Stepic.org, граф, математика, машинное обучение, переход, регрессия, регуляризация, рекомендательные системы, стэпик, хендлерМы продолжаем рассказывать об системе адаптивного обучения на Stepic.org. Первую вводную часть этой серии можно почитать здесь.
В данной статье мы расскажем о построении рекомендательной системы (которая и лежит в основе адаптивности). Расскажем о сборе и обработке пользовательских данных, о графах переходов, хендлерах, оценке реакции пользователя, формировании выдачи.
Вспомним про линейную регрессию, регуляризацию и даже поймём, почему в нашем случае лучше использовать гребневую регрессию, а не какую-нибудь там ещё.
Решение задачи «Оценка производительности» mlbootcamp.ru
2016-07-18 в 15:54, admin, рубрики: python, sklearn, машинное обучение, регрессия, соревнованиеОсталось менее трех дней до окончания конкурса «Оценка производительности». Возможно, данная статья кому-то поможет улучшить свое решение. Суть задачи — предсказать время умножения двух матриц на разных вычислительных системах. В качестве оценки качества предсказания берется наименьшая средняя относительная ошибка MAPE.
На текущий момент первое место — 4.68%. Ниже хочу описать свой путь к 6.69% (а это уже 70+ место).
Читать полностью »
Методические заметки об отборе информативных признаков (feature selection)
2016-06-28 в 22:37, admin, рубрики: data mining, feature selection, gradient boosted trees, R, random forest, машинное обучение, нейронные сети, отбор информативных признаков, регрессия, статистика, теория информации, метки: feature selection, отбор информативных признаковВсем привет!
Меня зовут Алексей. Я Data Scientist в компании Align Technology. В этом материале я расскажу вам о подходах к feature selection, которые мы практикуем в ходе экспериментов по анализу данных.
В нашей компании статистики и инженеры machine learning анализируют большие объемы клинической информации, связанные с лечением пациентов. В двух словах смысл этой статьи можно свести к извлечению ценных крупиц знания, содержащихся в небольшой доле доступных нам зашумленных и избыточных гигабайтов данных.
Данная статья предназначена для статистиков, инженеров машинного обучения и специалистов, которые интересуются вопросами обнаружения зависимостей в наборах данных. Также материал, изложенный в статье, может быть интересен широкому кругу читателей, неравнодушных к data mining. В материале не будут затронуты вопросы feature engineering и, в частности, применения таких методов как анализ главных компонент.
Рост хоккеистов: анализируем данные всех чемпионатов мира в текущем веке
2016-05-24 в 4:00, admin, рубрики: cohort analysis, cohort effect, data mining, exploratory data analysis, IIHF, R, визуализация данных, когортный анализ, когортный эффект, открытые данные, Программирование, регрессия, рост спортсменов, сборная России, спортивная аналитика, хоккей, чемпионат мира по хоккею 2016, метки: IIHF, регрессия, рост спортсменов, сборная России, хоккей, чемпионат мира по хоккею 2016
На днях завершился очередной чемпионат мира по хоккею.
За просмотром матчей родилась идея. Когда в перерывах телевизионная камера показывает уходящих в раздевалку игроков, трудно не заметить, насколько они огромные. На фоне тренеров, функционеров команд, сотрудников ледовой арены, журналистов или просто фанатов они, как правило, выглядят очень внушительно.
И я задался вопросами. Действительно ли хоккеисты выше обычных людей? Как изменяется рост хоккеистов со временем в сравнении с обычными людьми? Есть ли устойчивые межстрановые различия?
Поиск взаимосвязей на примере Нефть-Рубль
2015-03-17 в 9:18, admin, рубрики: data mining, Gnuplot, анализ данных, визуализация, визуализация данных, регрессияОдна из базовых задач анализа данных — поиск взаимосвязи двух величин. Здесь я хочу показать пример поиска связи между ценой нефти и курсом рубля.
Во-первых надо определить, имеет ли вообще задача смысл. Почему нефть и рубль должны/могут быть взаимосвязаны? Вкратце, модель такая: экспортёры продают нефть за доллары, а затем продают доллары, чтобы получить рубли для расчётов внутри страны. Механизм крайне упрощён, надо учитывать объёмы добычи-продажи, что эскортируют не только нефть, не всегда экспортёры продают доллары, на курс валют влияет ЦБ интервенциями и т.д. И тем не менее, будем считать, что модель более-менее рабочая, то есть, что существуют фундаментальные причины для взаимосвязи цены нефти и курса рубля.
Читать полностью »
Машинное обучение — 2. Нелинейная регрессия и численная оптимизация
2015-03-10 в 9:22, admin, рубрики: mathcad, Блог компании Нерепетитор.ру, визуализация данных, конверсия сайтов, математика, машинное обучение, моделирование, модель конверсии, регрессияПрошел месяц с появления моей первой статьи на Хабре и 20 дней с момента появления второй статьи про линейную регрессию. Статистика по просмотрам и целевым действиям аудитории копится, и именно она послужила отправной точкой для данной статьи. В ней мы коротко рассмотрим пример нелинейной регрессии (а именно, экспоненциальной) и с ее помощью построим модель конверсии, выделив среди пользователей две группы.
Когда известно, что случайная величина y зависит от чего-то (например, от времени или от другой случайной величины x) линейно, т.е. по закону y(x)= Ax+b, то применяется линейная регрессия (так в прошлой статье мы строили зависимость числа регистраций от числа просмотров). Для линейной регрессии коэффициенты A и b вычисляются по известным формулам. В случае регрессии другого вида, например, экспоненциальной, для того чтобы определить неизвестные параметры, необходимо решить соответствующую оптимизационную задачу: а именно, в рамках метода наименьших квадратов (МНК) задачу нахождения минимума суммы квадратов (y(xi) — yi)2.
Итак, вот данные, которые будем использовать в качестве примера. Пики посещаемости (ряд Views, красный пунктир) приходятся на моменты выходя статей. Второй ряд данных (Regs, с множителем 100) показывает число читателей, выполнивших после прочтения определенное действие (регистрацию и скачивание Mathcad Express – с его помощью, к слову, вы сможете повторить все расчеты этой и предыдущих статей). Все картинки — это скриншоты Mathcad Express, а файл с расчетами вы можете взять здесь.