Всем привет!
Читать полностью »
Рубрика «линейная регрессия»
Как пакет с пакетами помог аналитику решить задачу для бизнеса, или keep calm and import statsmodels
2024-10-17 в 9:00, admin, рубрики: data science, linear regression, python, statsmodels, линейная регрессия50 оттенков линейной регрессии, или почему всё, что вы знаете об A-B тестах, помещается в одно уравнение
2024-09-27 в 7:42, admin, рубрики: cuped, линейная регрессия, Статистика в ITВсем привет! A/B тестирование уже давно стало стандартом в проверке гипотез и улучшении продуктов в X5. Но, как ни странно, многие из «модных» техник, которые применяются в A/B тестировании, на самом деле, не что иное, как вариации старой доброй линейной регрессии.
Например, использование таких методов, как t-тест, стратификация, CUPED, CUMPED, по сути, сводятся к построению линейной регрессии и проверке гипотезы в рамках построенной модели. Наши коллеги из команды ad-hoc аналитики Х5 Tech уже писали про стратификацию здесь и про CUPED здесьЧитать полностью »
Учим нейросети в Google Таблицах
2020-04-29 в 11:58, admin, рубрики: Excel, Google Sheets, machine learning, Блог компании Юла, линейная регрессия, машинное обучение, нейросети, ненормальное программированиеХочу с вами зачелленджить одну интересную штуку: попробовать обучить нейросеть в Google Таблицах. Безо всяких макросов и прочих хаков, на чистых формулах.
Прогнозирование продаж недвижимости. Лекция в Яндексе
2018-08-19 в 13:07, admin, рубрики: catboost, scikit-learn, xgboost, Блог компании Яндекс, линейная регрессия, машинное обучение, Спортивное программированиеУспех в проектах по машинному обучению обычно связан не только с умением применять разные библиотеки, но и с пониманием той области, откуда взяты данные. Отличной иллюстрацией этого тезиса стало решение, предложенное командой Алексея Каюченко, Сергея Белова, Александра Дроботова и Алексея Смирнова в конкурсе PIK Digital Day. Они заняли второе место, а спустя пару недель рассказали о своём участии и построенных моделях на очередной ML-тренировке Яндекса.
Алексей Каюченко:
— Добрый день! Мы расскажем о соревновании PIK Digital Day, в котором мы участвовали. Немного о команде. Нас было четыре человека. Все с абсолютно разным бэкграундом, из разных областей. На самом деле, мы на финале познакомились. Команда сформировалась буквально за день до финала. Я расскажу про ход конкурса, организацию работы. Потом выйдет Сережа, он расскажет про данные, а Саша расскажет уже про сабмишен, про финальный ход работы и про то, как мы двигались по лидерборду.
Метод Уэлфорда и многомерная линейная регрессия
2017-12-04 в 3:57, admin, рубрики: Алгоритмы, вычислительная математика, линейная регрессия, математика, машинное обучение, метод Уэдфорда, Программирование, численные методыМногомерная линейная регрессия — один из основополагающих методов машинного обучения. Несмотря на то, что современный мир интеллектуального анализа данных захвачен нейронными сетями и градиентным бустингом, линейные модели до сих пор занимают в нём своё почётное место.
В предыдущих публикациях на эту тему мы познакомились с тем, как получать точные оценки средних и ковариаций методом Уэлфорда, а затем научились применять эти оценки для решения задачи одномерной линейной регрессии. Конечно, эти же методы можно использовать и в задаче многомерной линейной регрессии.
Умеют ли коты строить регрессию?
2017-06-20 в 14:04, admin, рубрики: scala, Алгоритмы, линейная регрессия, математика, машинное обучение, методы оптимизации, Программирование, эвристические алгоритмыДоброго времени суток! Пора вновь вернуться к задачам оптимизации. На этот раз мы займемся линейной регрессией и разберемся, кто же такие коты — только пушистые домашние мерзавцы животные или еще и неплохой инструмент для решения прикладных задач.
Одномерная линейная регрессия, SQL и машинное обучение
2017-04-10 в 16:23, admin, рубрики: sql, линейная регрессия, машинное обучение, оконные функции, трендыВсем привет. Это моя первая статья на Хабре, буду рад критике и комментариям.
Статья посвящена простому, но удобному способу построения предикторов особого вида в SQL-подобных языках. Эти предикторы описывают линейный тренд в данных, который можно использовать для решения задач машинного обучения. Идея заключается в том, чтобы по транзакционным данным быстро и эффективно рассчитывать линейные тренды.
Порождение и выбор моделей машинного обучения. Лекция в Яндексе
2016-12-04 в 15:53, admin, рубрики: random forest, акселерометры, Алгоритмы, Блог компании Яндекс, временные ряды, Занимательные задачки, линейная регрессия, математика, машинное обучение, нейронные сети, опорные вектора, регрессияПрименение машинного обучения может включать работу с данными, тонкую настройку уже обученного алгоритма и т. д. Но масштабная математическая подготовка нужна и на более раннем этапе: когда вы только выбираете модель для дальнейшего использования. Можно выбирать «вручную», применяя разные модели, а можно и этот процесс попробовать автоматизировать.
Под катом — лекция ведущего научного сотрудника РАН, доктора наук и главного редактора журнала «Машинное обучение и анализ данных» Вадима Стрижова, а также большинство слайдов.
Automatic Relevance Determination или машинное обучение когда данных очень мало
2016-10-26 в 6:59, admin, рубрики: bayes, bayesian inference, data mining, feature selection, linear model, linear regression, python, scikit-learn, линейная регрессия, математика, машинное обучениеКогда речь заходит про машинное обучение, обычно подразумевают большие объемы данных — миллионы или даже миллиарды транзакций, из которых надо сделать сложный вывод о поведении, интересах или текущем cостоянии пользователя, покупателя или какого-нибудь аппарата (робота, автомобиля, дрона или станка).
Однако в жизни обычного аналитика самой обычной компании много данных встречается нечасто. Скорее даже наоборот — у вас будет мало или очень мало данных — буквально десятки или сотни записей. Но анализ все же нужно провести. Причем не какой попало анализ, а качественный и достоверный.
Зачастую ситуация усугубляется еще и тем, что вы без труда можете нагенерить для каждой записи много признаков (чаще всего добавляют полиномы, разницу с предыдущим значением и значением за прошлый год, one-hot-encoding для категориальных признаков и т.п.). Вот только совсем нелегко разобраться, какие из них действительно полезны, а какие только усложняют модель и увеличивают ошибки вашего прозноза.
Для этого вы можете воспользоваться методами байесовой статистики, например, Automatic Relevance Determination. Читать полностью »
Зачем нужен алгоритм Хо-Кашьяпа?
2016-10-16 в 8:57, admin, рубрики: алгоритм хо-кашьяпа, Алгоритмы, ликбез, линейная регрессия, машинное обучениеНедавно на Хабре появилась публикация про алгоритм Хо-Кашьяпа (Ho-Kashyap procedure, он же — алгоритм НСКО, наименьшей среднеквадратичной ошибки). Мне она показалась не очень понятной и я решил разобраться в теме сам. Выяснилось, что в русскоязычном интернете тема не очень хорошо разобрана, поэтому я решил оформить статью по итогам поисков.
Несмотря на бум нейросетей в машинном обучении, алгоритмы линейной классификации остаются гораздо более простыми в использовании и интерпретации. Но при этом иногда вовсе не хочется пользоваться сколько-нибудь продвинутыми методами, вроде метода опорных векторов или логистической регрессии и возникает искушение загнать все данные в одну большую линейную МНК-регрессию, тем более её прекрасно умеет строить даже MS Excel.
Проблема такого подхода в том, что даже если входные данные линейно разделимы, то получившийся классификатор может их не разделять. Например, для набора точек , получим разделяющую прямую (пример позаимствован из (1)):
Встаёт вопрос — можно ли как-то избавиться от этой особенности поведения?
Читать полностью »