Рубрика «random forest»

Вся суть ансамблей на примере Случайного Леса и Градиентного Бустинга

2025-10-09 в 15:46, admin, рубрики: boosting, Gradient Boosting, ml, random forest

Изучая классическое машинное обучение, я постоянно натыкался на парадокс: материалов много, а интуитивно понятных объяснений, почему ансамбли — это так мощно, на удивление мало.
Я хочу это исправить. В этой статье мы разложим по полочкам саму концепцию ансамблей. А затем по логике ансамблей разберем двух "королей" этого подхода: Случайный Лес и Градиентный Бустинг.

Концепция ансамблей в машинном обучении

Ансамбли - это такая парадигма машинного обучения, в которой несколько слабых моделей обучаются решать одну задачу, и объединяются чтобы получить лучшие результаты.

Читать полностью »

Анализ и моделирование футбольных результатов английской Премьер-лиги с использованием методов машинного обучения

2024-10-04 в 10:24, admin, рубрики: feature engineering, naive bayes, random forest, SVM, xgboost, градиентный бустинг, классификация, машинное обучение, отбор признаков, случайный лес

Предисловие

Читать полностью »

Random Forest, метод главных компонент и оптимизация гиперпараметров: пример решения задачи классификации на Python

2020-02-14 в 10:15, admin, рубрики: python, random forest, Алгоритмы, Блог компании RUVDS.com, машинное обучение

У специалистов по обработке и анализу данных есть множество средств для создания классификационных моделей. Один из самых популярных и надёжных методов разработки таких моделей заключается в использовании алгоритма «случайный лес» (Random Forest, RF). Для того чтобы попытаться улучшить показатели модели, построенной с использованием алгоритма RF, можно воспользоваться оптимизацией гиперпараметров модели (Hyperparameter Tuning, HT).

Кроме того, распространён подход, в соответствии с которым данные, перед их передачей в модель, обрабатывают с помощью метода главных компонент (Principal Component Analysis, PCA). Но стоит ли вообще этим пользоваться? Разве основная цель алгоритма RF заключается не в том, чтобы помочь аналитику интерпретировать важность признаков?
Читать полностью »

Как программист новую машину подбирал

2018-11-19 в 9:48, admin, рубрики: data mining, predictive analytics, R, R-project, random forest, Алгоритмы, машинное обучение, покупка автомобиля, Программирование

В предыдущих статьях (I, II, III) я подробно рассказывал о разработке сервиса для поиска выгодных б/у автомобилей в РФ.
Поездив продолжительное время на различных б/у машинах, я задумался о приобретении нового авто и решил этот вопрос подробно изучить. В крупных городах существует огромное количество официальных дилеров, по крайней мере для популярных брендов. Дилеры отличаются друг от друга перечнем автомобилей в наличии и размером предоставляемых скидок на различные модели. В поисках интересующих меня автомобилей мне не хотелось обзванивать и посещать всех дилеров подряд. На мой взгляд, разумно было предварительно отобрать по априорной информации только тех дилеров, которые предоставляют самые низкие цены на интересующие меня модели и комплектации. Тот факт, что при личном общении, если уметь торговаться, размер скидки может существенно возрасти никак не противоречит цели в первую очередь посетить дилеров, предоставляющих наиболее выгодные цены на рынке.
Я собрал данные о новых автомобилях, проанализировал, оформил в виде сервиса, и под конец года, когда скидки у дилеров максимальны, решил поделиться им с вами.

Как программист новую машину подбирал - 1

Читать полностью »

Полёты на падающих снежинках

2017-12-02 в 8:40, admin, рубрики: catboost, data mining, php, R, random forest, веб-аналитика, Разработка веб-сайтов, статистика

1. Вступление

В очень сильно нагруженных порталах или API может возникать потребность в применении алгоритмов машинного обучения, например, с целью классификации пользователей. В рамках данной заметки будет показан процесс реализации некоторых высокопроизводительных линейных моделей, а также даны объяснения основных теоретических принципов.

Читать полностью »

Практика анализа данных в прикладной психологии

2017-10-21 в 10:41, admin, рубрики: catboost, data mining, python, R, random forest, машинное обучение, психология, статистика

Практика анализа данных в прикладной психологии - 1

1. Вступление

Показан процесс анализа информации в сфере прикладной психологии. Если быть более точным, то я поделюсь своим опытом поиска различий между двумя группами людей. Будет показан один из самых популярных сценариев решения подобной задачи, а также приведены примеры исходного кода на языках программирования R и Python. Важно понимать, что вся изложенная информация является моим личным субъективным мнением.

Читать полностью »

Открытый курс машинного обучения. Тема 5. Композиции: бэггинг, случайный лес

2017-03-27 в 11:28, admin, рубрики: bagging, boosting, forest, mlcourse_open, ods, open data science, python, random forest, tree, Алгоритмы, Блог компании Open Data Science, математика, машинное обучение

Привет всем, кто дожил до пятой темы нашего курса!

Курс собрал уже более 1000 участников, из них первые 3 домашних задания сделали 520, 450 и 360 человек соответственно. Открытый курс машинного обучения. Тема 5. Композиции: бэггинг, случайный лес - 1 Около 200 участников пока идут с максимальным баллом. Отток намного ниже, чем в MOOC-ах, даже несмотря на большой объем наших статей.

Данное занятие мы посвятим простым методам композиции: бэггингу и случайному лесу. Вы узнаете, как можно получить распределение среднего по генеральной совокупности, если у нас есть информация только о небольшой ее части; посмотрим, как с помощью композиции алгоритмов уменьшить дисперсию, и таким образом улучшим точность модели; разберём, что такое случайный лес, какие его параметры нужно «подкручивать» и как найти самый важный признак. Сконцентрируемся на практике, добавив «щепотку» математики.

Список статей серии

Первичный анализ данных с Pandas
Визуальный анализ данных c Python
Классификация, деревья решений и метод ближайших соседей
Линейные модели классификации и регрессии
Композиции: бэггинг, случайный лес
Обучение без учителя: PCA, кластеризация, поиск аномалий
Искусство построения и отбора признаков. Приложения в задачах обработки текста, изображений и гео-данных

Читать полностью »

Random Forest: прогулки по зимнему лесу

2017-01-29 в 12:04, admin, рубрики: data mining, random forest, машинное обучение, Разработка веб-сайтов

Random Forest

1. Вступление

Это небольшое практическое руководство по применению алгоритмов машинного обучения. Разумеется, существует немалое число алгоритмов машинного обучения и способов математического (статистического) анализа информации, однако, эта заметка посвящена именно Random Forest. В заметке показаны примеры использования этого алгоритма для задач классификации и регрессии, а также даны некоторые теоретические пояснения.

Читать полностью »

Порождение и выбор моделей машинного обучения. Лекция в Яндексе

2016-12-04 в 15:53, admin, рубрики: random forest, акселерометры, Алгоритмы, Блог компании Яндекс, временные ряды, Занимательные задачки, линейная регрессия, математика, машинное обучение, нейронные сети, опорные вектора, регрессия

Применение машинного обучения может включать работу с данными, тонкую настройку уже обученного алгоритма и т. д. Но масштабная математическая подготовка нужна и на более раннем этапе: когда вы только выбираете модель для дальнейшего использования. Можно выбирать «вручную», применяя разные модели, а можно и этот процесс попробовать автоматизировать.

Под катом — лекция ведущего научного сотрудника РАН, доктора наук и главного редактора журнала «Машинное обучение и анализ данных» Вадима Стрижова, а также большинство слайдов.

Читать полностью »

Как программист машину покупал. Часть II

2016-10-17 в 1:45, admin, рубрики: data mining, predictive analytics, R, R-project, random forest, xgboost, Алгоритмы, машинное обучение, покупка автомобиля, Программирование, продажа авто

В предыдущей статье на примере покупки Mercedes-Benz E-klasse не старше 2010 года выпуска стоимостью до 1.5 млн рублей в Москве была рассмотрена задача поиска выгодных автомобилей. Под выгодными следует понимать предложения, цена которых ниже рыночной в текущий момент среди объявлений, собранных со всех наиболее авторитетных сайтов по продаже б/у автомобилей в РФ.

На первом этапе в качестве метода машинного обучения была выбрана множественная линейная регрессия, были рассмотрены правомерность ее использования, а также плюсы и минусы. Простая линейная регрессия была выбрана в качестве ознакомительного алгоритма. Очевидно, что существует еще много методов машинного обучения для решения поставленной задачи регрессии. В этой статье я хотел бы рассказать вам, как именно я выбирал наиболее оптимальный алгоритм машинного обучения для исследуемой модели, который в настоящее время используется в реализованном мною сервисе — robasta.ru.

Как программист машину покупал. Часть II - 1

Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «random forest»

Вся суть ансамблей на примере Случайного Леса и Градиентного Бустинга

Концепция ансамблей в машинном обучении

Анализ и моделирование футбольных результатов английской Премьер-лиги с использованием методов машинного обучения

Random Forest, метод главных компонент и оптимизация гиперпараметров: пример решения задачи классификации на Python

Как программист новую машину подбирал

Полёты на падающих снежинках

1. Вступление

Практика анализа данных в прикладной психологии

1. Вступление

Открытый курс машинного обучения. Тема 5. Композиции: бэггинг, случайный лес

Random Forest: прогулки по зимнему лесу

1. Вступление

Порождение и выбор моделей машинного обучения. Лекция в Яндексе

Как программист машину покупал. Часть II