Предисловие
Рубрика «random forest»
Анализ и моделирование футбольных результатов английской Премьер-лиги с использованием методов машинного обучения
2024-10-04 в 10:24, admin, рубрики: feature engineering, naive bayes, random forest, SVM, xgboost, градиентный бустинг, классификация, машинное обучение, отбор признаков, случайный лесRandom Forest, метод главных компонент и оптимизация гиперпараметров: пример решения задачи классификации на Python
2020-02-14 в 10:15, admin, рубрики: python, random forest, Алгоритмы, Блог компании RUVDS.com, машинное обучениеУ специалистов по обработке и анализу данных есть множество средств для создания классификационных моделей. Один из самых популярных и надёжных методов разработки таких моделей заключается в использовании алгоритма «случайный лес» (Random Forest, RF). Для того чтобы попытаться улучшить показатели модели, построенной с использованием алгоритма RF, можно воспользоваться оптимизацией гиперпараметров модели (Hyperparameter Tuning, HT).
Кроме того, распространён подход, в соответствии с которым данные, перед их передачей в модель, обрабатывают с помощью метода главных компонент (Principal Component Analysis, PCA). Но стоит ли вообще этим пользоваться? Разве основная цель алгоритма RF заключается не в том, чтобы помочь аналитику интерпретировать важность признаков?
Читать полностью »
Как программист новую машину подбирал
2018-11-19 в 9:48, admin, рубрики: data mining, predictive analytics, R, R-project, random forest, Алгоритмы, машинное обучение, покупка автомобиля, ПрограммированиеВ предыдущих статьях (I, II, III) я подробно рассказывал о разработке сервиса для поиска выгодных б/у автомобилей в РФ.
Поездив продолжительное время на различных б/у машинах, я задумался о приобретении нового авто и решил этот вопрос подробно изучить. В крупных городах существует огромное количество официальных дилеров, по крайней мере для популярных брендов. Дилеры отличаются друг от друга перечнем автомобилей в наличии и размером предоставляемых скидок на различные модели. В поисках интересующих меня автомобилей мне не хотелось обзванивать и посещать всех дилеров подряд. На мой взгляд, разумно было предварительно отобрать по априорной информации только тех дилеров, которые предоставляют самые низкие цены на интересующие меня модели и комплектации. Тот факт, что при личном общении, если уметь торговаться, размер скидки может существенно возрасти никак не противоречит цели в первую очередь посетить дилеров, предоставляющих наиболее выгодные цены на рынке.
Я собрал данные о новых автомобилях, проанализировал, оформил в виде сервиса, и под конец года, когда скидки у дилеров максимальны, решил поделиться им с вами.
Полёты на падающих снежинках
2017-12-02 в 8:40, admin, рубрики: catboost, data mining, php, R, random forest, веб-аналитика, Разработка веб-сайтов, статистика1. Вступление
В очень сильно нагруженных порталах или API может возникать потребность в применении алгоритмов машинного обучения, например, с целью классификации пользователей. В рамках данной заметки будет показан процесс реализации некоторых высокопроизводительных линейных моделей, а также даны объяснения основных теоретических принципов.
Практика анализа данных в прикладной психологии
2017-10-21 в 10:41, admin, рубрики: catboost, data mining, python, R, random forest, машинное обучение, психология, статистика
1. Вступление
Показан процесс анализа информации в сфере прикладной психологии. Если быть более точным, то я поделюсь своим опытом поиска различий между двумя группами людей. Будет показан один из самых популярных сценариев решения подобной задачи, а также приведены примеры исходного кода на языках программирования R и Python. Важно понимать, что вся изложенная информация является моим личным субъективным мнением.
Открытый курс машинного обучения. Тема 5. Композиции: бэггинг, случайный лес
2017-03-27 в 11:28, admin, рубрики: bagging, boosting, forest, mlcourse_open, ods, open data science, python, random forest, tree, Алгоритмы, Блог компании Open Data Science, математика, машинное обучениеПривет всем, кто дожил до пятой темы нашего курса!
Курс собрал уже более 1000 участников, из них первые 3 домашних задания сделали 520, 450 и 360 человек соответственно. Около 200 участников пока идут с максимальным баллом. Отток намного ниже, чем в MOOC-ах, даже несмотря на большой объем наших статей.
Данное занятие мы посвятим простым методам композиции: бэггингу и случайному лесу. Вы узнаете, как можно получить распределение среднего по генеральной совокупности, если у нас есть информация только о небольшой ее части; посмотрим, как с помощью композиции алгоритмов уменьшить дисперсию, и таким образом улучшим точность модели; разберём, что такое случайный лес, какие его параметры нужно «подкручивать» и как найти самый важный признак. Сконцентрируемся на практике, добавив «щепотку» математики.
- Первичный анализ данных с Pandas
- Визуальный анализ данных c Python
- Классификация, деревья решений и метод ближайших соседей
- Линейные модели классификации и регрессии
- Композиции: бэггинг, случайный лес
- Обучение без учителя: PCA, кластеризация, поиск аномалий
- Искусство построения и отбора признаков. Приложения в задачах обработки текста, изображений и гео-данных
Random Forest: прогулки по зимнему лесу
2017-01-29 в 12:04, admin, рубрики: data mining, random forest, машинное обучение, Разработка веб-сайтов
1. Вступление
Это небольшое практическое руководство по применению алгоритмов машинного обучения. Разумеется, существует немалое число алгоритмов машинного обучения и способов математического (статистического) анализа информации, однако, эта заметка посвящена именно Random Forest. В заметке показаны примеры использования этого алгоритма для задач классификации и регрессии, а также даны некоторые теоретические пояснения.
Порождение и выбор моделей машинного обучения. Лекция в Яндексе
2016-12-04 в 15:53, admin, рубрики: random forest, акселерометры, Алгоритмы, Блог компании Яндекс, временные ряды, Занимательные задачки, линейная регрессия, математика, машинное обучение, нейронные сети, опорные вектора, регрессияПрименение машинного обучения может включать работу с данными, тонкую настройку уже обученного алгоритма и т. д. Но масштабная математическая подготовка нужна и на более раннем этапе: когда вы только выбираете модель для дальнейшего использования. Можно выбирать «вручную», применяя разные модели, а можно и этот процесс попробовать автоматизировать.
Под катом — лекция ведущего научного сотрудника РАН, доктора наук и главного редактора журнала «Машинное обучение и анализ данных» Вадима Стрижова, а также большинство слайдов.
Как программист машину покупал. Часть II
2016-10-17 в 1:45, admin, рубрики: data mining, predictive analytics, R, R-project, random forest, xgboost, Алгоритмы, машинное обучение, покупка автомобиля, Программирование, продажа автоВ предыдущей статье на примере покупки Mercedes-Benz E-klasse не старше 2010 года выпуска стоимостью до 1.5 млн рублей в Москве была рассмотрена задача поиска выгодных автомобилей. Под выгодными следует понимать предложения, цена которых ниже рыночной в текущий момент среди объявлений, собранных со всех наиболее авторитетных сайтов по продаже б/у автомобилей в РФ.
На первом этапе в качестве метода машинного обучения была выбрана множественная линейная регрессия, были рассмотрены правомерность ее использования, а также плюсы и минусы. Простая линейная регрессия была выбрана в качестве ознакомительного алгоритма. Очевидно, что существует еще много методов машинного обучения для решения поставленной задачи регрессии. В этой статье я хотел бы рассказать вам, как именно я выбирал наиболее оптимальный алгоритм машинного обучения для исследуемой модели, который в настоящее время используется в реализованном мною сервисе — robasta.ru.
В тени случайного леса
2016-08-28 в 12:19, admin, рубрики: data mining, Gradient Boosting, random forest, машинное обучение, Разработка веб-сайтов, стастистика, метки: стастистика1. Вступление
Это небольшой рассказ о практических вопросах использования машинного обучения для масштабных статистических исследований различных данных в Интернет. Также будет затронута тема применения базовых методов математической статистики для анализа данных.