Рубрика «логистическая регрессия»

Машинное обучение: Логистическая регрессия. Теория и реализация. С нуля

2024-12-09 в 15:00, admin, рубрики: искусственный интеллект, логистическая регрессия, машинное обучение

В этой статье я привел базовые сведения о логистической регрессии и показал как сделать модель с нуля на чистом Python. Логистическая функция, обучение, метрики качества для модели классификации, реализация и небольшой разбор обучения весов.

Статья подойдет для того, кто новичок или кому интересно разобраться в том, как происходит обучение модели на низком уровне.

Введение

Логистическая регрессия (ЛогР)Читать полностью »

Обучение логистической регрессии с L1 и L2 регуляризациями с методом SGD

2019-06-15 в 11:38, admin, рубрики: big data, data mining, python, анализ данных, искусственный интеллект, логистическая регрессия, машинное обучение, регуляризация, стахостический градиентный спуск

Хабр, привет.

Сегодня у нас пост с интересным заданием — будем обучать логистическую регрессию с L1 и L2 регуляризациями с помощью метода Stochastic Gradient Descent (SGD).

Перед тем как приступить к статье и коду, беглым шагом пробежимся по основным понятиям L1 и L2 регуляризации, логистической регрессии и стахостического градиентного спуска (Stochastic Gradient Descent — SGD).Читать полностью »

Выявление содержательных профилей в VK

2018-09-10 в 15:50, admin, рубрики: анализ данных, боты для социальных сетей, веб-аналитика, классификация, логистическая регрессия, машинное обучение, открытые данные, Социальные сети и сообщества

Ботов отличать от людей и правда сложновато. Я и сам толком не могу это сделать. Но зато я придумал неплохой ~~велоси...~~ метод, как отличать в VK «интересных людей» от «не очень интересных». В плане сетевого общения, естественно, а не по жизни.

Выявление содержательных профилей в VK - 1

Читать полностью »

Массовый стекинг моделей ML в production: реально или нет?

2018-07-26 в 11:30, admin, рубрики: als, data science, feature, feature selection, ml, production, stacking, Алгоритмы, Блог компании HeadHunter, логистическая регрессия, машинное обучение, нейросети, поисковые технологии, признаки, продакшн, стекинг, факторизационные машины

Довольно часто нас спрашивают, почему мы не устраиваем соревнований дата-сайентистов. Дело в том, что по опыту мы знаем: решения в них совсем не применимы к prod. Да и нанимать тех, кто окажется на ведущих местах, не всегда имеет смысл.

Массовый стекинг моделей ML в production: реально или нет? - 1

Такие соревнования часто выигрывают с помощью так называемого китайского стекинга, когда комбинаторным способом берут все возможные алгоритмы и значения гиперпараметров, и полученные модели в несколько уровней используют сигнал друг от друга. Обычные спутники этих решений — сложность, нестабильность, трудность при отладке и поддержке, очень большая ресурсоёмкость при обучении и прогнозировании, необходимость внимательного надзора человека в каждом цикле повторного обучения моделей. Смысл делать это есть только на соревнованиях — ради десятитысячных в локальных метриках и позиций в турнирной таблице.

Читать полностью »

Использование нейронной сети для построения модели оценки заёмщиков в сфере онлайн-микрофинансирования

2017-10-25 в 10:35, admin, рубрики: логистическая регрессия, нейронные сети, скоринг, финансы в IT, финтех

В настоящее время для построения скоринговой модели стандартом “де факто” в финансовой отрасли является использование функций логистической регрессии (logit-функций). Суть метода сводится к нахождению такой линейной комбинации начальных данных (предикторов), которая в результате logit-преобразования будет максимально правдоподобно осуществлять предсказания.

Практический недостаток метода — в необходимости длительной подготовки данных для построения модели (около недели работы специалиста). В реальных условиях работы микрофинансовой компании набор данных о заемщиках постоянно меняется, подключаются и отключаются различные дата-провайдеры, сменяются поколения займов — этап подготовки становится узким местом.

Другой недостаток logit-функций связан с их линейностью — влияние каждого отдельного предиктора на конечный результат равномерно на всем множестве значений предиктора.
Модели на базе нейронных сетей лишены этих недостатков, но редко применяются в отрасли — нет надежных методов оценки переобучения, большое влияние “шумящих” значений в исходных данных.

Ниже мы покажем, как с помощью применения различных методов оптимизации модели на базе нейронных сетей позволяют получить лучший результат предсказаний по сравнению с моделями на базе logit-функций.

Читать полностью »

Геометрия машинного обучения. Разделяющие гиперплоскости или в чём геометрический смысл линейной комбинации?

2017-03-24 в 9:39, admin, рубрики: Алгоритмы, логистическая регрессия, машинное обучение, метод опорных векторов, нейронные сети

Во многих алгоритмах машинного обучения, в том числе в нейронных сетях, нам постоянно приходится иметь дело со взвешенной суммой или, иначе, линейной комбинацией компонент входного вектора. А в чём смысл получаемого скалярного значения?

В статье попробуем ответить на этот вопрос с примерами, формулами, а также множеством иллюстраций и кода на Python, чтобы вы могли легко всё воспроизвести и поставить свои собственные эксперименты.Читать полностью »

Решение задачи кредитного скоринга методом логистической регрессии

2017-03-22 в 15:23, admin, рубрики: логистическая регрессия, машинное обучение, скоринг

Отучившись на нескольких онлайн-курсах, попробовал занять позицию, связанную с Machine Learning — на входе получил тестовое задание о кредитном скоринге. Свое решение которой здесь и привожу:

Задание

Данные содержат информацию о выданных кредитах, требуется предсказать вероятность успешного возврата кредита.

Тренировочная выборка содержится в файле train.csv, тестовая — test.csv.

Информация о значениях признаков содержится в файле feature_descr.xlsx.

Целевой признак — loan_status (бинарный). 1 означает что кредит успешно вернули.

В рамках тестового задания вам предлагается:

Обучить модель на предоставленных данных, найти качество полученной модели.
Записать предсказания (вероятности) для тестового набора в файл results.csv
Продемонстрировать результаты анализа в графическом виде (ROC-curve)

Тщательный выбор фич и подбор гиперпараметров можно не проводить.

Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «логистическая регрессия»

Машинное обучение: Логистическая регрессия. Теория и реализация. С нуля

Введение

Обучение логистической регрессии с L1 и L2 регуляризациями с методом SGD

Выявление содержательных профилей в VK

Массовый стекинг моделей ML в production: реально или нет?

Использование нейронной сети для построения модели оценки заёмщиков в сфере онлайн-микрофинансирования

Геометрия машинного обучения. Разделяющие гиперплоскости или в чём геометрический смысл линейной комбинации?

Решение задачи кредитного скоринга методом логистической регрессии

Задание

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «логистическая регрессия»

Машинное обучение: Логистическая регрессия. Теория и реализация. С нуля

Введение

Обучение логистической регрессии с L1 и L2 регуляризациями с методом SGD

Выявление содержательных профилей в VK

Массовый стекинг моделей ML в production: реально или нет?

Использование нейронной сети для построения модели оценки заёмщиков в сфере онлайн-микрофинансирования

Геометрия машинного обучения. Разделяющие гиперплоскости или в чём геометрический смысл линейной комбинации?

Решение задачи кредитного скоринга методом логистической регрессии

Задание

Новости

Актуальные темы

Архив