Рубрика «бинарная классификация»

Бинарная классификация — одна из самых распространённых задач машинного обучения, встречающаяся во множестве прикладных областей.

Однако, на практике цель таких задач часто выходит за рамки простого предсказания класса. Гораздо более важным оказывается умение модели оценить вероятность принадлежности объекта к тому или иному классу. Иными словами, нас интересует не только, какой класс выбрать, но и с какой вероятностью это решение принято.

Читать полностью »

Владение английским языком принято оценивать по системе CERF (Common European Reference Framework), состоящей из шести уровней, где уровень A1 – начинающие, а уровень С2 – профессионально владеющие иностранным языком. Международный уровень С2 часто позиционируется как “уровень образованного носителя”, и получение соответствующего сертификата зачастую является либо заветной мечтой, либо предметом гордости преподавателя-лингвиста.

Читать полностью »

image

Если проанализировать различные классификации игр, то мы увидим, что нет такой, которая бы непротиворечиво разложила все игры “по полочкам». Похоже, в реальном мире в принципе не существует идеальных классификаций чего-либо и любая из них работает настолько, насколько используется для решения какой—либо практической задачи, а если сами задачи разные, то и классификации тоже. Если у вас, скажем, цель выбрать игру для консоли Xbox, то сначала естественным образом классифицировать игры доступности по консолям, далее по жанрам (если не смущает туманность референций некоторых из них), издателю или рейтингу: по сути каждый игрок использует удобные ему классификации для практичных целей.

Предложим еще одну, ориентированную на гейм-дизайнера, создающего игры и покажем, как ее можно использовать.
Читать полностью »

В самом начале января мой друг и я бродили по холодным и дождливым улицам Лондона и говорили о технологиях, жизни и чём-то ещё. Я время от времени делал фотографии на свой старый Canon EOS 400D, и в какой-то момент друг сказал: “Вот ты фотографируешь, фотографируешь, а твои фотографии никто не лайкает”. Я не нашёл что ответить, но вернувшись домой, создал аккаунт в одной из соцсетей, где можно постить и лайкать фотографии, и составил план: за 100 дней набрать 10000 фолловеров и к концу этого срока получать 500 лайков за пост. После этого отобрал пару сотен интересных фотографий и запостил первую. И её лайкнуло только несколько человек. Этого было мало, нужно было придумать какой-то метод.

10000 лайков - 1
Читать полностью »

Интересный факт: в 1912 году итальянский статистик и демограф Коррадо Джини написал знаменитый труд «Вариативность и изменчивость признака», и в этом же году «Титаник» затонул в водах Атлантики. Казалось бы, что общего между этими двумя событиями? Всё просто, их последствия нашли широкое применение в области машинного обучения. И если датасет «Титаник» в представлении не нуждается, то об одной замечательной статистике, впервые опубликованной в труде итальянского учёного, мы поговорим поподробней. Сразу хочу заметить, что статья не имеет никакого отношения к коэффициенту Джини (Gini Impurity), который используется в деревьях решений как критерий качества разбиения в задачах классификации. Эти коэффициенты никак не связаны друг с другом и общего между ними примерно столько же, сколько общего между трактором в Брянской области и газонокосилкой в Оклахоме.

Коэффициент Джини (Gini coefficient) — метрика качества, которая часто используется при оценке предсказательных моделей в задачах бинарной классификации в условиях сильной несбалансированности классов целевой переменной. Именно она широко применяется в задачах банковского кредитования, страхования и целевом маркетинге. Для полного понимания этой метрики нам для начала необходимо окунуться в экономику и разобраться, для чего она используется там.
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js