Добрый день! В этой статье я хотел бы вкратце рассказать о решении которое принесло мне первое место на конкурсе по машинному обучению ML Boot Camp III от mail.ru.
Читать полностью »
Рубрика «машинное обучение» - 209
Победное решение конкурса ML Boot Camp III
2017-03-27 в 8:38, admin, рубрики: data science, mail boot camp, python, машинное обучение, соревнованияУченые вылечили ИИ от забывчивости
2017-03-27 в 6:40, admin, рубрики: DeepMind, Блог компании ИТ-ГРАД, ИТ-ГРАД, машинное обучениеИскусственные нейронные сети отличаются от биологических аналогов неспособностью «запомнить» прошлые навыки при обучении новой задаче. Искусственный интеллект, натренированный на распознавание собак, не сможет различать людей. Для этого его придется переобучить, однако при этом сеть «забудет» о существовании собак. То же касается и игр – ИИ, умеющий играть в покер, не выиграет в шахматы.
Эта особенность называется «катастрофической забывчивостью» (catastrophic forgetting). Однако ученые из компании DeepMind и Имперского колледжа Лондона разработали алгоритм обучения глубоких нейронных сетей, который способен приобретать новые навыки, сохраняя «память» о предыдущих задачах.
Рассказ о том, как я ездил на Google Next 17. Краткая выжимка по анонсам и самому важному
2017-03-27 в 5:21, admin, рубрики: cloud, cloud computing, cloud platform, clouds, GCP, Google, Google API, google app engine, google cloud, Google Cloud Platform, Блог компании Voximplant, машинное обучениеВсем привет! Я хочу рассказать о том, как съездил на конференцию Google Next. На конференции я был первый раз, забегая вперед скажу, что остался доволен и почти все самые интересные технические анонсы были во второй день, но, давайте обо всем по порядку.
Проект выходного дня сотрудника IBM и его сына: виртуальный помощник по кибербезопасности Havyn
2017-03-25 в 0:27, admin, рубрики: bluemix, IBM, open source, Блог компании IBM, Джарвис, машинное обучение
Эван Спайсек — 11 летний сын сотрудника IBM Майка Спайсека. Однажды сыну и отцу пришла в голову идея сделать что-то вместе на выходных. Но они не стали создавать очередной скворечник. Вместо этого было решено разработать голосового помощника типа Джарвиса из «Железного человека». Новая разработка получила название Havyn. По принципу работы он больше похож на голосового ассистента корпорации Amazon, Alexa.
Но Havyn не подключается по запросу к облаку с музыкой, вместо этого он занимается защитой своего владельца от различных киберугроз. Функции этого помощника довольно специфичны, но именно таков был выбор Майка и Эвана Спайсеков. Изначально Havyn умел только отвечать на текстовые запросы, введенные с клавиатуры. Чуть позже его обучили распознавать и голосовые запросы.
Читать полностью »
Соревнование mlbootcamp от mail.ru. Кратко о рецепте второго места
2017-03-24 в 22:11, admin, рубрики: machine learning, mail boot camp, ml, mlbootcamp, python, машинное обучение, метки: mail boot camp, mlbootcampДобрый день, читатель! Данная статья расскажет о пути получения второго места на соревновании MLBootCamp III. Для тех, кто не в курсе — это соревнование по машинному обучению и анализу данных от Mail.Ru Group, проходило с 15 февраля по 15 марта.
В статье будет коротко про историю построения решения, немного советов про то, на чем набил шишек и благодарности.
Итак, поехали.
Читать полностью »
Геометрия машинного обучения. Разделяющие гиперплоскости или в чём геометрический смысл линейной комбинации?
2017-03-24 в 9:39, admin, рубрики: Алгоритмы, логистическая регрессия, машинное обучение, метод опорных векторов, нейронные сетиВо многих алгоритмах машинного обучения, в том числе в нейронных сетях, нам постоянно приходится иметь дело со взвешенной суммой или, иначе, линейной комбинацией компонент входного вектора. А в чём смысл получаемого скалярного значения?
В статье попробуем ответить на этот вопрос с примерами, формулами, а также множеством иллюстраций и кода на Python, чтобы вы могли легко всё воспроизвести и поставить свои собственные эксперименты.Читать полностью »
Технологический стек классификации текстов на естественных языках
2017-03-23 в 11:35, admin, рубрики: nlp, word2vec, машинное обучение, СемантикаВ данном посте мы рассмотрим современные подходы, применяемые для классификации текстов на естественном языке по их тематикам. Выбранные методы работы с документами определены общей сложной спецификой задачи – зашумлёнными обучающими выборками, выборками недостаточного размера или вообще отсутствующими выборками, сильным перекосом размеров классов и так далее. В общем – реальные практические задачи. Прошу под кат.
Читать полностью »
Предсказываем будущее с помощью библиотеки Facebook Prophet
2017-03-23 в 11:01, admin, рубрики: arima, arma, data mining, machine learning, ods, Predictions, prophet, python, time series, Блог компании Open Data Science, математика, машинное обучение
Прогнозирование временных рядов — это достаточно популярная аналитическая задача. Прогнозы используются, например, для понимания, сколько серверов понадобится online-сервису через год, каков будет спрос на каждый товар в гипермаркете, или для постановки целей и оценки работы команды (для этого можно построить baseline прогноз и сравнить фактическое значение с прогнозируемым).
Существует большое количество различных подходов для прогнозирования временных рядов, такие как ARIMA, ARCH, регрессионные модели, нейронные сети и т.д.
Сегодня же мы познакомимся с библиотекой для прогнозирования временных рядов Facebook Prophet
(в переводе с английского, "пророк", выпущена в open-source 23-го февраля 2017 года), а также попробуем в жизненной задаче – прогнозировании числа постов на Хабрехабре.
Кластеризация текстовых документов по семантическим признакам (часть первая: описание алгоритма)
2017-03-22 в 20:32, admin, рубрики: data mining, word2vec, Алгоритмы, кластеризация, машинное обучение, обработка текста, Семантика, метки: word2vecСуществует огромное количество алгоритмов кластеризации. Основная идея большинства из них – объединить одинаковые последовательности в один класс или кластер на основе сходства. Как правило, выбор алгоритма определяется поставленной задачей. Что касается текстовых данных, то здесь сравниваемыми составляющими служат последовательности слов и их атрибутов (например, вес слова в тексте, тип именованной сущности, тональность и пр.). Таким образом, тексты изначально преобразуются в вектора, с которыми производят разного типа манипуляции. При этом, как правило, возникает ряд проблем, связанных с: выбором первичных кластеров, зависимостью качества кластеризации от длины текста, определением общего количества кластеров и т.п. Но наиболее сложной проблемой является отсутствие связи между близкими по смыслу текстами, в которых используется разная лексика. В таких случаях объединение должно происходить не только на основе сходства, а еще и на основе семантической смежности или ассоциативности.
Читать полностью »
Решение задачи кредитного скоринга методом логистической регрессии
2017-03-22 в 15:23, admin, рубрики: логистическая регрессия, машинное обучение, скорингОтучившись на нескольких онлайн-курсах, попробовал занять позицию, связанную с Machine Learning — на входе получил тестовое задание о кредитном скоринге. Свое решение которой здесь и привожу:
Задание
Данные содержат информацию о выданных кредитах, требуется предсказать вероятность успешного возврата кредита.
Тренировочная выборка содержится в файле train.csv, тестовая — test.csv.
Информация о значениях признаков содержится в файле feature_descr.xlsx.
Целевой признак — loan_status (бинарный). 1 означает что кредит успешно вернули.
В рамках тестового задания вам предлагается:
- Обучить модель на предоставленных данных, найти качество полученной модели.
- Записать предсказания (вероятности) для тестового набора в файл results.csv
- Продемонстрировать результаты анализа в графическом виде (ROC-curve)
Тщательный выбор фич и подбор гиперпараметров можно не проводить.