Всем привет! Я хочу рассказать о том, как съездил на конференцию Google Next. На конференции я был первый раз, забегая вперед скажу, что остался доволен и почти все самые интересные технические анонсы были во второй день, но, давайте обо всем по порядку.
Рубрика «машинное обучение» - 217
Рассказ о том, как я ездил на Google Next 17. Краткая выжимка по анонсам и самому важному
2017-03-27 в 5:21, admin, рубрики: cloud, cloud computing, cloud platform, clouds, GCP, Google, Google API, google app engine, google cloud, Google Cloud Platform, Блог компании Voximplant, машинное обучениеПроект выходного дня сотрудника IBM и его сына: виртуальный помощник по кибербезопасности Havyn
2017-03-25 в 0:27, admin, рубрики: bluemix, IBM, open source, Блог компании IBM, Джарвис, машинное обучение
Эван Спайсек — 11 летний сын сотрудника IBM Майка Спайсека. Однажды сыну и отцу пришла в голову идея сделать что-то вместе на выходных. Но они не стали создавать очередной скворечник. Вместо этого было решено разработать голосового помощника типа Джарвиса из «Железного человека». Новая разработка получила название Havyn. По принципу работы он больше похож на голосового ассистента корпорации Amazon, Alexa.
Но Havyn не подключается по запросу к облаку с музыкой, вместо этого он занимается защитой своего владельца от различных киберугроз. Функции этого помощника довольно специфичны, но именно таков был выбор Майка и Эвана Спайсеков. Изначально Havyn умел только отвечать на текстовые запросы, введенные с клавиатуры. Чуть позже его обучили распознавать и голосовые запросы.
Читать полностью »
Соревнование mlbootcamp от mail.ru. Кратко о рецепте второго места
2017-03-24 в 22:11, admin, рубрики: machine learning, mail boot camp, ml, mlbootcamp, python, машинное обучение, метки: mail boot camp, mlbootcampДобрый день, читатель! Данная статья расскажет о пути получения второго места на соревновании MLBootCamp III. Для тех, кто не в курсе — это соревнование по машинному обучению и анализу данных от Mail.Ru Group, проходило с 15 февраля по 15 марта.
В статье будет коротко про историю построения решения, немного советов про то, на чем набил шишек и благодарности.
Итак, поехали.
Читать полностью »
Геометрия машинного обучения. Разделяющие гиперплоскости или в чём геометрический смысл линейной комбинации?
2017-03-24 в 9:39, admin, рубрики: Алгоритмы, логистическая регрессия, машинное обучение, метод опорных векторов, нейронные сетиВо многих алгоритмах машинного обучения, в том числе в нейронных сетях, нам постоянно приходится иметь дело со взвешенной суммой или, иначе, линейной комбинацией компонент входного вектора. А в чём смысл получаемого скалярного значения?
В статье попробуем ответить на этот вопрос с примерами, формулами, а также множеством иллюстраций и кода на Python, чтобы вы могли легко всё воспроизвести и поставить свои собственные эксперименты.Читать полностью »
Технологический стек классификации текстов на естественных языках
2017-03-23 в 11:35, admin, рубрики: nlp, word2vec, машинное обучение, СемантикаВ данном посте мы рассмотрим современные подходы, применяемые для классификации текстов на естественном языке по их тематикам. Выбранные методы работы с документами определены общей сложной спецификой задачи – зашумлёнными обучающими выборками, выборками недостаточного размера или вообще отсутствующими выборками, сильным перекосом размеров классов и так далее. В общем – реальные практические задачи. Прошу под кат.
Читать полностью »
Предсказываем будущее с помощью библиотеки Facebook Prophet
2017-03-23 в 11:01, admin, рубрики: arima, arma, data mining, machine learning, ods, Predictions, prophet, python, time series, Блог компании Open Data Science, математика, машинное обучениеПрогнозирование временных рядов — это достаточно популярная аналитическая задача. Прогнозы используются, например, для понимания, сколько серверов понадобится online-сервису через год, каков будет спрос на каждый товар в гипермаркете, или для постановки целей и оценки работы команды (для этого можно построить baseline прогноз и сравнить фактическое значение с прогнозируемым).
Существует большое количество различных подходов для прогнозирования временных рядов, такие как ARIMA, ARCH, регрессионные модели, нейронные сети и т.д.
Сегодня же мы познакомимся с библиотекой для прогнозирования временных рядов Facebook Prophet
(в переводе с английского, "пророк", выпущена в open-source 23-го февраля 2017 года), а также попробуем в жизненной задаче – прогнозировании числа постов на Хабрехабре.
Кластеризация текстовых документов по семантическим признакам (часть первая: описание алгоритма)
2017-03-22 в 20:32, admin, рубрики: data mining, word2vec, Алгоритмы, кластеризация, машинное обучение, обработка текста, Семантика, метки: word2vecСуществует огромное количество алгоритмов кластеризации. Основная идея большинства из них – объединить одинаковые последовательности в один класс или кластер на основе сходства. Как правило, выбор алгоритма определяется поставленной задачей. Что касается текстовых данных, то здесь сравниваемыми составляющими служат последовательности слов и их атрибутов (например, вес слова в тексте, тип именованной сущности, тональность и пр.). Таким образом, тексты изначально преобразуются в вектора, с которыми производят разного типа манипуляции. При этом, как правило, возникает ряд проблем, связанных с: выбором первичных кластеров, зависимостью качества кластеризации от длины текста, определением общего количества кластеров и т.п. Но наиболее сложной проблемой является отсутствие связи между близкими по смыслу текстами, в которых используется разная лексика. В таких случаях объединение должно происходить не только на основе сходства, а еще и на основе семантической смежности или ассоциативности.
Читать полностью »
Решение задачи кредитного скоринга методом логистической регрессии
2017-03-22 в 15:23, admin, рубрики: логистическая регрессия, машинное обучение, скорингОтучившись на нескольких онлайн-курсах, попробовал занять позицию, связанную с Machine Learning — на входе получил тестовое задание о кредитном скоринге. Свое решение которой здесь и привожу:
Задание
Данные содержат информацию о выданных кредитах, требуется предсказать вероятность успешного возврата кредита.
Тренировочная выборка содержится в файле train.csv, тестовая — test.csv.
Информация о значениях признаков содержится в файле feature_descr.xlsx.
Целевой признак — loan_status (бинарный). 1 означает что кредит успешно вернули.
В рамках тестового задания вам предлагается:
- Обучить модель на предоставленных данных, найти качество полученной модели.
- Записать предсказания (вероятности) для тестового набора в файл results.csv
- Продемонстрировать результаты анализа в графическом виде (ROC-curve)
Тщательный выбор фич и подбор гиперпараметров можно не проводить.
История 3-го места на ML Boot Camp III
2017-03-22 в 11:56, admin, рубрики: machine learning, ML Boot Camp, R, машинное обучение, Программирование, Спортивное программированиеНедавно завершился контест по машинному обучению ML Boot Camp III от Mail.Ru.
Будучи новичком в machine learning мне удалось занять 3-е место. И в этой статье я постараюсь поделиться своим опытом участия.

Власть народу: как использовать ИИ для решения человеческих проблем
2017-03-22 в 11:07, admin, рубрики: AI, future, Parallels, Блог компании Parallels, искусственный интеллект, машинное обучение, Программирование, Разработка для интернета вещей, Разработка робототехники, роботыВпечатляющие результаты ряда исследований, проведённые в последние годы, привлекли внимание мирового сообщества к теме машинного обучения. Со времён «зимы искусственного интеллекта» мы ещё никогда не были так воодушевлены возможностями этой технологии. Но несмотря на всплеск интереса, ряд ученых считают, что многие из нас уделяют слишком много внимания не тем исследованиям. За всей этой шумихой практически незаметной осталась небольшая группа исследователей, которые втихую закладывают фундамент для дальнейшего использования машинного обучения, которое позволит решить многие проблемы человечества.Читать полностью »