Рубрика «kaggle» - 8

Фестиваль данных в музее Москвы, или как Big Data помогает жить и работать

2015-12-16 в 10:33, admin, рубрики: big data, data mining, kaggle, R, sna, Алгоритмы, алгоритмы обработки данных, анализ данных, анализ социальных сетей, Блог компании ВымпелКом (Билайн), машинное обучение, рекомендательные системы, школа данных

Фестиваль данных в музее Москвы, или как Big Data помогает жить и работать - 1

Привет Хабр,

Если вам давно было интересно, как Big Data применяется в разных областях бизнеса, науки и государственного управления и это хотелось услышать от самих людей, которые этим занимаются, то добро пожаловать на Фестиваль Данных, который будет проходить 19 декабря на Выставке Высоких Технологий SMIT в Музее Москвы.

В течение нескольких часов работы Фестиваля ведущие эксперты отрасли из Yandex, Школы Данных «Билайн», Data-Centric Alliance, Авито, ГУП «НИ и ПИ Генплана Москвы, НИУ ВШЭ расскажут гостям выставки о перспективах использования анализа данных в ближайшие несколько лет.
Читать полностью »

Мешок слов и сентимент-анализ на R

2015-04-07 в 9:12, admin, рубрики: data mining, kaggle, R, random forest, машинное обучение, мешок слов, сантимент-анализ, метки: R, R, random forest, мешок слов, сантимент-анализ

Эта статья подготовлена по мотивам (первой части) учебного задания Bag of Words Kaggle, но это не перевод. Оригинальное задание сделано на Python. Я же хотел оценить возможности языка R для обработки текстов на естественном языке и заодно попробовать реализацию Random Forest в обертке R-пакета caret.

Смысл задания – построить «машину», которая будет определенным образом обрабатывать обзоры фильмов на английском языке и определять тональность обзора, относя его к одному из двух классов: негативные/позитивные. В качестве обучающей выборки в задании используется набор данных с двадцатью пятью тысячами ревю из IMDB, размеченных неизвестными добровольцами.
Читать полностью »

Пример Feature Engineering в машинном обучении

2015-02-04 в 20:46, admin, рубрики: big data, data mining, kaggle, machine learning, python, Алгоритмы, разработка, метки: Big Data, Data Mining, Kaggle, Machine Learning, Python

Привет!

Пример Feature Engineering в машинном обучении - 1

В одной из прошлых статей мы познакомились с таким понятием как Feature Engineering и применением его на практике. В комментариях было озвучено пожелание показать на примере, как искусство генерации признаков помогает заметно улучшить качество алгоритмов машинного обучения. Я поискал задачи, в которых бы это можно было наглядно продемонстрировать и нашел один хороший пример. Это задача Forest Cover Type Prediction. Покажем, как можно применяя простые идеи, не содержащие в себе машинное обучение, сразу попасть в топ 10% Leader Board!
Читать полностью »

Как начать работу в Kaggle: руководство для новичков в Data Science

2015-01-21 в 6:36, admin, рубрики: big data, data mining, kaggle, machine learning, nolearn, python, актуальная проблематика, анализ данных, глубокое обучение, искусственные нейронные сети, искусственный интеллект, новичкам, обучение, Питон, рython

Доброго времени суток, уважаемыее! Сегодня я хотел бы поговорить о том, как не имея особого опыта в машинном обучении, можно попробовать свои силы в соревнованиях, проводимых Kaggle.

Как вам уже, наверное, известно, Kaggle – это платформа для исследователей разных уровней, где они могут опробовать свои модели анализа данных на серьезных и актуальных задачах. Суть такого ресурса – не только в возможности получить неплохой денежный приз в случае, если именно ваша модель окажется лучшей, но и в том (а, это, пожалуй, гораздо важнее), чтобы набраться опыта и стать специалистом в области анализа данных и машинного обучения. Ведь самый важный вопрос, зачастую стоящий перед такого рода специалистами – где найти реальные задачи? Здесь их достаточно.

Мы попробуем поучаствовать в обучающем соревновании, не предусматривающем каких-либо поощрений, кроме опыта.
Читать полностью »

Искусство Feature Engineering в машинном обучении

2015-01-17 в 9:45, admin, рубрики: big data, data mining, kaggle, machine learning, python, математика

Привет!

Искусство Feature Engineering в машинном обучении - 1

В предыдущей статье (Введение в машинное обучение с помощью Python и Scikit-Learn) мы с вами познакомились с основными этапами решения задач машинного обучения. Сегодня подробнее поговорим о техниках, которые позволяют заметно увеличить качество разрабатываемых алгоритмов. Одна из таких техник — Feature Engineering. Сразу отметим, что это своего рода искусство, обучиться которому можно только прорешав огромное количество задач. Тем не менее, с опытом вырабатываются некие общие подходы, которыми хотелось бы поделиться в данной статье.
Читать полностью »

Data mining: Инструментарий — Theano

2013-05-07 в 18:56, admin, рубрики: big data, data mining, kaggle, python, метки: kaggle, python

Data mining: Инструментарий — Theano
В предыдущих материалах этого цикла мы рассматривали методы предварительной обработки данных при помощи СУБД. Это может быть полезно при очень больших объемах обрабатываемой информации. В этой статье я продолжу описывать инструменты для интеллектуальной обработки больших объёмов данных, остановившись на использовании Python и Theano.
Читать полностью »

Распознавание рукописных символов с использованием Python и scikit

2013-03-05 в 14:00, admin, рубрики: data mining, kaggle, python, Песочница, распознавание символов, метки: data mining, kaggle, python, распознавание символов

Привет. Наверняка многие интересуются методами машинного обучения и решения различных задач, которые обычными подходами не решаются. Недавно мне посчастливилось попасть на курс Data Mining, организованный в рамках программы GameChangers. Первым же домашним заданием было сделать сабмит на Kaggle — решить задачу Digit Recognizer.
Читать полностью »

Знания предметной области бесполезны. Когда предсказания становятся игрой, эксперты проигрывают

2013-01-22 в 7:03, admin, рубрики: data mining, kaggle, machine learning, random forest, Алгоритмы, машинное обучение, переводы, Статистика в IT

Знания предметной области бесполезны. Когда предсказания становятся игрой, эксперты проигрывают
Джереми Ховард — президент и «главный по науке» компании Kaggle, превратившей статистическое прогнозирование в спорт.

Peter Aldhous: Kaggle называет себя онлайн-биржей мозгов. Расскажите об этом.

Джереми Ховард: Это веб-сайт, на котором размещают конкурсы по статистическому прогнозированию. Мы провели много удивительных конкурсов. Например, разработка алгоритма оценки студенческих рефератов. Или вот недавно закончился конкурс на разработку системы обучения Microsoft Kinect жестам. Идея состояла в том, чтобы показать контроллеру жест один раз, а алгоритм должен обучиться распознавать такие жесты в будущем. Еще один конкурс — прогнозирование биологических свойств молекул при скрининге на возможные наркотические свойства.

Читать полностью »

Data Mining: Первичная обработка данных при помощи СУБД. Часть 3 (Сводные таблицы)

2013-01-21 в 19:01, admin, рубрики: big data, data mining, kaggle, pivot tables, postgresql, sql, titanik, метки: big data, data mining, kaggle, pivot tables, postgresql, titanik

Данная серия посвящена анализу данных для поиска закономерностей. В качестве примера используется одна из обучающих задач сообщества спортивного анализа данных Kaggle. Хотя размеры данных для задачи не большие, методы обработки, которые будут рассматриваться вполне применимы для больших объемов данных.
После выполнения Часть 1 и Части 2 сформировались две таблицы, содержащие преобразованные данные.
titanik_test_3 и titanik_train_3.
Читать полностью »

Data Mining: Первичная обработка данных при помощи СУБД. Часть 1

2013-01-09 в 13:02, admin, рубрики: big data, data mining, kaggle, sql, titanik, анализ данных, метки: data mining, kaggle, sql, titanik, анализ данных

О чем статья

В задачах исследования больших объемов данных есть множество тонкостей и подводных камней. Особенно для тех, кто только начинает исследовать скрытые зависимости и внутренние связи внутри массивов информации. Если человек делает это самостоятельно, то дополнительной трудностью становится выбор примеров, на которых можно учиться и поиск сообщества для обмена мнениями и оценки своих успехов. Пример не должен быть слишком сложным, но в тоже время должен покрывать основные проблемы. озникающие при решении задач приближенных к реальности, так чтобы задача не воспринималась примерно вот так:
Data Mining: Первичная обработка данных при помощи СУБД. Часть 1
С этой точки зрения, очень интересным будет ресурс Kaggle[1], который превращает исследование данных в спорт. Там проводят соревнования по анализу данных. Некоторые соревнования — с обучающими материалами и предназначены для начинающих. Вот именно обучению анализу данных, на примере решения одной из обучающих задач, и будет посвящён цикл статей. Первая статья будет о подготовке данных и использованию СУБД для этой цели. Собственно, о том, как и с чего начать. Предполагается что читатель понимает SQL.
Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «kaggle» - 8

Фестиваль данных в музее Москвы, или как Big Data помогает жить и работать

Мешок слов и сентимент-анализ на R

Пример Feature Engineering в машинном обучении

Как начать работу в Kaggle: руководство для новичков в Data Science

Искусство Feature Engineering в машинном обучении

Data mining: Инструментарий — Theano

Распознавание рукописных символов с использованием Python и scikit

Знания предметной области бесполезны. Когда предсказания становятся игрой, эксперты проигрывают

Data Mining: Первичная обработка данных при помощи СУБД. Часть 3 (Сводные таблицы)

Data Mining: Первичная обработка данных при помощи СУБД. Часть 1

О чем статья

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «kaggle» - 8

О чем статья

Новости

Актуальные темы

Архив