Пропущенные значения в данных — обычное в реальных задачах явление. Нужно знать, как эффективно работать с ними, если цель — уменьшить погрешность и построить точную модель. Давайте рассмотрим разные варианты обработки пропущенных значений и их реализацию.
Читать полностью »
Рубрика «data analysis» - 5
R: обработка пропущенных значений
2016-05-15 в 15:23, admin, рубрики: data analysis, data mining, data science, R, Блог компании Инфопульс УкраинаГлубокое обучение в гараже — Возвращение смайлов
2016-02-17 в 14:23, admin, рубрики: big data, data analysis, data mining, data science, deep learning, python, обработка изображений, Программирование
Это третья статья из серии про определение смайла по выражению лица.
Глубокое обучение в гараже — Братство данных
Глубокое обучение в гараже — Две сети
Глубокое обучение в гараже — Возвращение смайлов
Так что же со смайлами?
Фух, ну наконец, детекция лиц работает, можно учить сеть распознавания смайла. Только вот на чем учить? Открытых наборов данных нет. А из того, как долго в предыдущей части я добирался до, собственно, обучения моделей вы уже должны были понять, что в глубоком обучении данные решают все. И их нужно много.
Читать полностью »
Глубокое обучение в гараже — Две сети
2016-02-16 в 13:03, admin, рубрики: data analysis, data mining, data science, deep learning, neural networks, python, Алгоритмы, обработка изображений, Программирование
Это вторая статья из серии про определение смайла по выражению лица.
Глубокое обучение в гараже — Братство данных
Глубокое обучение в гараже — Две сети
Калибрация
Итак, с классификатором, разобрались, но вы наверняка уже заметили, что заоблачные 99% как-то не очень впечатляюще выглядят во время боевого теста на детекцию. Вот и я заметил. Дополнительно видно, что в последних двух примерах очень мелкий шаг движения окон, так в жизни работать не будет. В настоящем, реальном запуске шаг ожидается больше похожим на картинку для первой сети, а там хорошо видно неприятный факт: как бы хорошо сеть не искала лица, окна будут плохо выровнены к лицам. И уменьшение шага — явно не подходящее решение этой проблемы для продакшена.
Читать полностью »
Глубокое обучение в гараже — Братство данных
2016-02-15 в 10:54, admin, рубрики: big data, data analysis, data mining, data science, deep learning, gpgpu, python, Программирование
Вы тоже находите смайлы презабавнейшим феноменом?
В доисторические времена, когда я еще был школьником и только начинал постигать прелести интернета, с первых же добавленных в ICQ контактов смайлы ежедневно меня веселили: ну действительно, представьте, что ваш собеседник корчит рожу, которую шлет вам смайлом!
С тех пор утекло много воды, а я так и не повзрослел: все продолжаю иногда улыбаться присланным мне смайлам, представляя отправителя с глазами разного размера или дурацкой улыбкой на все лицо. Но не все так плохо, ведь с другой стороны я стал разработчиком и специалистом в анализе данных и машинном обучении! И вот, в прошлом году, мое внимание привлекла относительно новая, но интересная и будоражащая воображение технология глубокого обучения. Сотни умнейших ученых и крутейших инженеров планеты годами работали над его проблемами, и вот, наконец, обучать глубокие нейронные сети стало не сложнее "классических" методов, вроде обычных регрессий и деревянных ансамблей. И тут я вспомнил про смайлы!
Представьте, что чтобы отправить смайл, вы и вправду могли бы скорчить рожу, как бы было круто? Это отличное упражнение по глубокому обучению, решил я, и взялся за работу.
Читать полностью »
6 задач создания курсов по machine learning
2016-02-07 в 20:22, admin, рубрики: data analysis, data science, machine learning, анализ данных, Блог компании Московский физико-технический институт (МФТИ), машинное обучение, управление проектами, Учебный процесс в ITНа платформе Coursera запускается специализация по анализу данных и машинному обучению от специалистов из Яндекс и МФТИ. Специализация состоит из 6 курсов, которые будут стартовать с февраля до июля. На первый можно записаться уже сейчас.
В основе обучения на курсах лежит решение реальных задач анализа данных. Но чтобы сделать специализацию максимально удобной для изучения, его создатели тоже решали задачи. И решили! В этом посте они сами рассказывают о результатах.

Как уменьшить количество измерений и извлечь из этого пользу
2016-02-05 в 1:02, admin, рубрики: autoencoder, big data, data analysis, data mining, data science, deep learning, h2o, ICA, neural networks, NMF, PCA, R, SVD, главные компоненты, машинное обучение, Программирование, разложение Сначала я хотел честно и подробно написать о методах снижения размерности данных — PCA, ICA, NMF, вывалить кучу формул и сказать, какую же важную роль играет SVD во всем этом зоопарке. Потом понял, что получится текст, похожий на вырезки из опусов от Mathgen, поэтому количество формул свел к минимуму, но самое любимое — код и картинки — оставил в полном объеме.
Читать полностью »
Парные товары. Размещения товаров в торговом зале
2014-10-28 в 11:15, admin, рубрики: big data, data analysis, data mining, fmcg, retail, Алгоритмы, маркетинг, маркетинговый анализ, математика, продажи, ритейл, статистика
Привет!
В этом небольшом и простом кейсе мы расскажем, что такое парные товары, и как с помощью ассоциативных взаимосвязей увеличить доходность бизнеса.
Итак, Пары — это товары, часто покупаемые вместе. В паре один товар является ключевым (якорным), а второй — сопутствующим. И выявляем мы парные взаимосвязи товара при помощи алгоритма APRIORI.
Читать полностью »
Let’s fix NAs!
2014-02-02 в 0:41, admin, рубрики: data analysis, data mining, statistics, статистика, метки: data analysis, statistics, статистика Довольно часто встречаются неполные наборы данных, в которых некоторые переменные не определены. В языке R содержимое таких переменных задается как «Not Available» — или сокращенно NA. Соответственно, возникает вопрос, как поступать с неопределенными значениям: стоит ли их игнорировать или откорректировать каким-либо образом?
Читать полностью »
Educational Data Mining: введение
2013-05-27 в 11:38, admin, рубрики: analytics, data analysis, data mining, education, образование 2.0, учебный процесс, Учебный процесс в IT, метки: analytics, data analysis, data mining, education, образование 2.0, учебный процессNelson Mandela said: “Education is the most powerful weapon
which you can use to change the world.”
Волею судеб нам посчастливилось стать одними из участников курса по Data Mining (программа GameChangers, Санкт-Петербург). Цель курса – изучение методов и технологий обработки данных в различных областях IT-индустрии. Лекции у нас читают эксперты из крупнейших IT компаний, а студенты работают над реальными задачами и проектами.
И так получилось, что в рамках данного курса наша рабочая группа занимается разработкой проекта в области Educational Data Mining.
В России пока единицы знают о существовании этого направления, поэтому для начала в общих чертах расскажем про EDM: общие цели, кто может использовать и зачем.
Читать полностью »