В очередном выпуске обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения некоторое количество статей посвящено практическому применению различных видов регрессии. Есть интересная серия статей о применении машинного обучения в трейдинге. Как обычно много материалов посвящено алгоритмам машинного обучения (в том числе нейронным сетям). Есть несколько любопытных видеолекций, а также много статей про практическое применение языка R при анализе данных и машинном обучении.
Материалы по анализу данных и машинному обучению
- 16 направлений аналитики в сравнении с Data Science [EN]
Интересное сравнение относительно новой дисциплины Data Science с различными направлениями аналитики (data mining, machine leraning, statistics и др.) - Нелинейная регрессия в R [EN]
4 вида нелинейной регрессии с примерами на языке программирования R. - Визуализация логистической регрессии с помощью Shiny [EN]
Статья о создании интерактивный графиков для визуализации логистической регрессии с помощью пакета Shiny для языка программирования R. - Все что вы хотели знать о машинном обучении, но боялись спросить (часть 1) [EN]
Интересная статья, посвященная основам машинного обучения. - Все что вы хотели знать о машинном обучении, но боялись спросить (часть 2) [EN]
Продолжение серии статей, посвященных основам машинного обучения. - Разница между library() и require() в языке R [EN]
Небольшая статья о том, в каких случаях использовать library() и require() в языке R. Часто возникает путаница в данном вопросе. - Применение машинного обучения для трейдинга (часть 1) [EN]
Введение в тему использования машинного обучения для трейдинга. - Применение машинного обучения для трейдинга (часть 2) [EN]
Продолжение темы использования машинного обучения для трейдинга. - Применение линейной регрессии при помощи R [EN]
Статья о применении 4 видов линейной регрессии при помощи языка программирования R. - Стэнфордский университет опубликовал большую коллекцию наборов данных [RU]
Стэнфордский университет опубликовал большую коллекцию графовых наборов данных (Stanford Large Network Dataset Collection), то есть данных которые организованы в виде графов или сетей. Похоже, что это отличный набор данных, на котором можно будет экспериментировать и оттачивать свои навыки в анализе данных и машинном обучении. - Еженедельный дайджест от DataScienceCentral [EN]
Регулярный еженедельный дайджест статей по анализу данных от портала DataScienceCentral. - Введение в сверточные нейронные сети (часть 1) [EN]
Вводная статья про популярные сейчас сверточные нейронные сети, написанная достаточно простым языком. - Введение в сверточные нейронные сети (часть 2) [EN]
Продолжение дискуссии про сверточные нейронные сети. Во второй части автор уделяет большое внимание теории сверточных нейронных сетей. - Наборы данных для машинного обучения [RU]
Список ресурсов на которых можно найти большое количество интересных наборов данных (data sets) для машинного обучения и анализа данных. - Использование цепей Маркова на практике [EN]
Пример возможного применения цепей Маркова в практических задачах на примере банковского кредитования и оценки рисков. - Penalized regression при помощи R [EN]
Статья о применении Penalized Regression при помощи языка программирования R. - Поиск дубликатов с применением машинного обучения [EN]
Интересная статья, написанная достаточно простым языком, о типовой задаче поиска дубликатов в записях, с применением машинного обучения. В статья приведены примеры кода на языке Python. - Упрощение R кода с помощью библиотеки magrittr и pipelines [EN]
Упрщение кода в языке программирования R, с использованием библиотеки magrittr, которая позволяет применять подход pipeline к коду. - MLlib — библиотека машинного обучения для Apache Spark [EN]
Небольшая статья про библиотеку машинного обучения MLlib для набирающего популярность Apache Spark. - Видеолекции Quoc Le по Deep Learning [EN]
Quoc Le из команды Google Brain представляет видеолекции по технике машинного обучения Deep Learning, которые были рассказаны на летней школе машинного обучения Machine Learning Summer School (MLSS ’14) в Питтсбурге. - 10 видов линейной регрессии [EN]
Небольшая статья про вопрос правильного выбора различных видов линейной регрессии при машинном обучении. - Применение машинного обучения для соревнований на Kaggle [EN]
Для улучшения своих навыков машинного обучения часто важно изучать готовые примеры решений от специалистов по анализу данных. В данной статье рассматривается пример решения известной задачи с сайта Kaggle — гибель пассажиров Титаника. Автор решения использует язык программирования R в своем примере. - Введение в машинное обучение [EN]
Ссылка на второе издание отличной книги по машинному обучению. - Правда о стартапах в области Data Science [EN]
Интересные рассуждения о проблемах, с которыми можно столкнуться при создании стартапа в области Data Science. - Как улучшить свои навыки машинного обучения [EN]
Хороший краткий список книг по машинному обучению, которые помогут вам поднять свой уровень в данном вопросе. - Эксперимент в Яндексе. Как идентифицировать взломщика с помощью машинного обучения [RU]
Статья о применении машинного обучения в Яндексе для попытки классификации злоумышленника и обычного пользователя по поведенческим признакам. Подробности работы данных алгоритмов, к сожалению, особенно не раскрываются.
Предыдущий выпуск: Обзор наиболее интересных материалов по анализу данных и машинному обучению №5 (7 — 21 июля 2014)
Автор: moat