Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения. В данном выпуске достаточно много практических примеров кода на языках программирования R и Python. Также в данном обзоре есть достаточно много статей, которые будут интересны новичкам. Несколько статей посвящено онлайн-курсам. Как обычно много материалов посвящено алгоритмам машинного обучения
Материалы по анализу данных и машинному обучению
- Введение в машинное обучение
Отличная статья, описывающая базовые понятия машинного обучения. - Линейная классификация в R
Три вида линейной классификации с примерами на языке программирования R. - Рекомендации в Spotify с использованием Deep Learning
Автор рассказывает как работает система рекомендаций в популярном сервисе Spotify. - Новый онлайн-курс по искусственному интеллекту
Достаточно интересный по описанию новый онлайн-курс по искусственному интеллекту от LIRIS под названием IDEAL MOOC стартует в октябре 2014 года. - Один год участия в соревнованиях Kaggle
В данной статье автор рассказывает об опыте своего участия в различных соревнованиях по машинному обучению на Kaggle за один год. До этого большого опыта по теме машинного обучения у автора не было. - Учась у лучших
Крайне полезная публикация, которая содержит советы от лучших участников Kaggle о том, как достичь успеха в соревнованиях по машинному обучению. - Вставка значений NA в произвольные места в вектор
Пример полезного кода на языке программирования R. В данном примере кода решается достаточно часто возникающая задача, когда для различных целей в вектор значений необходимо вставить несколько NA-значений в произвольные места. - Новый канал на YouTube, посвященный анализу данных
Автор блога Oz Analytics в дополнение к своему блогу открыл новый канал на YouTube, в котором будет освещать различные темы, связанные с аналитикой, бизнес-аналитикой и Data Science. - Визуализация цепей Маркова
Великолепная визуализация работы алгоритма цепей Маркова. - Визуализация географических данных с помощью R
Интересная статья о том, как визуализировать географические данные с помощью языка программирования R и популярной библиотеки визуализации ggplot2. - Цепочки операций: интересная возможность в библиотеке dplyr
Интересный пример кода использования цепочек операций при использовании популярной библиотеки dplyr для языка программирования R. - Сертификаты и сертификация в области анализе данных
Большой интересный список возможных вариантов курсов, по окончании которых можно получить сертификат в области анализа данных. Здесь есть варианты онлайн-курсов, различных вариантов сертификации и очного обучения. - Удачное применение предсказательной модели
Полезный пост от автора MachineLearningMachinery о том, как можно найти интересные и удачные применения предсказательной модели. - Какие навыки важны для Data Scientist
Очень интересная статья о том, какие навыки важны для начинающего специалиста по анализу данных, а какие не так важны, как может показаться на первый взгляд, для вашего портфолио. - NoSQL или SQL: как сделать правильный выбор?
За последние годы количество различных вариантов баз данных, которые можно выбрать для своего приложения, значительно выросло. Из-за этого у разработчиков приложений появилось достаточно много вопросов, данный вебкаст постарается ответить на самые важные из них. - Планы Microsoft в области машинного обучения
Статья расскажет о планах Microsoft на будущее в области машинного обучения. Microsoft запускает свою облачную платформу Azure ML, чему уделено много внимания в данной публикации. - Как стать Data Scientist: MS Program, Bootcamp или MOOC
Интересные рассуждения о том, какие пути существуют, для того чтобы стать Data Scientist и какие у каждого пути есть особенности. - Решение для соревнования по машинному обучению «Higgs Boson» на Kaggle
Вариант решения задачи соревнования по машинному обучению «Higgs Boson» на Kaggle. Автор использует Python, Pandas и Scikit Learn для своего решения. - Сравнение прогнозируемой продолжительности жизни женщин и мужчин
Хороший пример обработки данных на языке программирования R. - Heiko Strathmann рассказывает о библиотеке для машинного обучения Shogun
Heiko Strathmann в данной небольшой видеолекции рассказывает о библиотеке для машинного обучения Shogun, одним из автором которой он является. Основное направление данной библиотеки — это использование метода опорных векторов для решения проблем регрессионного анализа и классификации. - Обработка данных по авиакатастрофам
Хороший пример обработки данных на языке программирования R. - Параметризированные SQL-запросы
Хорошая статья про то как правильно писать и использовать параметризированные SQL-запросы, в том числе как их использовать в языке программирования R. - Дайджест лучших ресурсов от DataScienceCentral (4 августа)
Неплохой список свежих интересных статей и ресурсов от DataScienceCentral. - Семь столпов статистической мудрости
Небольшая статья про 7 вещей, которые крайне важны в статистической науке. - Плохие привычки при написании SQL-кода
Нелохая статья с небольшим списком ошибок, которые часто допускаются при написании SQL-кода. - Пример использования функции glm() в R
Простой пример использования функции glm() в языке программирования R из библиотеки stats. - Подготовка данных для предсказательного моделирования
Интересная статья от автора MachineLearningMachinery о возможностях улучшения предсказательной модели за счет лучшей предобработки данных. - 11 необходимых вещей для Data Science
Отличная шпаргалка из 11 пунктов от портала DataScienceCentral, которая будет полезна любому кто интересуется темой Data Science. - Интересные идеи из биостатистики для A/B-тестирования
Данный материал может привлечь внимание тех, кто интересуется темой A/B-тестирования. В этой краткой статье предлагаются некоторые идеи из биостатистики, которые моугт быть применимы для A/B-тестирования. - Машинное обучение и компьютерное зрение
Очередная статья от Microsoft Technet Machine Learning Blog, посвященная использованию машинного обучения при решении вопросов распознавания образов и применения технологий компьютерного зрения. Статья небольшая и написана простым языком, без погружения в детали данной достаточно сложной темы.
Предыдущий выпуск: Обзор наиболее интересных материалов по анализу данных и машинному обучению №7 (28 июля — 4 августа 2014)
Автор: moat