Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения. В данном выпуске достаточно много практических примеров кода на языках программирования R и Python. Также в данном обзоре есть достаточно много статей, которые будут интересны новичкам. Несколько статей посвящено онлайн-курсам. Как обычно много материалов посвящено алгоритмам машинного обучения
Материалы по анализу данных и машинному обучению
Введение в машинное обучение
Отличная статья, описывающая базовые понятия машинного обучения.Линейная классификация в R
Три вида линейной классификации с примерами на языке программирования R.Рекомендации в Spotify с использованием Deep Learning
Автор рассказывает как работает система рекомендаций в популярном сервисе Spotify.Новый онлайн-курс по искусственному интеллекту
Достаточно интересный по описанию новый онлайн-курс по искусственному интеллекту от LIRIS под названием IDEAL MOOC стартует в октябре 2014 года.Один год участия в соревнованиях Kaggle
В данной статье автор рассказывает об опыте своего участия в различных соревнованиях по машинному обучению на Kaggle за один год. До этого большого опыта по теме машинного обучения у автора не было.Учась у лучших
Крайне полезная публикация, которая содержит советы от лучших участников Kaggle о том, как достичь успеха в соревнованиях по машинному обучению.Вставка значений NA в произвольные места в вектор
Пример полезного кода на языке программирования R. В данном примере кода решается достаточно часто возникающая задача, когда для различных целей в вектор значений необходимо вставить несколько NA-значений в произвольные места.Новый канал на YouTube, посвященный анализу данных
Автор блога Oz Analytics в дополнение к своему блогу открыл новый канал на YouTube, в котором будет освещать различные темы, связанные с аналитикой, бизнес-аналитикой и Data Science.Визуализация цепей Маркова
Великолепная визуализация работы алгоритма цепей Маркова.Визуализация географических данных с помощью R
Интересная статья о том, как визуализировать географические данные с помощью языка программирования R и популярной библиотеки визуализации ggplot2.Цепочки операций: интересная возможность в библиотеке dplyr
Интересный пример кода использования цепочек операций при использовании популярной библиотеки dplyr для языка программирования R.Сертификаты и сертификация в области анализе данных
Большой интересный список возможных вариантов курсов, по окончании которых можно получить сертификат в области анализа данных. Здесь есть варианты онлайн-курсов, различных вариантов сертификации и очного обучения.Удачное применение предсказательной модели
Полезный пост от автора MachineLearningMachinery о том, как можно найти интересные и удачные применения предсказательной модели.Какие навыки важны для Data Scientist
Очень интересная статья о том, какие навыки важны для начинающего специалиста по анализу данных, а какие не так важны, как может показаться на первый взгляд, для вашего портфолио.NoSQL или SQL: как сделать правильный выбор?
За последние годы количество различных вариантов баз данных, которые можно выбрать для своего приложения, значительно выросло. Из-за этого у разработчиков приложений появилось достаточно много вопросов, данный вебкаст постарается ответить на самые важные из них.Планы Microsoft в области машинного обучения
Статья расскажет о планах Microsoft на будущее в области машинного обучения. Microsoft запускает свою облачную платформу Azure ML, чему уделено много внимания в данной публикации.Как стать Data Scientist: MS Program, Bootcamp или MOOC
Интересные рассуждения о том, какие пути существуют, для того чтобы стать Data Scientist и какие у каждого пути есть особенности.Решение для соревнования по машинному обучению «Higgs Boson» на Kaggle
Вариант решения задачи соревнования по машинному обучению «Higgs Boson» на Kaggle. Автор использует Python, Pandas и Scikit Learn для своего решения.Сравнение прогнозируемой продолжительности жизни женщин и мужчин
Хороший пример обработки данных на языке программирования R.Heiko Strathmann рассказывает о библиотеке для машинного обучения Shogun
Heiko Strathmann в данной небольшой видеолекции рассказывает о библиотеке для машинного обучения Shogun, одним из автором которой он является. Основное направление данной библиотеки — это использование метода опорных векторов для решения проблем регрессионного анализа и классификации.Обработка данных по авиакатастрофам
Хороший пример обработки данных на языке программирования R.Параметризированные SQL-запросы
Хорошая статья про то как правильно писать и использовать параметризированные SQL-запросы, в том числе как их использовать в языке программирования R.Дайджест лучших ресурсов от DataScienceCentral (4 августа)
Неплохой список свежих интересных статей и ресурсов от DataScienceCentral.Семь столпов статистической мудрости
Небольшая статья про 7 вещей, которые крайне важны в статистической науке.Плохие привычки при написании SQL-кода
Нелохая статья с небольшим списком ошибок, которые часто допускаются при написании SQL-кода.Пример использования функции glm() в R
Простой пример использования функции glm() в языке программирования R из библиотеки stats.Подготовка данных для предсказательного моделирования
Интересная статья от автора MachineLearningMachinery о возможностях улучшения предсказательной модели за счет лучшей предобработки данных.11 необходимых вещей для Data Science
Отличная шпаргалка из 11 пунктов от портала DataScienceCentral, которая будет полезна любому кто интересуется темой Data Science.Интересные идеи из биостатистики для A/B-тестирования
Данный материал может привлечь внимание тех, кто интересуется темой A/B-тестирования. В этой краткой статье предлагаются некоторые идеи из биостатистики, которые моугт быть применимы для A/B-тестирования.Машинное обучение и компьютерное зрение
Очередная статья от Microsoft Technet Machine Learning Blog, посвященная использованию машинного обучения при решении вопросов распознавания образов и применения технологий компьютерного зрения. Статья небольшая и написана простым языком, без погружения в детали данной достаточно сложной темы.
Предыдущий выпуск: Обзор наиболее интересных материалов по анализу данных и машинному обучению №7 (28 июля — 4 августа 2014)
Автор: moat