Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения. В данном выпуске достаточно много интересных материалов для новичков. Присутствует пара интересных видеоматериалов. Есть материалы по теме Data Engineering. Как обычно некоторые количество статей посвящено примерам кода, связанного с анализом данных и машинным обучением. И уже традиционно несколько статей посвящено теме участия в соревнованиях по машинному обучению.
Материалы по анализу данных и машинному обучению
- Книга по Deep Learning от MIT
Книга от MIT по очень популярному сейчас направлению машинного обучения Deep Learning. Книга пока не является законченной, но многие главы уже доступны читателям. - Обработка данных с помощью R
Небольшая книга, которая может быть полезна всем кто работает с данным, используя язык программирования R, посвященная обработке и очистке данных в фазе препроцессинга, что как известно занимает достаточно много времени и отнимает много усилий у специалистов по анализу данных. - Трудный путь изучения машинного обучения — история о пони
Nathan Taggart (Product Manager в New Relic) в данном видео рассказывает свою историю освоения машинного обучения и о том каких ошибок следует избегать в этой непростой задаче. Видео рассчитано на новичков в теме анализа данных и машинного обучения. - Что такое R
Небольшой емкий обзор языка программирования R с описанием преимуществ и недостатков. - Что компаниям нужно знать о Big Data
Статья, рассуждающая о том, что многим компаниям возможно стоит поменять подход к работе со своими данными и больше ориентироваться на современнные тенденции Data Science. - Руководство по анализу неструктурированных текстовых данных
Первая часть из серии статей от популярного портала Analytics Vidhya, посвященная интересной теме анализа текста. В данной статье описываются базовые проблемы и вопросы, в будущих статьях будут описаны детали реализации решения данных вопросов. - Анализ данных с Mario Garzia из Microsoft
Специалист по анализу данных Mario Garzia из Microsoft в своей статье в блоге Microsoft Technet Machine Learning Blog приводит свои интересные рассуждения о текущем состоянии дел в области Data Science. - 5 преимуществ участия в соревнованиях по машинному обучению
Очередная интересная статья от автора блога MachineLearningMastery. На этот раз речь пойдет о плюсах участия в соревнованиях по машинному обучению на Kaggle. - Визуализация временных рядов с помощью библиотеки googleVis
Не так давно на вышла новость о релизе googleVis версии 0.5.5. В данном коротком посте приводится очень простой пример кода для визуализации временных рядов с помощью библиотеки googleVis для языка программирования R. - Microsoft Azure DocumentDB
Небольшая статья о новой NoSQL базе данных от компании Microsoft под названием Azure DocumentDB. - Применение машинного обучения для трейдинга (часть 1)
Введение в тему использования машинного обучения для трейдинга. Данная серия статей уже была представлена в обзорах по анализу данных и машинному обучению. В данном случае это перевод первой части на русский язык. - Улучшение производительности запросов в Apache Hive при помощи партиционирования
Небольшая статья с блога Cloudera о том, как можно улучшить производительность запросов в Apache Hive при помощи использования партиционирования. - Анонсирован новый онлайн-курс на Coursera от Stanford University — Mining Massive Datasets
29 сентября 2014 года на Coursera стартует очень любопытный онлайн-курс от Stanford University — Mining Massive Datasets. - Быстрый HDF5 с Pandas
Пример работы с форматом хранения информации HDF5 из фреймворка по анализу данных Pandas для языка программирования Python. - Интересные ресурсы по Deep Learning
Список ресурсов по популярной технике машинного обучения Deep Learning, составленный известным порталом KDnuggets. - Это не NoSQL против RDBMS, это ACID+Foreign Keys против Eventual Consistency
Немного любопытных рассуждений о NoSQL и RDBMS хранилищах данных. - Пример решения задачи на Kaggle
Пример возможного решения популярного на Kaggle соревнования по машинному обучению «Predict Bike Sharing Demand» с использованием техники Gradient Boosted Trees. В примере используется инструмент машинного обучения GraphLab Create. - Визуализация работы логистической регрессии
В машинном обучении часто применяется логистическая регрессия. В данном коротком посте представлена визуализация работы логистической регрессии в виде анимированного изображения. - Машинное обучение и компьютерное зрение (часть 2)Вторая часть серии статей от Microsoft Technet Machine Learning Blog, посвященная использованию машинного обучения при решении вопросов распознавания образов и применения технологий компьютерного зрения. Статья небольшая и написана простым языком, без погружения в детали данной достаточно сложной темы.
- Экосистема Hadoop
Неболшая полезная статья, которая дает краткое описание основных элементов экосистемы Hadoop. - Что такое Big Data?
Интересная небольшая статья, в которой автор рассуждает о том, что же такое Big Data и делается попытка дать наиболее простое описание данного термина. - Использование expression в R
Интересная статья про использование функции expression() в языке программирования R. - Блок-схема машинного обучения с учителем (Supervised learning)
Многие знакомы с таким способом машинного обучения, как обучение с учителем (Supervised learning). В данном коротком посте в виде блок-схемы представлена хорошая визуализация последовательности типовых действий при обучении с учителем. - 21 отличный график
Нескольких отличных примеров визуализации данных с помощью различных видов графиков и диаграмм от портала DataScienceCentral. - Как удачно выступать в соревнованиях на Kaggle
Еще одна полезная статья о том, как успешно выступать в соревнованиях по машинному обучению на Kaggle. - Анонс Capstone project в специализации по анализу данных от Coursera
Небольшая статья, анонсирующая Capstone project, который относится к финальной фазе Data Science Specialization от Johns Hopkins University. К проекту можно подключиться, если успешно окончены все 9 курсов специализации. - Sybil: система масштабирования машинного обучения в Google
В данном докладе Tushar Chandra рассказывает о судьбе Sybil в Google. Sybil — важный исследовательский проект в Google, который реализует различные алгоритмы машинного обучения, позволяя их масштабировать. Данная разработка широко используется в Google. - Четыре основных языка для анализа данных
Результаты голосования, проведенного популярным порталом KDnuggets, о самых попупулярных языках, которые используются для анализа данных. - Математика для машинного обучения
Статья посвящена вопросу необходимых математических навыков необходимых для освоения базовых знаний по машинному обучению. Автор указывает, что статья является черновой версией и что в ней со временем будет появляться дополнительная информация. - Куда устанавливаются библиотеки в RStudio
Небольшая статья, посвященная любопытному вопросу о том, куда RStudio устанавливает библиотеки. - 44 статьи по анализу данных
Интересная подборка статей и ресурсов от лучших специалистов по анализу данных, собранная порталом DataScienceCentral
Предыдущий выпуск: Обзор наиболее интересных материалов по анализу данных и машинному обучению №9 (11 — 18 августа 2014)
Автор: moat