Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения. В данном выпуске достаточно много интересных материалов для новичков. Присутствует пара интересных видеоматериалов. Есть материалы по теме Data Engineering. Как обычно некоторые количество статей посвящено примерам кода, связанного с анализом данных и машинным обучением. И уже традиционно несколько статей посвящено теме участия в соревнованиях по машинному обучению.
Материалы по анализу данных и машинному обучению
Книга по Deep Learning от MIT
Книга от MIT по очень популярному сейчас направлению машинного обучения Deep Learning. Книга пока не является законченной, но многие главы уже доступны читателям.Обработка данных с помощью R
Небольшая книга, которая может быть полезна всем кто работает с данным, используя язык программирования R, посвященная обработке и очистке данных в фазе препроцессинга, что как известно занимает достаточно много времени и отнимает много усилий у специалистов по анализу данных.Трудный путь изучения машинного обучения — история о пони
Nathan Taggart (Product Manager в New Relic) в данном видео рассказывает свою историю освоения машинного обучения и о том каких ошибок следует избегать в этой непростой задаче. Видео рассчитано на новичков в теме анализа данных и машинного обучения.Что такое R
Небольшой емкий обзор языка программирования R с описанием преимуществ и недостатков.Что компаниям нужно знать о Big Data
Статья, рассуждающая о том, что многим компаниям возможно стоит поменять подход к работе со своими данными и больше ориентироваться на современнные тенденции Data Science.Руководство по анализу неструктурированных текстовых данных
Первая часть из серии статей от популярного портала Analytics Vidhya, посвященная интересной теме анализа текста. В данной статье описываются базовые проблемы и вопросы, в будущих статьях будут описаны детали реализации решения данных вопросов.Анализ данных с Mario Garzia из Microsoft
Специалист по анализу данных Mario Garzia из Microsoft в своей статье в блоге Microsoft Technet Machine Learning Blog приводит свои интересные рассуждения о текущем состоянии дел в области Data Science.5 преимуществ участия в соревнованиях по машинному обучению
Очередная интересная статья от автора блога MachineLearningMastery. На этот раз речь пойдет о плюсах участия в соревнованиях по машинному обучению на Kaggle.Визуализация временных рядов с помощью библиотеки googleVis
Не так давно на вышла новость о релизе googleVis версии 0.5.5. В данном коротком посте приводится очень простой пример кода для визуализации временных рядов с помощью библиотеки googleVis для языка программирования R.Microsoft Azure DocumentDB
Небольшая статья о новой NoSQL базе данных от компании Microsoft под названием Azure DocumentDB.Применение машинного обучения для трейдинга (часть 1)
Введение в тему использования машинного обучения для трейдинга. Данная серия статей уже была представлена в обзорах по анализу данных и машинному обучению. В данном случае это перевод первой части на русский язык.Улучшение производительности запросов в Apache Hive при помощи партиционирования
Небольшая статья с блога Cloudera о том, как можно улучшить производительность запросов в Apache Hive при помощи использования партиционирования.Анонсирован новый онлайн-курс на Coursera от Stanford University — Mining Massive Datasets
29 сентября 2014 года на Coursera стартует очень любопытный онлайн-курс от Stanford University — Mining Massive Datasets.Быстрый HDF5 с Pandas
Пример работы с форматом хранения информации HDF5 из фреймворка по анализу данных Pandas для языка программирования Python.Интересные ресурсы по Deep Learning
Список ресурсов по популярной технике машинного обучения Deep Learning, составленный известным порталом KDnuggets.Это не NoSQL против RDBMS, это ACID+Foreign Keys против Eventual Consistency
Немного любопытных рассуждений о NoSQL и RDBMS хранилищах данных.Пример решения задачи на Kaggle
Пример возможного решения популярного на Kaggle соревнования по машинному обучению «Predict Bike Sharing Demand» с использованием техники Gradient Boosted Trees. В примере используется инструмент машинного обучения GraphLab Create.Визуализация работы логистической регрессии
В машинном обучении часто применяется логистическая регрессия. В данном коротком посте представлена визуализация работы логистической регрессии в виде анимированного изображения.Машинное обучение и компьютерное зрение (часть 2)Вторая часть серии статей от Microsoft Technet Machine Learning Blog, посвященная использованию машинного обучения при решении вопросов распознавания образов и применения технологий компьютерного зрения. Статья небольшая и написана простым языком, без погружения в детали данной достаточно сложной темы.
Экосистема Hadoop
Неболшая полезная статья, которая дает краткое описание основных элементов экосистемы Hadoop.Что такое Big Data?
Интересная небольшая статья, в которой автор рассуждает о том, что же такое Big Data и делается попытка дать наиболее простое описание данного термина.Использование expression в R
Интересная статья про использование функции expression() в языке программирования R.Блок-схема машинного обучения с учителем (Supervised learning)
Многие знакомы с таким способом машинного обучения, как обучение с учителем (Supervised learning). В данном коротком посте в виде блок-схемы представлена хорошая визуализация последовательности типовых действий при обучении с учителем.21 отличный график
Нескольких отличных примеров визуализации данных с помощью различных видов графиков и диаграмм от портала DataScienceCentral.Как удачно выступать в соревнованиях на Kaggle
Еще одна полезная статья о том, как успешно выступать в соревнованиях по машинному обучению на Kaggle.Анонс Capstone project в специализации по анализу данных от Coursera
Небольшая статья, анонсирующая Capstone project, который относится к финальной фазе Data Science Specialization от Johns Hopkins University. К проекту можно подключиться, если успешно окончены все 9 курсов специализации.Sybil: система масштабирования машинного обучения в Google
В данном докладе Tushar Chandra рассказывает о судьбе Sybil в Google. Sybil — важный исследовательский проект в Google, который реализует различные алгоритмы машинного обучения, позволяя их масштабировать. Данная разработка широко используется в Google.Четыре основных языка для анализа данных
Результаты голосования, проведенного популярным порталом KDnuggets, о самых попупулярных языках, которые используются для анализа данных.Математика для машинного обучения
Статья посвящена вопросу необходимых математических навыков необходимых для освоения базовых знаний по машинному обучению. Автор указывает, что статья является черновой версией и что в ней со временем будет появляться дополнительная информация.Куда устанавливаются библиотеки в RStudio
Небольшая статья, посвященная любопытному вопросу о том, куда RStudio устанавливает библиотеки.44 статьи по анализу данных
Интересная подборка статей и ресурсов от лучших специалистов по анализу данных, собранная порталом DataScienceCentral
Предыдущий выпуск: Обзор наиболее интересных материалов по анализу данных и машинному обучению №9 (11 — 18 августа 2014)
Автор: moat