Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения. В данном обзоре есть несколько статей, которые будут интересны новичкам. Есть несколько любопытных видеолекций по тематике Data Science. В текущем выпуске как обычно много статей по машинному обучению и анализу данных с примерами кода на языка программирования R и Python. В обзоре также могут заинтересовать несколько обзоров книг по теме анализа данных.
Материалы по анализу данных и машинному обучению
- Введение в Гауссовские процессы
Интересная вводная статья, посвященная Гауссовским процессам, с примерами на Python, которые часто используются при использовании алгоритмов машинного обучения в непараметрической регрессии и классификации. - Библиотека HighlightHTML для R
Краткая статья о полезной библиотеке HighlightHTML для языка программирования R и для работы с html-разметкой документов R Markdown. - Data Science с использованием языка Python (часть 1)
Первая часть из серии статей, посвященных теме Data Science с использованием языка программирования Python. Первая часть содержит видео с конференции «Pycon 2014», а также посвящена вопросу сбора данных для анализа с помощью Python. - Создание и публикация интерактивных графиков ggplot2
Интересная статья о возможности создания и публикации интерактивных графиков, созданных при помощи пакета ggplot2 для языка программирования R, в онлайн с помощью сервиса plot.ly. В данной статье приведено несколько практических примеров использования данного сервиса. - Соревнование по анализу данных от Yelp
Популярный портал Yelp объявил о старте нового соревнования по анализу данных на основе данных, которые предоставит Yelp. Данное соревнование продлится до 31 декабря 2014 года. - Обзор книги «Data Classification: Algorithms and Applications»
Краткий обзор новой книги по классификации данных «Data Classification: Algorithms and Applications». Обзор представлен популярным ресурсом KDnuggets. - Книга «Нейронные сети и Deep Learning»
Любопытная книга по популярному направлению машинного обучения. Книга еще не закончена, но около половины глав данной очень любопытной книги уже написаны и доступны читателям. - Еженедельный дайджест от DataScienceCentral
Регулярный еженедельный дайджест статей по анализу данных от портала DataScienceCentral. - Видеолекции Xavier Amatriain по рекомендательным системам
Xavier Amatriain из Netflix представляют еще одну серию лекций с летней школы машинного обучения Machine Learning Summer School (MLSS ’14) в Питтсбурге. Данная серия видеолекций посвящена рекомендательным системам. - Применение машинного обучения для трейдинга (часть 3)
Продолжение темы использования машинного обучения для трейдинга. В этот раз рассматривается построение торговой стратегии на основе дерева принятия решений. - Список решений для соревнований Kaggle
Отличный список решений для некоторых прошедших на Kaggle соревнований по машинному обучению. - Использование Cassandra в системах реального времени
Любопытная статья по теме Data Engineering о том, как можно использовать популярное NoSQL-решение Apache Cassandra для работы с системами реального времени. - Машинное обучение и анализ текста
Небольшая статья по теме использования машинного обучения при анализе текста. - Рекомендации повсюду
Небольшая и достаточно простая статья от Microsoft Technet Machine Learning Blog, посвященная принципу работы рекомендательных систем. - Хотите выучить SQL? Есть отличный стартовый курс для новичков
Популярный блог по анализу данных Data Science 101 опубликовали новость, которая будет интересна тем кто хочет освоить SQL, который совершенно очевидно не теряет свою значимость и актуальность в период роста популярности различных NoSQL-решений. - Введение по анализу данных на Python
Отличная статья по краткому введению в анализ данных с использованием языка программирования Python. - Список ресурсов по Data Science
Интересный список ресурсов по тематике Data Science, опубликованный на портале DataScienceCentral. - Дайджест лучших ресурсов от DataScienceCentral (28 июля)
Неплохой список свежих интересных статей и ресурсов от DataScienceCentral. - Пример использования машинного обучения в Microsoft
Небольшой пример использования машинного обучения, а именно Boosted Decision Trees (BDTs), в Microsoft Bing. - 100 миллионов изображений с Flickr от Yahoo Labs
Yahoo Labs сообщили, что опубликовали большой набор данных из 100 миллионов изображений и видеоклипов под лицензией Creative Commons для различных исследований. - Обзор книги «Probabilistic Approaches to Recommendations»
Краткий обзор новой книги по анализу данных «Probabilistic Approaches to Recommendations». - Что такое машинное обучение?
Небольшая статья от John Platt, который работает в Microsoft 17 лет и активно использует машинное обучение в своей повседневной работе. В данной статье он рассказывает как применяется машинное обучение при решении различных задач в проектах Microsoft. - Нелинейная регрессия с деревьями принятия решений
Очередная статья от автора Mahine Learning Mastery. На этот раз речь пойдет о нелинейной регрессии с деревьями принятия решений с примерами кода на языка программирования Python. - Список нововведений в SAS/IML 12.3
Список новинок в SAS/IML 12.3. - 20 лет машинного обучения в Microsoft
Небольшая статья о том, что технологии машинного обучения применяются в Microsoft уже достаточно давно и накоплен богатый опыт в данном направлении. Конечно же автор упоминает про Microsoft Azure Machine Learning — новый облачный сервис от Microsoft для использования при решении задач, для решения которых требуется применение техник машинного обучения. - Запросы в режиме реального времени к Cassandra при помощи Spark и Shark
Even Chan — разработчик из компании Ooyla, находящейся в Кремниевой долине, рассказывает об опыте применения фреймворков Spark и Shark поверх Cassandra для исполнения запросов в режиме реального времени.
Предыдущий выпуск: Обзор наиболее интересных материалов по анализу данных и машинному обучению №6 (21 — 28 июля 2014)
Автор: moat