Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения.
Общее
- Зачем и как использовать визуализацию данных?
- Поисковые технологии в Airbnb
- Онлайн-трансляция YaC 2014
30 октября компания «Яндекс» проведет конференцию «Yet another Conference 2014», которая будет транслироваться онлайн, с достаточно большим количеством интересных докладов. - Знакомьтесь — Revolution R Open
15 октября 2014 г. компания Revolution Analytics объявила о выпуске разработанного ею усовершенствованного дистрибутива R — Revolution Open R. - Сравнение Vowpal Wabbit, Liblinear/SBM и StreamSVM
Сравнение эффективности работы Vowpal Wabbit, Liblinear/SBM и StreamSVM на основе набора данных «Webspam». - Использование R Notebook в облаке
R Notebook: интересная адаптация IPython Notebook под работу языка программирования R от компании Domino Data Lab. - Как Big Data может улучшить нашу жизнь
Интересная инфографика по теме Big Data. - Публикация веб-сервисов машинного обучения в Azure ML
Статья с блога Microsoft Technet Machine Learning, в которой автор расскажет о возможностях облачного сервиса Azure ML, позволяющих специалистам по анализу данных размещать свои сервисы в облаке и публиковать их в магазине приложений Azure Marketplace. - Revolution R Open и Revolution R Plus
Анонс Revolution R Open и Revolution R Plus от Revolution Analytics. - 9 вариантов использования BigML
Статья с блога BigML, которая при помощи инфографики расскажет о 9 различных способах использования платформы для машинного обучения BigML. - Машинное обучение в облаке
Еще одна интересная статья с блога Microsoft Technet Machine Learning, в данном случае о распределенных облачных вычислениях для машинного обучения, ну и конечно же об Azure ML. - Интерсные наборы данных для проектов Data Science (часть 1)
Хороший список различных источников данных. - Интерсные наборы данных для проектов Data Science (часть 2)
Хороший список различных источников данных. - 5 направлений, в которых вы должны развиваться как специалист по машинному обучению
Хорошая статья от автора блога MachineLearningMastery, в которой он рассказывает о 5 направлениях, на которые стоит обратить свое внимание при развитии своих навыков машинного обучения. - Введение в Big Data в финансовой сфере (часть 4)
Четвертая часть из серии статей про использование Big Data в банковской и финансовой сферах от портала insideBIGDATA. - 12 учебных лагерей по теме Data Science
Интересный список учебных лагерей по теме Data Science, который, я думаю, будет постоянно дополняться.
Теория и алгоритмы машинного обучения, примеры кода
- Латентно-семантический анализ: реализация
- Как мы кластеризуем подарки в ОК
- Как выявить потери в продажах
- Процесс машинного обучения (часть 1)
Первая часть из серии статей, в которых автор расскажет о различных этапах процесса машинного обучения (в основном речь пойдет об обучении с учителем — Supervised learning). - Deep Learning с помощью Caffe и cuDNN
Интересная статья с блога компании nVidia о возможностях применения машинного обучения Deep Learning с использованием фреймворка Caffe и библиотеки cuDNN. - Deep Learning на Amazon EC2 GPU с помощью Python и nolearn
Статья о возможностях использования Amazon EC2 GPU для целей машинного обучения методом Deep Learning, а также с использованием языка программирования Python и библиотеки nolearn. - Анализ Instagram с помощью R
Небольшая статья о работе с данными популярного сервиса Instagram с помощью языка программирования R. - Реализация метода k ближайщих соседей с нуля
Реализация метода k ближайщих соседей с нуля с помощью языка программрования Python от автор популярного блога MachineLearningMastery. - Введение в Python Pandas
Набор ресурсов по библиотеке для анализа данных Pandas для языка программирования Python. - Визуализация правила Байеса
Наглядная анимированная визуализация работы правила Байеса. - Введение в нейронные сети
Достаточно простое описание работы нейронных сетей с блога Analytics Vidhya. - Линейная регрессия и операции с матрицами в Excel
Описание возможности использования линейной регрессии и матричных операций в Excel.
Онлайн-курсы, обучающие материалы и литература
- Новые специализации на Coursera
Анонсированы 18 новых специализаций на Coursera. - Онлайн-курс «Foundations of Data Analysis»
Недавно на edX был анонсирован новый онлайн-курс от University of Texas at Austin по теме анализа данных под названием «Foundations of Data Analysis». - Обзор книги «Scaling Apache Solr»
Обзор книги «Scaling Apache Solr», посвященной вопросам масштабирования популярной полнотекстовой поисковой платформы Apache Solr. - Книга «Data Mining for Managers»
Анонс новой книги по анализу данных «Data Mining for Managers».
Видеоматериалы
- Yoshua Bengio о Deep Learning на конференции KDD 2014
Youshua Bengio (Department of Computer Science and Operations Research, University of Montreal) с интересным докладом о Deep Learning на конференции KDD 2014. - Использование библиотеки dplyr для работы с данными в R
Интересное видео об использовании библиотеки dplyr для различных манипуляций с данными в языке программирования R. - Интерактивная визуализация с помощью rCharts
Ramnath Vaidyanathan (Assistant Professor в McGill University) в данном небольшом видео с конференции useR! 2014 рассказывает о возможностях интерактивной визуализации с помощью языка программирования R и библиотеки rCharts.
Data engineering
- Hadoop: что, где и зачем
- Что нового в RavenDB 3.0
В данном посте будет представлен набор материалов о достаточно популярной базе данных RavenDB и её новой версии RavenDB 3.0. - Использование RethinkDB с облаке Compose
В дополнение к MongoDB и ElasticSearch в облаке Compose появилась возможность использования популярной базы данных RethinkDB, о деталях работы с этой базой данных в облаке Compose и пойдет речь в данной статье. - Использование Apache Helix в LinkedId
Описание возможностей Apache Helix и использование данного фреймворка в инфраструктуре компании LinkedIn. - Моделирование в документо-ориентированных базах данных (часть 1)
Первая часть любопытной серии статей с блога Couchbase, в которой будет рассмотрен вопрос построения эффективных моделей в документо-ориентированных базах данных. - Текущее состояние Hadoop
Статья о текущем состоянии дел в экосистеме Hadoop, представленное в виде наглядной инфографики. - Ловушки шардирования (часть 1)
Первая часть серии статей о тонкостях использования шардинга в популярном NoSQL-хранилище MongoDB. - Сравнение NoSQL и SQL
Небольшая статья — очередное сравнение NoSQL и SQL.
Обзоры
- Еженедельный дайджест от DataScienceCentral
Регулярный еженедельный дайджест статей по анализу данных от портала DataScienceCentral. - Дайджест лучших ресурсов от DataScienceCentral
Неплохой список свежих интересных статей и ресурсов от DataScienceCentral. - Новости Data Mining
Небольшой список интересных ресурсов по теме Data Mining от 15 октября. - Лучшие материалы за неделю (5 — 11 октября)
Лучшие материалы за неделю по теме анализа данных от портала KDnuggets. - Дайджест лучших ресурсов от DataScienceCentral
Неплохой список свежих интересных статей и ресурсов от DataScienceCentral. - Наиболее интересные материалы от Freakonometrics №174
Сборник наиболее интересных материалов от популярного портала Freakonometrics. - Наиболее интересные материалы от Freakonometrics №173
Сборник наиболее интересных материалов от популярного портала Freakonometrics. - Наиболее интересные материалы по High Scalability
Обзор наиболее интересных материалов по теме HighScalability от популярного портала High Scalability. - Лучшие материалы: NoSQL Zone (10 — 16 октября)
Сборник лучших материалов от популярного портала DZone по теме NoSQL.
Предыдущий выпуск: Обзор наиболее интересных материалов по анализу данных и машинному обучению №17 (6 — 12 октября 2014)
Автор: moat