Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения.
Общее
Зачем и как использовать визуализацию данных?
Поисковые технологии в Airbnb
Онлайн-трансляция YaC 2014
30 октября компания «Яндекс» проведет конференцию «Yet another Conference 2014», которая будет транслироваться онлайн, с достаточно большим количеством интересных докладов.Знакомьтесь — Revolution R Open
15 октября 2014 г. компания Revolution Analytics объявила о выпуске разработанного ею усовершенствованного дистрибутива R — Revolution Open R.Сравнение Vowpal Wabbit, Liblinear/SBM и StreamSVM
Сравнение эффективности работы Vowpal Wabbit, Liblinear/SBM и StreamSVM на основе набора данных «Webspam».Использование R Notebook в облаке
R Notebook: интересная адаптация IPython Notebook под работу языка программирования R от компании Domino Data Lab.Как Big Data может улучшить нашу жизнь
Интересная инфографика по теме Big Data.Публикация веб-сервисов машинного обучения в Azure ML
Статья с блога Microsoft Technet Machine Learning, в которой автор расскажет о возможностях облачного сервиса Azure ML, позволяющих специалистам по анализу данных размещать свои сервисы в облаке и публиковать их в магазине приложений Azure Marketplace.Revolution R Open и Revolution R Plus
Анонс Revolution R Open и Revolution R Plus от Revolution Analytics.9 вариантов использования BigML
Статья с блога BigML, которая при помощи инфографики расскажет о 9 различных способах использования платформы для машинного обучения BigML.Машинное обучение в облаке
Еще одна интересная статья с блога Microsoft Technet Machine Learning, в данном случае о распределенных облачных вычислениях для машинного обучения, ну и конечно же об Azure ML.Интерсные наборы данных для проектов Data Science (часть 1)
Хороший список различных источников данных.Интерсные наборы данных для проектов Data Science (часть 2)
Хороший список различных источников данных.5 направлений, в которых вы должны развиваться как специалист по машинному обучению
Хорошая статья от автора блога MachineLearningMastery, в которой он рассказывает о 5 направлениях, на которые стоит обратить свое внимание при развитии своих навыков машинного обучения.Введение в Big Data в финансовой сфере (часть 4)
Четвертая часть из серии статей про использование Big Data в банковской и финансовой сферах от портала insideBIGDATA.12 учебных лагерей по теме Data Science
Интересный список учебных лагерей по теме Data Science, который, я думаю, будет постоянно дополняться.
Теория и алгоритмы машинного обучения, примеры кода
Латентно-семантический анализ: реализация
Как мы кластеризуем подарки в ОК
Как выявить потери в продажах
Процесс машинного обучения (часть 1)
Первая часть из серии статей, в которых автор расскажет о различных этапах процесса машинного обучения (в основном речь пойдет об обучении с учителем — Supervised learning).Deep Learning с помощью Caffe и cuDNN
Интересная статья с блога компании nVidia о возможностях применения машинного обучения Deep Learning с использованием фреймворка Caffe и библиотеки cuDNN.Deep Learning на Amazon EC2 GPU с помощью Python и nolearn
Статья о возможностях использования Amazon EC2 GPU для целей машинного обучения методом Deep Learning, а также с использованием языка программирования Python и библиотеки nolearn.Анализ Instagram с помощью R
Небольшая статья о работе с данными популярного сервиса Instagram с помощью языка программирования R.Реализация метода k ближайщих соседей с нуля
Реализация метода k ближайщих соседей с нуля с помощью языка программрования Python от автор популярного блога MachineLearningMastery.Введение в Python Pandas
Набор ресурсов по библиотеке для анализа данных Pandas для языка программирования Python.Визуализация правила Байеса
Наглядная анимированная визуализация работы правила Байеса.Введение в нейронные сети
Достаточно простое описание работы нейронных сетей с блога Analytics Vidhya.Линейная регрессия и операции с матрицами в Excel
Описание возможности использования линейной регрессии и матричных операций в Excel.
Онлайн-курсы, обучающие материалы и литература
Новые специализации на Coursera
Анонсированы 18 новых специализаций на Coursera.Онлайн-курс «Foundations of Data Analysis»
Недавно на edX был анонсирован новый онлайн-курс от University of Texas at Austin по теме анализа данных под названием «Foundations of Data Analysis».Обзор книги «Scaling Apache Solr»
Обзор книги «Scaling Apache Solr», посвященной вопросам масштабирования популярной полнотекстовой поисковой платформы Apache Solr.Книга «Data Mining for Managers»
Анонс новой книги по анализу данных «Data Mining for Managers».
Видеоматериалы
Yoshua Bengio о Deep Learning на конференции KDD 2014
Youshua Bengio (Department of Computer Science and Operations Research, University of Montreal) с интересным докладом о Deep Learning на конференции KDD 2014.Использование библиотеки dplyr для работы с данными в R
Интересное видео об использовании библиотеки dplyr для различных манипуляций с данными в языке программирования R.Интерактивная визуализация с помощью rCharts
Ramnath Vaidyanathan (Assistant Professor в McGill University) в данном небольшом видео с конференции useR! 2014 рассказывает о возможностях интерактивной визуализации с помощью языка программирования R и библиотеки rCharts.
Data engineering
Hadoop: что, где и зачем
Что нового в RavenDB 3.0
В данном посте будет представлен набор материалов о достаточно популярной базе данных RavenDB и её новой версии RavenDB 3.0.Использование RethinkDB с облаке Compose
В дополнение к MongoDB и ElasticSearch в облаке Compose появилась возможность использования популярной базы данных RethinkDB, о деталях работы с этой базой данных в облаке Compose и пойдет речь в данной статье.Использование Apache Helix в LinkedId
Описание возможностей Apache Helix и использование данного фреймворка в инфраструктуре компании LinkedIn.Моделирование в документо-ориентированных базах данных (часть 1)
Первая часть любопытной серии статей с блога Couchbase, в которой будет рассмотрен вопрос построения эффективных моделей в документо-ориентированных базах данных.Текущее состояние Hadoop
Статья о текущем состоянии дел в экосистеме Hadoop, представленное в виде наглядной инфографики.Ловушки шардирования (часть 1)
Первая часть серии статей о тонкостях использования шардинга в популярном NoSQL-хранилище MongoDB.Сравнение NoSQL и SQL
Небольшая статья — очередное сравнение NoSQL и SQL.
Обзоры
Еженедельный дайджест от DataScienceCentral
Регулярный еженедельный дайджест статей по анализу данных от портала DataScienceCentral.Дайджест лучших ресурсов от DataScienceCentral
Неплохой список свежих интересных статей и ресурсов от DataScienceCentral.Новости Data Mining
Небольшой список интересных ресурсов по теме Data Mining от 15 октября.Лучшие материалы за неделю (5 — 11 октября)
Лучшие материалы за неделю по теме анализа данных от портала KDnuggets.Дайджест лучших ресурсов от DataScienceCentral
Неплохой список свежих интересных статей и ресурсов от DataScienceCentral.Наиболее интересные материалы от Freakonometrics №174
Сборник наиболее интересных материалов от популярного портала Freakonometrics.Наиболее интересные материалы от Freakonometrics №173
Сборник наиболее интересных материалов от популярного портала Freakonometrics.Наиболее интересные материалы по High Scalability
Обзор наиболее интересных материалов по теме HighScalability от популярного портала High Scalability.Лучшие материалы: NoSQL Zone (10 — 16 октября)
Сборник лучших материалов от популярного портала DZone по теме NoSQL.
Предыдущий выпуск: Обзор наиболее интересных материалов по анализу данных и машинному обучению №17 (6 — 12 октября 2014)
Автор: moat