Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения.
Общее
Машинное обучение как сервис — бесплатно и в облаке
Microsoft Azure
Big Data
Как мы делали аналитику для высоконагруженного сайта
DeepMind создаёт компьютер, повторяющий человеческую кратковременную память
3 вопроса, на которые необходимо ответить при выборе программы Data Science
Полезная статья, которая содержит 3 важных вопроса с комментариями к ним, на которые стоит ответить при выборе программы обучения по тематике Data Science.22 совета по теме Data Science
В данной статье можно найти 22 совета по теме Data Science от Vincent Granville — известного специалиста в области анализа данных и создателя портала Data Science Central.Гибкость модели данных
Немного размышлений о таком важном свойстве модели данных как гибкость.Открытые проблемы по теме работы с данными в Facebook
Статья с блога компании Facebook рассказывает о различных нерешенных проблемах и вопросах компании в теме работы с данными.10 рекомендаций при реализации принципов Big Data
10 полезных рекомендаций от популярного портала Big Data Analytics News.Запуск R в облаке Azure ML
Короткая статья, которая расскажет о возможности запуска R в облаке Azure ML от Microsoft.
Теория и алгоритмы машинного обучения, примеры кода
Как взять под контроль огромный список алгоритмов машинного обучения
Автор популярного блога MachineLearningMastery дает несколько советов, которые помогут разбораться в большом количестве различных алгоритмов машинного обучения.Hello World машинного обучения
Очередная отличная статья от автора блога MachineLearningMastery, которая будет интересна новичкам и поможет разобраться в огромном количестве алгоритмов, которые есть в машинном обучении.Кластеризация и модель распределенных вычислений
Рассказ о различных методах кластеризации и возможности использования модели распределенных вычислений при использовании данных алгоритмов кластеризации.Обнаружение выбросов — использование машинного обучения для обнаружения аномалий при анализе временных рядов
Статья с блога Microsoft Technet Machine Learning о поиске аномалий при анализе врменных рядов с помощью машинного обучения и Azure ML.Анализ покрытия кода R юнит тестами
Очень любопытная статья, посвященная анализу уровня покрытия кода юнит-тестами в языке программирования R с помощью библиотеки testCoverage.Анализ тональности текста твитов с помощью ALYIEN Text Analysis API
Еще одна интересная статья, посвященная анализу текста, в данном случае это интересный материал об анализе тональности текстов Twitter.Введение в нейронные сети
Еще одна статья, которая расскажет об основах такой интересной и популярной сейчас темы как нейронные сети.Интуиция регуляризованной логистической регрессии
Небольшая сттьая, которая поможет лучше понимать регуляризованную логистическую регрессию.Введение в метод главных компонент
Небольшая неплохая статья об основах метода главных компонент (Principal component analysis).О важной роли базового результата
Автор блога MachineLearningMastery рассказывает о том, что такое базовый результат и почему это важно.
Соревнования по машинному обучению
Первое место: The Hunt for Prohibited Content
Интервью с победителям соревнования по машинному обучению The Hunt Prohibited Content компании Avito.ru на Kaggle.Второе место: The Hunt for Prohibited Content
Интервью с участниками, занявшими второе место в соревновании по машинному обучению The Hunt Prohibited Content компании Avito.ru на Kaggle.
Онлайн-курсы, обучающие материалы и литература
Сайт «Mining of Massive Datasets»
На данном сайте можно найти ссылки на книгу по данной теме и ссылки на различные онлайн-курсы.
Видеоматериалы
Hadley Wickham: введение в dplyr (часть 1)
Выступление Hadley Wickham на useR! 2014, посвященное популярной библиотеке dplyr для языка программирования R.Hadley Wickham: введение в dplyr (часть 2)
Вторая часть выступления Hadley Wickham на useR! 2014, посвященного популярной библиотеке dplyr для языка программирования R.
Data engineering
HighLoad++ 2014: Устройство современного распределенного Object Storage на примере LeoFS (Александр Чистяков, Git in Sky)
Еще одно выступление с очередной конференции разработчиков высоконагруженных систем HighLoad++ 2014. Это выступление Александра Чистякова из Git in Sky: Устройство современного распределенного Object Storage на примере LeoFS.HighLoad++ 2014: Sharding: patterns and antipatterns (Константин Осипов, Алексей Рыбак)
Слайды с еще одного интересного доклада, который открывал конференцию HighLoad++ 2014 под названием «Sharding: patterns and antipatterns».Использование Apache Spark и Neo4j для анализа больших графов
Статья, которая расскажет о возможности использования популярных продуктов Apache Spark и Neo4j для работы с большими графами.Netflix Dynomite — как сделать нераспределенные базы данных распределенными
Интересная статья про решение с открытым искходным кодом Dynomite от компании Netflix.Flafka: Apache Flume и Apache Kafka для обработки событий
В данных обзорах уже было несколько ссылок на материалы по Apache Kafka, а в данном случае это достаточно интересная статья с блога компании Cloudera об использовании Apache Kafka и Apache Flume для обработки событий.NoSQL в мире Hadoop
Интересная статья с блога компании Cloudera о том, какое место занимает NoSQL в мире Hadoop.Работа с сессиями со скоростью близкой к режиму реального времени с помощью Spark Streaming и Apache Hadoop
Интересная статья с блога компании Cloudera об использовании возможностей Spark Streaming.Три совета по моделированию данных в документо-ориентированных БД (часть 1)
Первая часть из серии статей, посвященной моделированию данных в документо-ориентированных БД.10 советов по моделированию данных в мире реляционных и NoSQL хранилищ
Небольшая статья, в которой можно найти 10 советов по моделированию данных в мире реляционных и NoSQL хранилищ.Введение в Hadoop MapReduce
Статья, которая хорошо объясняет базовые концепции Hadoop MapReduce.
Обзоры
Лучшие ресурсы за неделю от Data Elixir
Сборник ссылок на различные материалы по теме анализа данных, собранные блогом Data Elixir за прошедшую неделю.Еженедельный дайджест от DataScienceCentral
Регулярный еженедельный дайджест статей по анализу данных от портала DataScienceCentral.Дайджест лучших ресурсов от DataScienceCentral
Неплохой список свежих интересных статей и ресурсов от DataScienceCentral.10 лучших материалов недели
10 лучших материалов недели по тематике Data Science от портала «Data Science Report».Лучшие материалы за неделю (26 октября — 1 ноября)
Лучшие материалы за неделю по теме анализа данных от портала KDnuggets.Новости Data Mining
Небольшой список интересных ресурсов по теме Data Mining от 5 ноября.Наиболее интересные материалы от Freakonometrics №181
Сборник наиболее интересных материалов от популярного портала Freakonometrics.Наиболее интересные материалы от Freakonometrics №180
Сборник наиболее интересных материалов от популярного портала Freakonometrics.Наиболее интересные материалы по High Scalability
Обзор наиболее интересных материалов по теме HighScalability от популярного портала High Scalability.
Предыдущий выпуск: Обзор наиболее интересных материалов по анализу данных и машинному обучению №20 (27 октября — 2 ноября 2014)
Автор: moat