Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения.
Общее
- Машинное обучение как сервис — бесплатно и в облаке
- Microsoft Azure ❤ Big Data
- Как мы делали аналитику для высоконагруженного сайта
- DeepMind создаёт компьютер, повторяющий человеческую кратковременную память
- 3 вопроса, на которые необходимо ответить при выборе программы Data Science
Полезная статья, которая содержит 3 важных вопроса с комментариями к ним, на которые стоит ответить при выборе программы обучения по тематике Data Science. - 22 совета по теме Data Science
В данной статье можно найти 22 совета по теме Data Science от Vincent Granville — известного специалиста в области анализа данных и создателя портала Data Science Central. - Гибкость модели данных
Немного размышлений о таком важном свойстве модели данных как гибкость. - Открытые проблемы по теме работы с данными в Facebook
Статья с блога компании Facebook рассказывает о различных нерешенных проблемах и вопросах компании в теме работы с данными. - 10 рекомендаций при реализации принципов Big Data
10 полезных рекомендаций от популярного портала Big Data Analytics News. - Запуск R в облаке Azure ML
Короткая статья, которая расскажет о возможности запуска R в облаке Azure ML от Microsoft.
Теория и алгоритмы машинного обучения, примеры кода
- Как взять под контроль огромный список алгоритмов машинного обучения
Автор популярного блога MachineLearningMastery дает несколько советов, которые помогут разбораться в большом количестве различных алгоритмов машинного обучения. - Hello World машинного обучения
Очередная отличная статья от автора блога MachineLearningMastery, которая будет интересна новичкам и поможет разобраться в огромном количестве алгоритмов, которые есть в машинном обучении. - Кластеризация и модель распределенных вычислений
Рассказ о различных методах кластеризации и возможности использования модели распределенных вычислений при использовании данных алгоритмов кластеризации. - Обнаружение выбросов — использование машинного обучения для обнаружения аномалий при анализе временных рядов
Статья с блога Microsoft Technet Machine Learning о поиске аномалий при анализе врменных рядов с помощью машинного обучения и Azure ML. - Анализ покрытия кода R юнит тестами
Очень любопытная статья, посвященная анализу уровня покрытия кода юнит-тестами в языке программирования R с помощью библиотеки testCoverage. - Анализ тональности текста твитов с помощью ALYIEN Text Analysis API
Еще одна интересная статья, посвященная анализу текста, в данном случае это интересный материал об анализе тональности текстов Twitter. - Введение в нейронные сети
Еще одна статья, которая расскажет об основах такой интересной и популярной сейчас темы как нейронные сети. - Интуиция регуляризованной логистической регрессии
Небольшая сттьая, которая поможет лучше понимать регуляризованную логистическую регрессию. - Введение в метод главных компонент
Небольшая неплохая статья об основах метода главных компонент (Principal component analysis). - О важной роли базового результата
Автор блога MachineLearningMastery рассказывает о том, что такое базовый результат и почему это важно.
Соревнования по машинному обучению
- Первое место: The Hunt for Prohibited Content
Интервью с победителям соревнования по машинному обучению The Hunt Prohibited Content компании Avito.ru на Kaggle. - Второе место: The Hunt for Prohibited Content
Интервью с участниками, занявшими второе место в соревновании по машинному обучению The Hunt Prohibited Content компании Avito.ru на Kaggle.
Онлайн-курсы, обучающие материалы и литература
- Сайт «Mining of Massive Datasets»
На данном сайте можно найти ссылки на книгу по данной теме и ссылки на различные онлайн-курсы.
Видеоматериалы
- Hadley Wickham: введение в dplyr (часть 1)
Выступление Hadley Wickham на useR! 2014, посвященное популярной библиотеке dplyr для языка программирования R. - Hadley Wickham: введение в dplyr (часть 2)
Вторая часть выступления Hadley Wickham на useR! 2014, посвященного популярной библиотеке dplyr для языка программирования R.
Data engineering
- HighLoad++ 2014: Устройство современного распределенного Object Storage на примере LeoFS (Александр Чистяков, Git in Sky)
Еще одно выступление с очередной конференции разработчиков высоконагруженных систем HighLoad++ 2014. Это выступление Александра Чистякова из Git in Sky: Устройство современного распределенного Object Storage на примере LeoFS. - HighLoad++ 2014: Sharding: patterns and antipatterns (Константин Осипов, Алексей Рыбак)
Слайды с еще одного интересного доклада, который открывал конференцию HighLoad++ 2014 под названием «Sharding: patterns and antipatterns». - Использование Apache Spark и Neo4j для анализа больших графов
Статья, которая расскажет о возможности использования популярных продуктов Apache Spark и Neo4j для работы с большими графами. - Netflix Dynomite — как сделать нераспределенные базы данных распределенными
Интересная статья про решение с открытым искходным кодом Dynomite от компании Netflix. - Flafka: Apache Flume и Apache Kafka для обработки событий
В данных обзорах уже было несколько ссылок на материалы по Apache Kafka, а в данном случае это достаточно интересная статья с блога компании Cloudera об использовании Apache Kafka и Apache Flume для обработки событий. - NoSQL в мире Hadoop
Интересная статья с блога компании Cloudera о том, какое место занимает NoSQL в мире Hadoop. - Работа с сессиями со скоростью близкой к режиму реального времени с помощью Spark Streaming и Apache Hadoop
Интересная статья с блога компании Cloudera об использовании возможностей Spark Streaming. - Три совета по моделированию данных в документо-ориентированных БД (часть 1)
Первая часть из серии статей, посвященной моделированию данных в документо-ориентированных БД. - 10 советов по моделированию данных в мире реляционных и NoSQL хранилищ
Небольшая статья, в которой можно найти 10 советов по моделированию данных в мире реляционных и NoSQL хранилищ. - Введение в Hadoop MapReduce
Статья, которая хорошо объясняет базовые концепции Hadoop MapReduce.
Обзоры
- Лучшие ресурсы за неделю от Data Elixir
Сборник ссылок на различные материалы по теме анализа данных, собранные блогом Data Elixir за прошедшую неделю. - Еженедельный дайджест от DataScienceCentral
Регулярный еженедельный дайджест статей по анализу данных от портала DataScienceCentral. - Дайджест лучших ресурсов от DataScienceCentral
Неплохой список свежих интересных статей и ресурсов от DataScienceCentral. - 10 лучших материалов недели
10 лучших материалов недели по тематике Data Science от портала «Data Science Report». - Лучшие материалы за неделю (26 октября — 1 ноября)
Лучшие материалы за неделю по теме анализа данных от портала KDnuggets. - Новости Data Mining
Небольшой список интересных ресурсов по теме Data Mining от 5 ноября. - Наиболее интересные материалы от Freakonometrics №181
Сборник наиболее интересных материалов от популярного портала Freakonometrics. - Наиболее интересные материалы от Freakonometrics №180
Сборник наиболее интересных материалов от популярного портала Freakonometrics. - Наиболее интересные материалы по High Scalability
Обзор наиболее интересных материалов по теме HighScalability от популярного портала High Scalability.
Предыдущий выпуск: Обзор наиболее интересных материалов по анализу данных и машинному обучению №20 (27 октября — 2 ноября 2014)
Автор: moat