Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения.
Общее
Russian AI Cup 2014: стратегия победителя
Московский Big Data-хакатон 15-16 ноября
HighLoad++ 2014: Обработка данных в RTB: быстро, дешево и на 98% точно (Павел Калайдин, RuTarget)
Real-time bidding требует real-time аналитики. RuTarget обрабатывает миллиард запросов на показ баннеров в день. Как определить, например, сколько в этих запросах уникальных пользователей? Слайды с доклада Павла Калайдина на HighLoad++ 2014.HighLoad++ 2014: Thorny path to the Large-Scale Graph Processing (Алексей Зиновьев, Тамтэк)
Слайды с доклада Алексея Зиновьева с конференции HighLoad++ 2014, посвященного работе с графами больших размеров.HighLoad++ 2014: Как мы строили аналитическую платформу на несколько миллиардов событий в месяц (Михаил Табунов, Coub)
Еще один набор слайдов с еще одного доклада с конференции HighLoad++ 2014. В данном случае Михаил Табунов из Coub рассказал о своем опыте в создании аналитической платформы.Новые подходы в Deep Learning для распознавания образов
Интересная статья с блога Microsoft Research о развитии использования алгоритмов машинного обучения Deep Learning для распознавания образов.Jeff Hawkins об ограничениях нейронных сетей
Последнее время достаточно много шума, новостей и обсуждений вокруг темы использования нейронных сетей для машинного обучения. Jeff Hawkins даёт свой небольшой экспертный комментарий об ограничениях нейронных сетей.Новости Data Science команды в LinkedIn
Немного новостей Data Science команды в LinkedIn от популярного портала Venture Beat.Анализ текста с точки зрения бизнес-пользователя (часть 1)
Первая часть серии статей, посвященных взгляду на анализ текста с точки зрения нетехнического специалиста.Индексная страница по материалам, посвященным анализу данных
В блоге Analytics Vidhya появилась полезная страничка, которая содержит ссылку на большое количество различных материалов, которые посвящены теме анализа данных.25 фактов о Big Data
Набор из 25 любопытных фактов о Big Data который может показаться интересным, от портала SmartData Collective.6000 библиотек на CRAN
Количество библиотек для языка программирования R в хранилище CRAN достигло 6000.
Теория и алгоритмы машинного обучения, примеры кода
Разбитие текста на предложения лингво-независимым методом на примере библиотеки AIF
Визуализация проклятия размерности
Простая и наглядная визуализация понятия проклятия размерности.Deep learning по состоянию на 2014 год
Слайды с недавнего доклада от известного эксперта в машинном обучении Oliver Griesel, посвященного популярной теме Deep learning.Введение в DeployR Open
Небольшая статья с блога Revolutions об интересном продукте DeployR Open для языка программирования R.Не начинайте разработку алгоритма машиинного обучения с изучения чужого кода
Статья с блога MachineLearningMastery, в которой даются полезные советы, которые позволят поднять свой уровень знаний в области машинного обучения.Изучение работы алгоритмов машинного обучения (часть 1)
Очередная интересная статья от автора блога MachineLearningMastery, которая расскажет о том, как можно изучать работу алгоритмов машинного обучения и почему это полезно не только при академических исследованиях.Изучение работы алгоритмов машинного обучения (часть 2)
И еще немного информации от автора блога MachineLearningMastery о том, как изучать работу алгоритмов машинного обучения.
Онлайн-курсы, обучающие материалы и литература
Zipfan Academy: Стать Data Scientist за 12 недель
Недешёвое предложение от Zipfian Academy, которые обещают за 12 недель и 16 000 долларов привести вас к светлому будущему в теме Data Science.Книга «Social Media Mining»
Электронная версия книги «Social Media Mining».Предварительная версия книги «Causal Inference»
Предварительная версия книги «Causal Inference» от автора.Электронная версия книги «Data Blending for Dummies» доступна для бесплатного скачивания
Появилась бесплатная электронная версия книги «Data Blending for Dummies».Выход книги «Data Fluency»
Появилась в продаже любопытная книга по анализу данных «Data Fluency».
Видеоматериалы
Как работают рекомендательные системы. Лекция в Яндексе
Введение в Microsoft Azure Machine Learning
Видео, в котором на достаточно простом уровне рассказано об Azure ML и послужит хорошей базой, которая поможет начать работать с данным решением от Microsoft.Hadley Wickham о библиотеке dplyr на конференции useR! 2014
Небольшой интересный доклад о возможностях библиотеки dplyr от Hadley Wickham (Assistant Professor of Statistics, Rice University), который был представлен на конференции useR! 2014.
Data engineering
5 неоспоримых фактов о Hadoop
Небольшая статья от портала Big Data Analytics News, которая приводит 5 интересных фактов о Hadoop, которые помогут понять ситуации, когда использование Hadoop уместно и когда нет.Роль DBA в мире NoSQL
Статья расскажет о том, какова же роль DBA в современном мире NoSQL хранилищ.Использование SQL запросов в MongoDB
Статья, которая расскажет о возможности использования SQL синтаксиса для запросов к MongoDB с помощью SlamData.
Обзоры
Еженедельный дайджест от DataScienceCentral
Регулярный еженедельный дайджест статей по анализу данных от портала DataScienceCentral.Лучшие материалы: Big Data Zone (24 — 31 октября)
Сборник лучших материалов от популярного портала DZone по теме Big Data.Новости Data Mining
Небольшой список интересных ресурсов по теме Data Mining от 29 октября.Лучшие материалы недели
Лучшие материалы недели по тематике Data Science от портала «Data Science Report».Лучшие материалы: Big Data Zone (17 — 24 октября)
Сборник лучших материалов от популярного портала DZone по теме Big Data.Лучшие материалы за неделю (19 — 25 октября)
Лучшие материалы за неделю по теме анализа данных от портала KDnuggets.Наиболее интересные материалы от Freakonometrics №179
Сборник наиболее интересных материалов от популярного портала Freakonometrics.Наиболее интересные материалы от Freakonometrics №178
Сборник наиболее интересных материалов от популярного портала Freakonometrics.Наиболее интересные материалы по High Scalability
Обзор наиболее интересных материалов по теме HighScalability от популярного портала High Scalability.
Предыдущий выпуск: Обзор наиболее интересных материалов по анализу данных и машинному обучению №19 (20 — 26 октября 2014)
Автор: moat