Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения.
Общее
- Russian AI Cup 2014: стратегия победителя
- Московский Big Data-хакатон 15-16 ноября
- HighLoad++ 2014: Обработка данных в RTB: быстро, дешево и на 98% точно (Павел Калайдин, RuTarget)
Real-time bidding требует real-time аналитики. RuTarget обрабатывает миллиард запросов на показ баннеров в день. Как определить, например, сколько в этих запросах уникальных пользователей? Слайды с доклада Павла Калайдина на HighLoad++ 2014. - HighLoad++ 2014: Thorny path to the Large-Scale Graph Processing (Алексей Зиновьев, Тамтэк)
Слайды с доклада Алексея Зиновьева с конференции HighLoad++ 2014, посвященного работе с графами больших размеров. - HighLoad++ 2014: Как мы строили аналитическую платформу на несколько миллиардов событий в месяц (Михаил Табунов, Coub)
Еще один набор слайдов с еще одного доклада с конференции HighLoad++ 2014. В данном случае Михаил Табунов из Coub рассказал о своем опыте в создании аналитической платформы. - Новые подходы в Deep Learning для распознавания образов
Интересная статья с блога Microsoft Research о развитии использования алгоритмов машинного обучения Deep Learning для распознавания образов. - Jeff Hawkins об ограничениях нейронных сетей
Последнее время достаточно много шума, новостей и обсуждений вокруг темы использования нейронных сетей для машинного обучения. Jeff Hawkins даёт свой небольшой экспертный комментарий об ограничениях нейронных сетей. - Новости Data Science команды в LinkedIn
Немного новостей Data Science команды в LinkedIn от популярного портала Venture Beat. - Анализ текста с точки зрения бизнес-пользователя (часть 1)
Первая часть серии статей, посвященных взгляду на анализ текста с точки зрения нетехнического специалиста. - Индексная страница по материалам, посвященным анализу данных
В блоге Analytics Vidhya появилась полезная страничка, которая содержит ссылку на большое количество различных материалов, которые посвящены теме анализа данных. - 25 фактов о Big Data
Набор из 25 любопытных фактов о Big Data который может показаться интересным, от портала SmartData Collective. - 6000 библиотек на CRAN
Количество библиотек для языка программирования R в хранилище CRAN достигло 6000.
Теория и алгоритмы машинного обучения, примеры кода
- Разбитие текста на предложения лингво-независимым методом на примере библиотеки AIF
- Визуализация проклятия размерности
Простая и наглядная визуализация понятия проклятия размерности. - Deep learning по состоянию на 2014 год
Слайды с недавнего доклада от известного эксперта в машинном обучении Oliver Griesel, посвященного популярной теме Deep learning. - Введение в DeployR Open
Небольшая статья с блога Revolutions об интересном продукте DeployR Open для языка программирования R. - Не начинайте разработку алгоритма машиинного обучения с изучения чужого кода
Статья с блога MachineLearningMastery, в которой даются полезные советы, которые позволят поднять свой уровень знаний в области машинного обучения. - Изучение работы алгоритмов машинного обучения (часть 1)
Очередная интересная статья от автора блога MachineLearningMastery, которая расскажет о том, как можно изучать работу алгоритмов машинного обучения и почему это полезно не только при академических исследованиях. - Изучение работы алгоритмов машинного обучения (часть 2)
И еще немного информации от автора блога MachineLearningMastery о том, как изучать работу алгоритмов машинного обучения.
Онлайн-курсы, обучающие материалы и литература
- Zipfan Academy: Стать Data Scientist за 12 недель
Недешёвое предложение от Zipfian Academy, которые обещают за 12 недель и 16 000 долларов привести вас к светлому будущему в теме Data Science. - Книга «Social Media Mining»
Электронная версия книги «Social Media Mining». - Предварительная версия книги «Causal Inference»
Предварительная версия книги «Causal Inference» от автора. - Электронная версия книги «Data Blending for Dummies» доступна для бесплатного скачивания
Появилась бесплатная электронная версия книги «Data Blending for Dummies». - Выход книги «Data Fluency»
Появилась в продаже любопытная книга по анализу данных «Data Fluency».
Видеоматериалы
- Как работают рекомендательные системы. Лекция в Яндексе
- Введение в Microsoft Azure Machine Learning
Видео, в котором на достаточно простом уровне рассказано об Azure ML и послужит хорошей базой, которая поможет начать работать с данным решением от Microsoft. - Hadley Wickham о библиотеке dplyr на конференции useR! 2014
Небольшой интересный доклад о возможностях библиотеки dplyr от Hadley Wickham (Assistant Professor of Statistics, Rice University), который был представлен на конференции useR! 2014.
Data engineering
- 5 неоспоримых фактов о Hadoop
Небольшая статья от портала Big Data Analytics News, которая приводит 5 интересных фактов о Hadoop, которые помогут понять ситуации, когда использование Hadoop уместно и когда нет. - Роль DBA в мире NoSQL
Статья расскажет о том, какова же роль DBA в современном мире NoSQL хранилищ. - Использование SQL запросов в MongoDB
Статья, которая расскажет о возможности использования SQL синтаксиса для запросов к MongoDB с помощью SlamData.
Обзоры
- Еженедельный дайджест от DataScienceCentral
Регулярный еженедельный дайджест статей по анализу данных от портала DataScienceCentral. - Лучшие материалы: Big Data Zone (24 — 31 октября)
Сборник лучших материалов от популярного портала DZone по теме Big Data. - Новости Data Mining
Небольшой список интересных ресурсов по теме Data Mining от 29 октября. - Лучшие материалы недели
Лучшие материалы недели по тематике Data Science от портала «Data Science Report». - Лучшие материалы: Big Data Zone (17 — 24 октября)
Сборник лучших материалов от популярного портала DZone по теме Big Data. - Лучшие материалы за неделю (19 — 25 октября)
Лучшие материалы за неделю по теме анализа данных от портала KDnuggets. - Наиболее интересные материалы от Freakonometrics №179
Сборник наиболее интересных материалов от популярного портала Freakonometrics. - Наиболее интересные материалы от Freakonometrics №178
Сборник наиболее интересных материалов от популярного портала Freakonometrics. - Наиболее интересные материалы по High Scalability
Обзор наиболее интересных материалов по теме HighScalability от популярного портала High Scalability.
Предыдущий выпуск: Обзор наиболее интересных материалов по анализу данных и машинному обучению №19 (20 — 26 октября 2014)
Автор: moat