Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения.
Общее
- Шпаргалки по Data Science — неплохой список различных шпаргалок по теме Data Science.
- Перспективы Data Science — интересная сессия вопросов и ответов с блога Microsoft Technet SQL Server с двумя Data Scientist из компании Microsoft.
- Как выбрать проект для вашего Data Science портфолио
- Не беспокойтесь, Python не заменяет R
- Основные тенденции на рынке труда в области Big Data, на которые стоит обратить внимание в 2015 году
- 24 полезных ресурса по теме Data Science — хороший список ресурсов, который поможет держать руку на пульсе последних событий в области Data Science.
- 9 навыков, которые будут необходимы в 2015 году для работы в области Big Data
- 9 советов, которые помогут сделать Data Mining эффективнее
Теория и алгоритмы машинного обучения, примеры кода
- Тривиум теории измерений
- Анализ данных с датчиков смартфона с помощью R и библиотеки BreakoutDetection
- Новая версия библиотеки Caret — новая версия популярной библиотеки Caret для машинного обучения для языка программирования R появилась в CRAN. В данном коротком посте описаны основные нововведения данной версии.
- Библиотеки Python для анализа данных
- Что такое scikit-learn? — краткое описание популярной библиотеки машинного обучения scikit-learn для языка программирования Python от автора блога Analytics Vidhya.
- Машинное обучение с носимыми устройствами с использованием scikit-learn и Python
- Определение аномалий во временных рядах — статья с блога компании Twitter об интересной новой библиотеке для языка программирования R с открытым исходным кодом AnomalyDetection для определения аномалий во временных рядах.
- Использования библиотеки AnomalyDetection на Wikipedia Page View Data — продолжение темы использования библиотеки AnomalyDetection от Twitter.
- Как работает линейная регрессия? — простым языком о линейной регрессии.
- Наглядно о нейронных сетях — небольшая статья с иллюстрированным описанием работы нейронных сетей.
- Случайное разделение данных на тестовый и тренировочный наборы: этого может быть недостаточно
- Обработка изображений и выбор признаков (Feature selection) с помощью Python
- Пример визуализации фильтра Калмана при помощи R
Соревнования по машинному обучению
- BudgetApps — Первый Всероссийский конкурс по открытым финансовым данным
- Метрики в соренованиях по машинному обучению: ROC и AUC
- Отчет победителя соревнования "«Getting a Handel on Data Science» на Kaggle InClass
- AI соревнование по Angry Birds
Онлайн-курсы, обучающие материалы и литература
- Начало нового онлайн-курса «Artificial Intelligence Planning» — в начале следующей недели на Coursera начнется курс «Artificial Intelligence Planning», представленный The University of Edinburgh.
- Онлайн-курс «Image and video processing» на Coursera — 5 января на Coursera началась новая сессия популярного онлайн-курса «Image and video processing: From Mars to Hollywood with a stop at the hospital» от Duke University.
- Начался курс «Computational Methods for Data Analysis» — очередная сессия достаточно популярного курса «Computational Methods for Data Analysis» от University of Washinton началась несколько дней назад на Coursera.
- Онлайн-курс «Data Analysis and Visualization Using R»
- Книга: «Introduction to Probability, Statistics, and Random Processes»
- Книга: «Data Driven: Creating a Data Culture»
Видеоматериалы
- Лучшие выступления «Strata + Hadoop World» — в данном посте представлен список лучших выступлений с конференций Strata + Hadoop World.
Data engineering
- Новая новая вещь (The new new thing)
- Big Data на вашем компьютере: Как установить Hadoop 2.6.0
- Spark SQL Data Sources API: Унифицированный доступ к данным на платформе Apache Spark
- Бесплатная электронная книга: «Field Guide To Hadoop»
- Apache Samza: обработка потоковой информации от LinkedIn
Обзоры
- Интересное из мира R (5-11 января 2015 г.)
- Еженедельный дайджест от DataScienceCentral (12 января)
- Лучшие материалы за неделю от KDnuggets.com (28 декабря — 3 января)
- Дайджест лучших ресурсов от DataScienceCentral 6 января)
- Новости Data Science от MyDataMine.com (8 января)
- Новости Big Data от MyDataMine.com (9 января)
- Еженедельный сборник лучших материалов от R1Soft (9 января)
- Лучшие ресурсы за неделю от Data Elixir (№17)
- Наиболее интересные материалы от Freakonometrics №201
- Наиболее интересные материалы от Freakonometrics №202
- Наиболее интересные материалы по High Scalability (9 января)
Предыдущий выпуск: Обзор наиболее интересных материалов по анализу данных и машинному обучению №29 (29 декабря 2014 — 4 января 2015)
Автор: moat