Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения.
Общее
Как узнать больше о ваших пользователях? Применение Data Mining в Рейтинге Mail.Ru
Руководство хакера по нейронным сетям. Схемы реальных значений. Стратегия №3: Аналитический градиент
Process Mining: знакомство
Немцы создали библиотеку пьяных аудиозаписей
Исследование причин аномального голосования на сайте РОИ или особенности электронной демократии в России
Описание изображений естественным языком — интересная статья с Google Research Blog об использовании Deep Learning для описания различных изображений естественным языком.
Хотите зарабатывать деньги в Data Science? Изучайте инструменты для работы с данными
10 основных тенденций в бизнес-аналитике на 2015 год
Тенденции в больших данных, бизнес-аналитике и Hadoop
Кто такой Data Scientist — интересные развернутые размышления с портала Data Science Central о том, что же все-таки значит такой модный сейчас термин Data Scientist.
Автоматическое осмысление данных — статья с Google Research Blog об интересном проекте The Automatic Statistician.
11 инструментов для машинного обучения с открытым исходным кодом — полезный список из 11 инструментов для машинного обучения с открытым исходным кодом.
63 ресурса по теме Data Science — очередной список интересных ссылок на различные ресурсы по тематике Data Science от популярного портала Data Science Central.
Netflix: 10 уроков, полученных при построении систем машинного обучения — автор блога MachineLearningMastery.com раскрывает основные тезисы из недавней презентации от компании Netflix, на которую я давал ссылку в прошлом обзоре.
9 лучших аналитических платформ
Список полезных ресурсов по языку программирования R
Интересные ресурсы по Julia
Python Tools для Visual Studio теперь работают и в Azure Machine Learning
Теория и алгоритмы машинного обучения, примеры кода
Сравнение различных видов перекрестных проверок (Cross-validation) — полезная статья от автора книги «Applied Predictive Modeling» об использовании различных видов перекрестных проверок (Cross-validation) в машинном обучении.
Deep Learning для шахмат — статья об интересном эксперименте использования алгоритма машинного обучения Deep Learning (GPU при помощи библиотеки Theano) для обучения на основе базы данных шахматных игр.
Обработка CSV данных с помощью Python
Машинное обучение без учителя с помощью scikit-learn
Введение в R для программистов
Введение в анализ текста с использованием Twitter Streaming API и Python
Лаборатория машинного обучения SKLL (SciKit-Learn Laboratory)
Введение в анализ данных на Python
Data Science на практике с использованием Python
Пример кода: запись в CSV файл из Apache Spark
Пример кода: выбор случайных записей из data.frame с помощью dplyr
Онлайн-курсы, обучающие материалы и литература
Анонс двух новых онлайн-курсов по Apache Spark — на сайте edX в начале 2015 года будет представлено два новых курса по теме использования Apache Spark.
Портал с различными онлайн-курсами по теме Data Science — встретил интересный портал с большим количеством онлайн-курсов по тематике Data Science: IntelliPaat.
Бесплатная книга «Probabilistic Programming & Bayesian Methods for Hackers» — интересная бесплатная книга под названием «Probabilistic Programming & Bayesian Methods for Hackers» с примерами на языке программирования Python.
Материалы с летней школы машинного обучения в Париже
20 бесплатных книг по основам искусственного интеллекта
Бесплатная книга «2014 Data Science Salary Survey»
Список рекомендуемой литературы по эконометрике — очередной список литературы по эконометрике, которые советует к прочтению профессор Dave Giles.
Видеоматериалы
Масштабировние алгоритмов машинного обучения с помощью Apache Spark — в данном посте представлено интересное видео с одной из встреч группы «SF Machine Learning Meetup group» в Сан-Франциско, посвященное теме использования Apache Spark.
Несколько обучающих видео по теме Data Science — в данном посте представлен интересный набор из 12 обучающих видеоматериалов по теме Data Science за последние 2 года.
Deep Learning с помощью Python — интересное видео по теме Deep Learning от Alec Radford (Head of Research at indico Data Solutions).
Data engineering
Тонкая настройка сборщика мусора JVM для HBase — любопытная статья с блога компании Cloudera о возможностях настройки сборщика мусора JVM для улучшение производительности работы HBase.
Обзоры
Интересное из мира R (24-30 ноября 2014)
Еженедельный дайджест от DataScienceCentral (8 декабря)
Лучшие материалы за неделю от KDnuggets.com (23 — 29 ноября)
Лучшие материалы за ноябрь от KDnuggets.com
Наиболее интересные материалы от Freakonometrics №190
Наиболее интересные материалы от Freakonometrics №189
Еженедельный сборник лучших материалов от R1Soft (5 декабря)
Лучшие материалы: Big Data Zone (28 ноября — 5 декабря)
Наиболее интересные материалы по High Scalability (5 декабря)
Предыдущий выпуск: Обзор наиболее интересных материалов по анализу данных и машинному обучению №24 (24 — 30 ноября 2014)
Автор: moat