Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения.
Общее
- Как узнать больше о ваших пользователях? Применение Data Mining в Рейтинге Mail.Ru
- Руководство хакера по нейронным сетям. Схемы реальных значений. Стратегия №3: Аналитический градиент
- Process Mining: знакомство
- Немцы создали библиотеку пьяных аудиозаписей
- Исследование причин аномального голосования на сайте РОИ или особенности электронной демократии в России
- Описание изображений естественным языком — интересная статья с Google Research Blog об использовании Deep Learning для описания различных изображений естественным языком.
- Хотите зарабатывать деньги в Data Science? Изучайте инструменты для работы с данными
- 10 основных тенденций в бизнес-аналитике на 2015 год
- Тенденции в больших данных, бизнес-аналитике и Hadoop
- Кто такой Data Scientist — интересные развернутые размышления с портала Data Science Central о том, что же все-таки значит такой модный сейчас термин Data Scientist.
- Автоматическое осмысление данных — статья с Google Research Blog об интересном проекте The Automatic Statistician.
- 11 инструментов для машинного обучения с открытым исходным кодом — полезный список из 11 инструментов для машинного обучения с открытым исходным кодом.
- 63 ресурса по теме Data Science — очередной список интересных ссылок на различные ресурсы по тематике Data Science от популярного портала Data Science Central.
- Netflix: 10 уроков, полученных при построении систем машинного обучения — автор блога MachineLearningMastery.com раскрывает основные тезисы из недавней презентации от компании Netflix, на которую я давал ссылку в прошлом обзоре.
- 9 лучших аналитических платформ
- Список полезных ресурсов по языку программирования R
- Интересные ресурсы по Julia
- Python Tools для Visual Studio теперь работают и в Azure Machine Learning
Теория и алгоритмы машинного обучения, примеры кода
- Сравнение различных видов перекрестных проверок (Cross-validation) — полезная статья от автора книги «Applied Predictive Modeling» об использовании различных видов перекрестных проверок (Cross-validation) в машинном обучении.
- Deep Learning для шахмат — статья об интересном эксперименте использования алгоритма машинного обучения Deep Learning (GPU при помощи библиотеки Theano) для обучения на основе базы данных шахматных игр.
- Обработка CSV данных с помощью Python
- Машинное обучение без учителя с помощью scikit-learn
- Введение в R для программистов
- Введение в анализ текста с использованием Twitter Streaming API и Python
- Лаборатория машинного обучения SKLL (SciKit-Learn Laboratory)
- Введение в анализ данных на Python
- Data Science на практике с использованием Python
- Пример кода: запись в CSV файл из Apache Spark
- Пример кода: выбор случайных записей из data.frame с помощью dplyr
Онлайн-курсы, обучающие материалы и литература
- Анонс двух новых онлайн-курсов по Apache Spark — на сайте edX в начале 2015 года будет представлено два новых курса по теме использования Apache Spark.
- Портал с различными онлайн-курсами по теме Data Science — встретил интересный портал с большим количеством онлайн-курсов по тематике Data Science: IntelliPaat.
- Бесплатная книга «Probabilistic Programming & Bayesian Methods for Hackers» — интересная бесплатная книга под названием «Probabilistic Programming & Bayesian Methods for Hackers» с примерами на языке программирования Python.
- Материалы с летней школы машинного обучения в Париже
- 20 бесплатных книг по основам искусственного интеллекта
Бесплатная книга «2014 Data Science Salary Survey»
Список рекомендуемой литературы по эконометрике — очередной список литературы по эконометрике, которые советует к прочтению профессор Dave Giles.
Видеоматериалы
- Масштабировние алгоритмов машинного обучения с помощью Apache Spark — в данном посте представлено интересное видео с одной из встреч группы «SF Machine Learning Meetup group» в Сан-Франциско, посвященное теме использования Apache Spark.
- Несколько обучающих видео по теме Data Science — в данном посте представлен интересный набор из 12 обучающих видеоматериалов по теме Data Science за последние 2 года.
- Deep Learning с помощью Python — интересное видео по теме Deep Learning от Alec Radford (Head of Research at indico Data Solutions).
Data engineering
- Тонкая настройка сборщика мусора JVM для HBase — любопытная статья с блога компании Cloudera о возможностях настройки сборщика мусора JVM для улучшение производительности работы HBase.
Обзоры
- Интересное из мира R (24-30 ноября 2014)
- Еженедельный дайджест от DataScienceCentral (8 декабря)
- Лучшие материалы за неделю от KDnuggets.com (23 — 29 ноября)
- Лучшие материалы за ноябрь от KDnuggets.com
- Наиболее интересные материалы от Freakonometrics №190
- Наиболее интересные материалы от Freakonometrics №189
- Еженедельный сборник лучших материалов от R1Soft (5 декабря)
- Лучшие материалы: Big Data Zone (28 ноября — 5 декабря)
- Наиболее интересные материалы по High Scalability (5 декабря)
Предыдущий выпуск: Обзор наиболее интересных материалов по анализу данных и машинному обучению №24 (24 — 30 ноября 2014)
Автор: moat