Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения.
Общее
Моделирование пандемий с помощью языка Wolfram Language (системы Mathematica 10) на примере лихорадки Эбола
Интересное из мира R (10-16 ноября 2014)
DataTalks 25.10.14: первая встреча
IBM запускает совместные магистерские программы в области Больших Данных с ведущими российскими университетами
Почему Twitter является легкой целью для социальной аналитики
Google и Stanford строят нейронную сеть, способную описывать фотографии
9 навыков необходимых для того, чтобы стать Data Scientist
Еще немного материалов с Highload++ 2014 — последняя партия слайдов с различных выступлений с конференции разработчиков высоконагруженных систем HighLoad++ 2014. Не все из них связаны с машинным обучением и анализом данных, но многие могут быть интересны.
Apache Mahout против Weka — небольшое сравнение двух популярных продуктов.
Теория и алгоритмы машинного обучения, примеры кода
Введение в обучение без учителя (Unsupervised learning) с помощью scikit-learn
Эффективная очистка текста с использованием Python
Введение в Deep Learning на Python
Обзор библиотек для анализа данных с использованием Python
Факторный анализа против метода главных компонент
Пример кода: dplyr — динамическая группировка по полю
Пример кода: объединение нескольких data.frame в R
Одномерная линейная регрессия — неплохая статья про одномерную линейную регрессию.
Использование разведочного анализа данных для лучшего понимания проблемы и улучшения результата — очередная интересная статья от автора блога MachineLearningMastery. В данном случае речь пойдет об использовании разведочного анализа данных (Exploratory Data Analysis).
Ask a Data Scientist: Обучение без учителя — очередная статья с популярного портала insideBIGDATA из цикла «Ask a Data Scientist», в данном выпуске речь пойдет об обучении без учителя (Unsupervised learning).
Визуализация форкастинга — неплохая статья, посвященная возможности различных визуализаций форкастинга с использованием языка программирования R.
Основы анализа данных с использованием R — хороший набор слайдов с доклада, посвященного основам анализа данных с использованием языка программирования R.
Онлайн-курсы, обучающие материалы и литература
Книга «Statistical Inference for Everyone» — ссылка на бесплатную версию книги «Statistical Inference for Everyone» и ссылки на дополнительные материалы, которые могут быть полезны при работе с книгой.
Видеоматериалы
Введение в Revolution R Open и Deploy R Open
Видеолекции с летней школы программирования (Machine Learning Summer School 2014, Reykjavik)
Введение в метод опорных векторов — хорошая лекция по основам метода опорных векторов (Support vector machines) с одного из курсов MIT.
Введение в обучение с подкреплением — неплохой вводный материал по теме подкрепления с обучением (Reinforcement learning).
Data engineering
Использование полнотекстового индексирования и поиска в PostgreSQL
Как и для чего Яндекс отключает собственные дата-центры
Apache Hadoop — не только MapReduce — небольшая статья с блога Analytics Vidhya про возможности, которые есть в Apache Hadoop помимо MapReduce.
Apache Hive на Apache Spark — статья с блога компании Cloudera — демонстрация работы Apache Hive на Apache Spark, который все очевиднее становится наследник MapReduce при работе с Apache Hadoop.
Big Data 101: Разделение — продолжение дискуссии об основах распределенных вычислений и хранения данных, в данном случае речь пойдет о разделении (Partitioning).
Обзоры
Еженедельный дайджест от DataScienceCentral (24 ноября)
Лучшие материалы за неделю от KDnuggets.com (9 — 15 ноября)
Новости Data Mining от MyDataMine.com (19 ноября)
Дайджест лучших ресурсов от DataScienceCentral (17 ноября)
Наиболее интересные материалы от Freakonometrics №186
Наиболее интересные материалы от Freakonometrics №185
Наиболее интересные материалы от Freakonometrics №184
Лучшие ресурсы за неделю от Data Elixir (№11)
Лучшие материалы: NoSQL Zone (7 — 14 ноября)
Еженедельный сборник лучших материалов от R1Soft (21 ноября)
Наиболее интересные материалы по High Scalability (21 ноября)
Предыдущий выпуск: Обзор наиболее интересных материалов по анализу данных и машинному обучению №22 (10 — 16 ноября 2014)
Автор: moat