Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения.
Общее
- Моделирование пандемий с помощью языка Wolfram Language (системы Mathematica 10) на примере лихорадки Эбола
- Интересное из мира R (10-16 ноября 2014)
- DataTalks 25.10.14: первая встреча
- IBM запускает совместные магистерские программы в области Больших Данных с ведущими российскими университетами
- Почему Twitter является легкой целью для социальной аналитики
- Google и Stanford строят нейронную сеть, способную описывать фотографии
- 9 навыков необходимых для того, чтобы стать Data Scientist
- Еще немного материалов с Highload++ 2014 — последняя партия слайдов с различных выступлений с конференции разработчиков высоконагруженных систем HighLoad++ 2014. Не все из них связаны с машинным обучением и анализом данных, но многие могут быть интересны.
- Apache Mahout против Weka — небольшое сравнение двух популярных продуктов.
Теория и алгоритмы машинного обучения, примеры кода
- Введение в обучение без учителя (Unsupervised learning) с помощью scikit-learn
- Эффективная очистка текста с использованием Python
- Введение в Deep Learning на Python
- Обзор библиотек для анализа данных с использованием Python
- Факторный анализа против метода главных компонент
- Пример кода: dplyr — динамическая группировка по полю
- Пример кода: объединение нескольких data.frame в R
- Одномерная линейная регрессия — неплохая статья про одномерную линейную регрессию.
- Использование разведочного анализа данных для лучшего понимания проблемы и улучшения результата — очередная интересная статья от автора блога MachineLearningMastery. В данном случае речь пойдет об использовании разведочного анализа данных (Exploratory Data Analysis).
- Ask a Data Scientist: Обучение без учителя — очередная статья с популярного портала insideBIGDATA из цикла «Ask a Data Scientist», в данном выпуске речь пойдет об обучении без учителя (Unsupervised learning).
- Визуализация форкастинга — неплохая статья, посвященная возможности различных визуализаций форкастинга с использованием языка программирования R.
- Основы анализа данных с использованием R — хороший набор слайдов с доклада, посвященного основам анализа данных с использованием языка программирования R.
Онлайн-курсы, обучающие материалы и литература
- Книга «Statistical Inference for Everyone» — ссылка на бесплатную версию книги «Statistical Inference for Everyone» и ссылки на дополнительные материалы, которые могут быть полезны при работе с книгой.
Видеоматериалы
- Введение в Revolution R Open и Deploy R Open
- Видеолекции с летней школы программирования (Machine Learning Summer School 2014, Reykjavik)
- Введение в метод опорных векторов — хорошая лекция по основам метода опорных векторов (Support vector machines) с одного из курсов MIT.
- Введение в обучение с подкреплением — неплохой вводный материал по теме подкрепления с обучением (Reinforcement learning).
Data engineering
- Использование полнотекстового индексирования и поиска в PostgreSQL
- Как и для чего Яндекс отключает собственные дата-центры
- Apache Hadoop — не только MapReduce — небольшая статья с блога Analytics Vidhya про возможности, которые есть в Apache Hadoop помимо MapReduce.
- Apache Hive на Apache Spark — статья с блога компании Cloudera — демонстрация работы Apache Hive на Apache Spark, который все очевиднее становится наследник MapReduce при работе с Apache Hadoop.
- Big Data 101: Разделение — продолжение дискуссии об основах распределенных вычислений и хранения данных, в данном случае речь пойдет о разделении (Partitioning).
Обзоры
- Еженедельный дайджест от DataScienceCentral (24 ноября)
- Лучшие материалы за неделю от KDnuggets.com (9 — 15 ноября)
- Новости Data Mining от MyDataMine.com (19 ноября)
- Дайджест лучших ресурсов от DataScienceCentral (17 ноября)
- Наиболее интересные материалы от Freakonometrics №186
- Наиболее интересные материалы от Freakonometrics №185
- Наиболее интересные материалы от Freakonometrics №184
- Лучшие ресурсы за неделю от Data Elixir (№11)
- Лучшие материалы: NoSQL Zone (7 — 14 ноября)
- Еженедельный сборник лучших материалов от R1Soft (21 ноября)
- Наиболее интересные материалы по High Scalability (21 ноября)
Предыдущий выпуск: Обзор наиболее интересных материалов по анализу данных и машинному обучению №22 (10 — 16 ноября 2014)
Автор: moat