Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения.
Общее
- Дата-майнинг делает научные открытия
- Простой способ оценки понятности текста на русском языке
- 16 вариантов развития своих навыков в Data Science
Отличная статья от автора блога MachineLearningMastery, в которой он предлагает множество различных направлений для собственного развития как специалиста в области анализа данных, которые существует на текущий момент. - Введение в Big Data в финансовой сфере (часть 3)
Третья часть из серии статей про использование Big Data в банковской и финансовой сферах от портала insideBIGDATA. В данной части будут затронуты такие темы как Credit Scoring и Back Trading/Testing. - Как начать карьеру аналитика
Полезная статья с блога Analytics Vidhya, в которой можно найти список ресурсов и набор практических советов для тех, кому интересна карьера специалиста в области анализа данных. - Введение в In-Memory Computing (часть 3)
Продолжение серии статей по теме In-Memory Computing от портала insideBIGDATA. В данном случае речь пойдет о типах In-Memory Computing. - Роль Julia в Data Science
Интересная статья о языке программирования Julia и о его роли в сфере анализа данных. - 7 вещей о Big Data, о которых вы должны помнить
Интересная статья с блога Big Data Analytics News, которая предлагает 7 основных вещей, о которых необходимо помнить перед внедрением технологий, связанных с Big Data. - Azure ML помогает CMU использовать электроэнергию более эффективно
Интересный пост с блога Microsoft Technet Machine Learning о том, как новый облачный продукт Microsoft Azure ML помогает Carnegie Mellon University (CMU) более эффективно использовать электроэнергию. - Почему R лучше Excel для анализа данных
Полезный пост от Fantasy Football Analytics, описывающий преимущества языка программирования R перед Excel в области анализа данных. - Microsoft Prediction Lab
Короткий пост с блога Microsoft Technet Machine Learning о «Microsoft Prediction Lab». - 200 лучших блогеров DataScienceCentral
200 лучших блогеров по теме анализа данных с популярного портала DataScienceCentral.
Теория и алгоритмы машинного обучения, примеры кода
- Работа с Data Frame в R
Неплохая статья о манипуляциях с объектами Data Frame в языке программирования R от базовых до использования библиотеки dplyr. - Введение в Feature Selection
Очередная интересная и полезная статья от автора блога MachineLearningMastery, в данном случае речь пойдет о таком важном шаге в процессе машинного обучения как Feature Selection. - Введение в метод k ближайших соседей
Достаточно простое описание метода k ближайщих соседей с блога Analytics Vidhya.
Соревнования по машинному обучению
- Конкурс Avito.ru-2014: распознавание контактной информации на изображениях
Конкурс по решению прикладной задачи из области анализа изображений. - Соревнование по машинному обучению «Tradeshift Text Classification»
На сайте Kaggle началось новое соревнование по машинному обучению Tradeshift Text Classification.
Онлайн-курсы, обучающие материалы и литература
- Стартовал онлайн-курс «Social Network Analysis»
Совсем недавно на Coursera начался онлайн-курс «Social Network Analysis», посвященный анализу социальных сетей, которой многим может показаться интересным и полезным. - Бесплатная книга «DBA's Guide to NoSQL»
Robin Schumacher в статье на блоге компании DataStax рассказал о том, что в свободном доступе появилась его небольшая по объему, но достаточно любопытная книга «DBA's Guide to NoSQL», которая может быть интересна новичкам в теме NoSQL-хранилищ. - Обзор книги «Modern Optimization with R»
Обзор новой книги «Modern Optimization with R» от портала KDnuggets, посвященной эффективной работе с языком программирования R. - Анонс второго издания книги «Doing Bayesian Data Analysis»
Анонс второго издания интересной книги «Doing Bayesian Data Analysis», которое выйдет в скором времени. - Обзор книги «Monte Carlo simulation and resampling methods for social science»
Еще один обзор интересной книги «Monte Carlo simulation and resampling methods for social science». Для примеров в книге используется язык программирования R. - Обзор книги «Analytics in a Big Data World»
Небольшой обзор любопытной книги по теме анализа данных «Analytics in a Big Data World».
Видеоматериалы
- Материалы со встречи «Moscow Cassandra Meetup at Yandex»
4 октября в офисе компании «Яндекс» прошла встреча, посвященная популярному хранилищу данных Apache Cassandra. В этом посте можно найти видеоматериалы с данной встречи. - Ruslan Salakhutdinov о Deep Learning на конференции KDD 2014
Пост об интересном докладе Ruslan Salakhutdinov из University of Toronto о различных аспектах применения машинного обучения, а именно о применении Deep Learning.
Data engineering
- Системы хранения данных: как выбирать?!
- Встреча «PostgreSQL в Avito.ru»
Анонс встречи, посвященной СУДБ PostgreSQL, которая пройдет в Москве. - Apache Spark побил предыдущий рекорд по скорости сортировки большого объема данных
Статья с блога компании DataBricks, из которой можно узнать о результатах тестов производительности сортировки с помощью Apache Spark большого объема данных. - 7 самых популярных API в области Big Data (часть 1)
В данной серии статей речь пойдет о различных вариантах работы с большими данными. - 7 самых популярных API в области Big Data (часть 2)
Вторая часть серии статей о различных вариантах работы с большими данными. - История Apache Storm
Nathan Marz — автор Apache Storm, опубликовал очень интересную статью в своем блоге об истории появления и развития Apache Storm. - Как выбрать хранилище данных
Небольшая статья о том, как сделать правильный выбор хранилища данных для успешного выполнения определенной задачи. - Сервис «Cloudera Live»
Полезный сервис от компании Cloudera под названием «Cloudera Live», который поможет новичкам быстро освоить работу с экосистемой Hadoop. - Что такое Write Concern в MongoDB?
Статья, автор которой кратко расскажет о различных режимах записи в NoSQL базу данных MongoDB. - Анонс Couchbase Server 3.0
Анонс выхода новой версии одного из самых популярных NoSQL-хранилищ.
Обзоры
- Новости Data Mining
Небольшой список интересных ресурсов по теме Data Mining от 8 октября. - Еженедельный дайджест от DataScienceCentral
Регулярный еженедельный дайджест статей по анализу данных от портала DataScienceCentral. - Дайджест лучших ресурсов от DataScienceCentral
Неплохой список свежих интересных статей и ресурсов от DataScienceCentral. - Лучшие материалы за неделю (28 сентября — 4 октября)
Лучшие материалы за неделю по теме анализа данных от портала KDnuggets. - Лучшие материалы за сентябрь
Лучшие материалы за сентябрь по теме анализа данных от портала KDnuggets. - 10 лучших материалов недели
10 лучших материалов недели по тематике Data Science от портала «Data Science Report» - Наиболее интересные материалы от Freakonometrics №172
Сборник наиболее интересных материалов от популярного портала Freakonometrics. - Наиболее интересные материалы от Freakonometrics №171
Сборник наиболее интересных материалов от популярного портала Freakonometrics. - Наиболее интересные материалы по High Scalability
Обзор наиболее интересных материалов по теме HighScalability от популярного портала High Scalability. - Лучшие материалы: NoSQL Zone (3 — 9 октября)
Сборник лучших материалов от популярного портала DZone по теме NoSQL.
Предыдущий выпуск: Обзор наиболее интересных материалов по анализу данных и машинному обучению №16 (29 сентября — 5 октября 2014)
Автор: moat