Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения.
Общее
Дата-майнинг делает научные открытия
Простой способ оценки понятности текста на русском языке
16 вариантов развития своих навыков в Data Science
Отличная статья от автора блога MachineLearningMastery, в которой он предлагает множество различных направлений для собственного развития как специалиста в области анализа данных, которые существует на текущий момент.Введение в Big Data в финансовой сфере (часть 3)
Третья часть из серии статей про использование Big Data в банковской и финансовой сферах от портала insideBIGDATA. В данной части будут затронуты такие темы как Credit Scoring и Back Trading/Testing.Как начать карьеру аналитика
Полезная статья с блога Analytics Vidhya, в которой можно найти список ресурсов и набор практических советов для тех, кому интересна карьера специалиста в области анализа данных.Введение в In-Memory Computing (часть 3)
Продолжение серии статей по теме In-Memory Computing от портала insideBIGDATA. В данном случае речь пойдет о типах In-Memory Computing.Роль Julia в Data Science
Интересная статья о языке программирования Julia и о его роли в сфере анализа данных.7 вещей о Big Data, о которых вы должны помнить
Интересная статья с блога Big Data Analytics News, которая предлагает 7 основных вещей, о которых необходимо помнить перед внедрением технологий, связанных с Big Data.Azure ML помогает CMU использовать электроэнергию более эффективно
Интересный пост с блога Microsoft Technet Machine Learning о том, как новый облачный продукт Microsoft Azure ML помогает Carnegie Mellon University (CMU) более эффективно использовать электроэнергию.Почему R лучше Excel для анализа данных
Полезный пост от Fantasy Football Analytics, описывающий преимущества языка программирования R перед Excel в области анализа данных.Microsoft Prediction Lab
Короткий пост с блога Microsoft Technet Machine Learning о «Microsoft Prediction Lab».200 лучших блогеров DataScienceCentral
200 лучших блогеров по теме анализа данных с популярного портала DataScienceCentral.
Теория и алгоритмы машинного обучения, примеры кода
Работа с Data Frame в R
Неплохая статья о манипуляциях с объектами Data Frame в языке программирования R от базовых до использования библиотеки dplyr.Введение в Feature Selection
Очередная интересная и полезная статья от автора блога MachineLearningMastery, в данном случае речь пойдет о таком важном шаге в процессе машинного обучения как Feature Selection.Введение в метод k ближайших соседей
Достаточно простое описание метода k ближайщих соседей с блога Analytics Vidhya.
Соревнования по машинному обучению
Конкурс Avito.ru-2014: распознавание контактной информации на изображениях
Конкурс по решению прикладной задачи из области анализа изображений.Соревнование по машинному обучению «Tradeshift Text Classification»
На сайте Kaggle началось новое соревнование по машинному обучению Tradeshift Text Classification.
Онлайн-курсы, обучающие материалы и литература
Стартовал онлайн-курс «Social Network Analysis»
Совсем недавно на Coursera начался онлайн-курс «Social Network Analysis», посвященный анализу социальных сетей, которой многим может показаться интересным и полезным.Бесплатная книга «DBA's Guide to NoSQL»
Robin Schumacher в статье на блоге компании DataStax рассказал о том, что в свободном доступе появилась его небольшая по объему, но достаточно любопытная книга «DBA's Guide to NoSQL», которая может быть интересна новичкам в теме NoSQL-хранилищ.Обзор книги «Modern Optimization with R»
Обзор новой книги «Modern Optimization with R» от портала KDnuggets, посвященной эффективной работе с языком программирования R.Анонс второго издания книги «Doing Bayesian Data Analysis»
Анонс второго издания интересной книги «Doing Bayesian Data Analysis», которое выйдет в скором времени.Обзор книги «Monte Carlo simulation and resampling methods for social science»
Еще один обзор интересной книги «Monte Carlo simulation and resampling methods for social science». Для примеров в книге используется язык программирования R.Обзор книги «Analytics in a Big Data World»
Небольшой обзор любопытной книги по теме анализа данных «Analytics in a Big Data World».
Видеоматериалы
Материалы со встречи «Moscow Cassandra Meetup at Yandex»
4 октября в офисе компании «Яндекс» прошла встреча, посвященная популярному хранилищу данных Apache Cassandra. В этом посте можно найти видеоматериалы с данной встречи.Ruslan Salakhutdinov о Deep Learning на конференции KDD 2014
Пост об интересном докладе Ruslan Salakhutdinov из University of Toronto о различных аспектах применения машинного обучения, а именно о применении Deep Learning.
Data engineering
Системы хранения данных: как выбирать?!
Встреча «PostgreSQL в Avito.ru»
Анонс встречи, посвященной СУДБ PostgreSQL, которая пройдет в Москве.Apache Spark побил предыдущий рекорд по скорости сортировки большого объема данных
Статья с блога компании DataBricks, из которой можно узнать о результатах тестов производительности сортировки с помощью Apache Spark большого объема данных.7 самых популярных API в области Big Data (часть 1)
В данной серии статей речь пойдет о различных вариантах работы с большими данными.7 самых популярных API в области Big Data (часть 2)
Вторая часть серии статей о различных вариантах работы с большими данными.История Apache Storm
Nathan Marz — автор Apache Storm, опубликовал очень интересную статью в своем блоге об истории появления и развития Apache Storm.Как выбрать хранилище данных
Небольшая статья о том, как сделать правильный выбор хранилища данных для успешного выполнения определенной задачи.Сервис «Cloudera Live»
Полезный сервис от компании Cloudera под названием «Cloudera Live», который поможет новичкам быстро освоить работу с экосистемой Hadoop.Что такое Write Concern в MongoDB?
Статья, автор которой кратко расскажет о различных режимах записи в NoSQL базу данных MongoDB.Анонс Couchbase Server 3.0
Анонс выхода новой версии одного из самых популярных NoSQL-хранилищ.
Обзоры
Новости Data Mining
Небольшой список интересных ресурсов по теме Data Mining от 8 октября.Еженедельный дайджест от DataScienceCentral
Регулярный еженедельный дайджест статей по анализу данных от портала DataScienceCentral.Дайджест лучших ресурсов от DataScienceCentral
Неплохой список свежих интересных статей и ресурсов от DataScienceCentral.Лучшие материалы за неделю (28 сентября — 4 октября)
Лучшие материалы за неделю по теме анализа данных от портала KDnuggets.Лучшие материалы за сентябрь
Лучшие материалы за сентябрь по теме анализа данных от портала KDnuggets.10 лучших материалов недели
10 лучших материалов недели по тематике Data Science от портала «Data Science Report»Наиболее интересные материалы от Freakonometrics №172
Сборник наиболее интересных материалов от популярного портала Freakonometrics.Наиболее интересные материалы от Freakonometrics №171
Сборник наиболее интересных материалов от популярного портала Freakonometrics.Наиболее интересные материалы по High Scalability
Обзор наиболее интересных материалов по теме HighScalability от популярного портала High Scalability.Лучшие материалы: NoSQL Zone (3 — 9 октября)
Сборник лучших материалов от популярного портала DZone по теме NoSQL.
Предыдущий выпуск: Обзор наиболее интересных материалов по анализу данных и машинному обучению №16 (29 сентября — 5 октября 2014)
Автор: moat