Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения. В данном выпуске достаточно много разноплановой информации. Есть много статей, посвященных теме Data Engineering. Есть материалы для новичков и несколько видеолекций. Как обычно упоминаются соревнования по машинному обучению на Kaggle. Интересная статья про стартапы в области Data Science. Любопытная статья про улучшение игрового AI при помощи использования машинного обучения.
Материалы по анализу данных и машинному обучению
- Предсказательное моделирование, обучение с учителем и классификация паттернов
Неплохая статья по машинному обучению, которая будет интересна в том числе и новичкам, которая затрагивает такие темы как обучение с учителем, визуализация при машинном обучении, обработка входных данных, feature enginering, сэмплирование и другие. - Ruslan Salakhutdinov о Deep Learning на конференции KDD 2014
Материалы с выступления Ruslan Salakhutdinov из University of Toronto на конференции KDD 2014, которая прошла в Нью-Йорке. - Поговорим за Hadoop
Введение в экосистему Hadoop на русском языке. В конце есть неплохой набор ссылок на полезные материалы по данной тематике. - Как стать Data Scientist
Любопытная статья от портала DataScienceCentral для тех, кто интересуется темой Data Science. Статья кратко описывает понятие Data Scientist, выделяет 4 направления в данной профессии и рассуждает об инструментах, которые необходимы специалисту по анализу данных. - Использование функции pbapply()
Интересный пример использования функции pbapply() из библиотеки pbapply для языка программирования R. - Azure DocumentDB
Cтатья о новой NoSQL базе данных от компании Microsoft под названием Azure DocumentDB. DomentDB пока находится в стадии preview. В конце данной статьи есть неплохой набор ссылок по теме. - Data Science стартапы от Y Combinator
В области Data Science на данный существует достаточно много возможностей для развития бизнеса. В данной статье приводится список Data Science стартапов 2014 года от известного инкубатора стартапов Y Combinator. - Новое соревнование на Kaggle: Epilepsy Seizure Prediction Challenge
Не так давно на Kaggle стартовало новое соревнование по машинному обучению American Epilepsy Society Seizure Prediction Challenge. Соревнование продлится до 17 ноября 2014 года. - 33 необычных проблемы, которые можно решить с помощью Data Science
Автор популярного портала DataScienceCentral в своем коротком посте опубликовал список 33 проблем из различных областей жизнедеятельности, которые по мнению Vincent Granville могут быть решены с помощью Data Science. - Еженедельный дайджест от DataScienceCentral
Регулярный еженедельный дайджест статей по анализу данных от портала DataScienceCentral. - Список интересной литературы
Список интересных книг, которые может быть интересно прочитать тем, кто интересует темой анализа данных. - Новый набор данных от Microsoft Research
Буквально вчера на сайте Microsoft Research был опубликован интересный набор данных под названием Microsoft Research Dense Visual Annotation Corpus. - Как машинное обучение помогло улучшить игровой AI
Достаточно любопытная статья, написанная хорошим живым языком, о том как применение техник машинного обучения помогло автору статьи значительно упростить и улучшить эффективность AI для игрового бота. - Сближение машинного обучения и Big Data
В статье приведены интересные наблюдения достаточно известного специалиста по анализу данных Mikko Braun по теме необходимости сближения сообществ машинного обучения и Big Data, и о том, что сейчас они на самом деле достаточно далеки друг от друга, что приводит к определенным проблемам и неудобствам. - Диаграммы связей для машинного обучения и Data Mining
В данном коротком посте приведены две очень интересных и полезных диаграммы связей (mind map) по темам машинного обучения и Data Mining - Анализ неструктурованных данных
Продолжение серии статей по анализу текста и о работе с неструктурированными данными. В данном случае от постановки вопросов автор переходит к практическим аспектам и рассуждает на тему обработки и очистки неструктурированных текстовых данных, в качестве подготовки к дальнейшим шагам анализа этих данных. - Так вы хотите быть Data Scientist
Интересная короткая статья, описывающая основные аспекты профессии под названием Data Scientist. - Использование Big Data на рынке ценных бумаг
Автор статьи предлагает 3 практических совета по использованию Big Data для инвестиций на рынках ценных бумаг, которые может использовать каждый. - 100 популярных видео по машинному обучению
Отличный большой список из ста видео, посвященных машинному обучению, с портала VideoLectures.Net. - Онлайн-курс «Анализ данных и статистический вывод»
В понедельник первого сентября на Coursera стартует второй раз очень хорошо зарекомендовавший себя онлайн-курс по теме анализа данных и статистики «Анализ данных и статистический вывод» от Duke University. - Дайджест лучших ресурсов от DataScienceCentral (1 сентября)
Неплохой список свежих интересных статей и ресурсов от DataScienceCentral. - Применение байесовских методов машинного обучения с помощью Apache Spark
Небольшая любопытная статья от авторов блога Cloudera, в которой приводится пример возможности использования байесовских методов машинного обучения с помощи популярного продукта семейства Hadoop под названием Apache Spark и библиотеки PyMC для языка программирования Python. - Факты и мифы о Big Data
Небольшая интересная статья от популярного портала insideBIGDATA, в которой автор рассуждает о вопросах популярной сейчас темы Big Data и делится своими мыслями насчет распостраненных заблуждений в данной области. - 12 советов по MongoDB
Небольшая статья, которая содержит 12 полезных советов для тех, кто хочет использовать популярную NoSQL базу данных MongoDB в боевых условиях. - John Chambers: интерфейсы, эффективность и большие данные
John Chambers в данном видео с конференции «useR! 2014 conference» рассуждает о прошлом, настоящем и будущем языка программирования R в процессе дискуссии под названием «Interfaces, Efficiency and Big Data». - Использование Hadoop для больших объемов данных
Достаточно большая статья об экосистеме Hadoop и вопросах её реального использования при работе с большими объемами данных. - Операции записи в MongoDB
Статья, которая неплохо описывает тонкости вопрос записи и обновления в MongoDB, приводя несколько режимов работы с MongoDB при обновлении данных: Unacknowledged, Acknowledged, Journalled и др. - Нелинейная классификация в R с помощью деревьев принятия решений
7 видов нелинейной классификации с помощью деревьев принятия решений с примерами кода на языка программирования R от автора популярного блога по анализу данных MachineLearningMastery. - Impala: планы на будущее
Небольшая статья с блога Cloudera о планах компании на будущее популярного продукта для Hadoop под названием Cloudera Impala, который позволяет работать с данным в Hadoop с помощью SQL-запросов. - Slamdata: SQL-запросы в MongoDB
Анонс достаточно интересного продукта SlamData, который позволит исполнять SQL-запросы к данным, находящимся в MongoDB. На текущий момент продукт находится в фазе бета-тестирования, релиз запланирован на начала октября текущего года.
Предыдущий выпуск: Обзор наиболее интересных материалов по анализу данных и машинному обучению №10 (18 — 25 августа 2014)
Автор: moat