Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения. В данном выпуске достаточно много разноплановой информации. Есть много статей, посвященных теме Data Engineering. Есть материалы для новичков и несколько видеолекций. Как обычно упоминаются соревнования по машинному обучению на Kaggle. Интересная статья про стартапы в области Data Science. Любопытная статья про улучшение игрового AI при помощи использования машинного обучения.
Материалы по анализу данных и машинному обучению
Предсказательное моделирование, обучение с учителем и классификация паттернов
Неплохая статья по машинному обучению, которая будет интересна в том числе и новичкам, которая затрагивает такие темы как обучение с учителем, визуализация при машинном обучении, обработка входных данных, feature enginering, сэмплирование и другие.Ruslan Salakhutdinov о Deep Learning на конференции KDD 2014
Материалы с выступления Ruslan Salakhutdinov из University of Toronto на конференции KDD 2014, которая прошла в Нью-Йорке.Поговорим за Hadoop
Введение в экосистему Hadoop на русском языке. В конце есть неплохой набор ссылок на полезные материалы по данной тематике.Как стать Data Scientist
Любопытная статья от портала DataScienceCentral для тех, кто интересуется темой Data Science. Статья кратко описывает понятие Data Scientist, выделяет 4 направления в данной профессии и рассуждает об инструментах, которые необходимы специалисту по анализу данных.Использование функции pbapply()
Интересный пример использования функции pbapply() из библиотеки pbapply для языка программирования R.Azure DocumentDB
Cтатья о новой NoSQL базе данных от компании Microsoft под названием Azure DocumentDB. DomentDB пока находится в стадии preview. В конце данной статьи есть неплохой набор ссылок по теме.Data Science стартапы от Y Combinator
В области Data Science на данный существует достаточно много возможностей для развития бизнеса. В данной статье приводится список Data Science стартапов 2014 года от известного инкубатора стартапов Y Combinator.Новое соревнование на Kaggle: Epilepsy Seizure Prediction Challenge
Не так давно на Kaggle стартовало новое соревнование по машинному обучению American Epilepsy Society Seizure Prediction Challenge. Соревнование продлится до 17 ноября 2014 года.33 необычных проблемы, которые можно решить с помощью Data Science
Автор популярного портала DataScienceCentral в своем коротком посте опубликовал список 33 проблем из различных областей жизнедеятельности, которые по мнению Vincent Granville могут быть решены с помощью Data Science.Еженедельный дайджест от DataScienceCentral
Регулярный еженедельный дайджест статей по анализу данных от портала DataScienceCentral.Список интересной литературы
Список интересных книг, которые может быть интересно прочитать тем, кто интересует темой анализа данных.Новый набор данных от Microsoft Research
Буквально вчера на сайте Microsoft Research был опубликован интересный набор данных под названием Microsoft Research Dense Visual Annotation Corpus.Как машинное обучение помогло улучшить игровой AI
Достаточно любопытная статья, написанная хорошим живым языком, о том как применение техник машинного обучения помогло автору статьи значительно упростить и улучшить эффективность AI для игрового бота.Сближение машинного обучения и Big Data
В статье приведены интересные наблюдения достаточно известного специалиста по анализу данных Mikko Braun по теме необходимости сближения сообществ машинного обучения и Big Data, и о том, что сейчас они на самом деле достаточно далеки друг от друга, что приводит к определенным проблемам и неудобствам.Диаграммы связей для машинного обучения и Data Mining
В данном коротком посте приведены две очень интересных и полезных диаграммы связей (mind map) по темам машинного обучения и Data MiningАнализ неструктурованных данных
Продолжение серии статей по анализу текста и о работе с неструктурированными данными. В данном случае от постановки вопросов автор переходит к практическим аспектам и рассуждает на тему обработки и очистки неструктурированных текстовых данных, в качестве подготовки к дальнейшим шагам анализа этих данных.Так вы хотите быть Data Scientist
Интересная короткая статья, описывающая основные аспекты профессии под названием Data Scientist.Использование Big Data на рынке ценных бумаг
Автор статьи предлагает 3 практических совета по использованию Big Data для инвестиций на рынках ценных бумаг, которые может использовать каждый.100 популярных видео по машинному обучению
Отличный большой список из ста видео, посвященных машинному обучению, с портала VideoLectures.Net.Онлайн-курс «Анализ данных и статистический вывод»
В понедельник первого сентября на Coursera стартует второй раз очень хорошо зарекомендовавший себя онлайн-курс по теме анализа данных и статистики «Анализ данных и статистический вывод» от Duke University.Дайджест лучших ресурсов от DataScienceCentral (1 сентября)
Неплохой список свежих интересных статей и ресурсов от DataScienceCentral.Применение байесовских методов машинного обучения с помощью Apache Spark
Небольшая любопытная статья от авторов блога Cloudera, в которой приводится пример возможности использования байесовских методов машинного обучения с помощи популярного продукта семейства Hadoop под названием Apache Spark и библиотеки PyMC для языка программирования Python.Факты и мифы о Big Data
Небольшая интересная статья от популярного портала insideBIGDATA, в которой автор рассуждает о вопросах популярной сейчас темы Big Data и делится своими мыслями насчет распостраненных заблуждений в данной области.12 советов по MongoDB
Небольшая статья, которая содержит 12 полезных советов для тех, кто хочет использовать популярную NoSQL базу данных MongoDB в боевых условиях.John Chambers: интерфейсы, эффективность и большие данные
John Chambers в данном видео с конференции «useR! 2014 conference» рассуждает о прошлом, настоящем и будущем языка программирования R в процессе дискуссии под названием «Interfaces, Efficiency and Big Data».Использование Hadoop для больших объемов данных
Достаточно большая статья об экосистеме Hadoop и вопросах её реального использования при работе с большими объемами данных.Операции записи в MongoDB
Статья, которая неплохо описывает тонкости вопрос записи и обновления в MongoDB, приводя несколько режимов работы с MongoDB при обновлении данных: Unacknowledged, Acknowledged, Journalled и др.Нелинейная классификация в R с помощью деревьев принятия решений
7 видов нелинейной классификации с помощью деревьев принятия решений с примерами кода на языка программирования R от автора популярного блога по анализу данных MachineLearningMastery.Impala: планы на будущее
Небольшая статья с блога Cloudera о планах компании на будущее популярного продукта для Hadoop под названием Cloudera Impala, который позволяет работать с данным в Hadoop с помощью SQL-запросов.Slamdata: SQL-запросы в MongoDB
Анонс достаточно интересного продукта SlamData, который позволит исполнять SQL-запросы к данным, находящимся в MongoDB. На текущий момент продукт находится в фазе бета-тестирования, релиз запланирован на начала октября текущего года.
Предыдущий выпуск: Обзор наиболее интересных материалов по анализу данных и машинному обучению №10 (18 — 25 августа 2014)
Автор: moat