Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения. Хочу также обратить внимание, что я выпустил первый дайджест по теме высокой производительности и Data Enginering: Обзор наиболее интересных материалов по высокой производительности (15 — 21 сентября 2014). Думаю, что кого-то он тоже может заинтересовать.
Общее
- KDD 2104: Google KV и Topic Modeling
Авторы блога компании URX делятся своими впечатлениями от недавно прошедшей в Нью-Йорке конференции KDD 2014, а именно рассказывают о системе под названием Google Knowledge Vault, которая активно используется в Google для улучшения качества поиска и о другой интересной теме тематического моделирования (Topic Modeling). - 10 лучших презентаций с SlideShare по Data Science и Big Data
Статья со списком из 10 презентаций с сайта SlideShare по темам Data Science и Big Data с наибольшим количеством просмотров. - Библиотека cuDNN для Deep Learning
Анонс библиотеки от NVIDIA для работы с Deep Learning алгоритмами, которая использует GPU для вычислений, данный подход позволяет увеличить эффективность работы алгортимов машинного обучения. - Статистика против эвристики
Интересные размышления автора статьи о о том, когда резонно применять эфристические подходы. - В Лондоне прошла конференция «Эффективные применения языка R»
Автор блога «R: Анализ и визуализация данных» рассказывает о конференции «Effective Applications of the R Language (EARL)», посвященной применению языка программирования R. - Введение в Predictive Analytics (часть 2)
Вторая часть новой серии статей от портала insideBIGDATA по теме Predictive Analytics. В данном случае речь пойдет об областях применение Predictive Analytics в корпоративной сфере бизнеса. - Введение в Predictive Analytics (часть 3)
Третья часть новой серии статей от портала insideBIGDATA по теме Predictive Analytics. В третьей части описываются основные подходы, которые используются при обучении с учителем (Supervised learning), такие как регрессия, классификация и кластеризация. - Популярные вопросы на собеседовании на должность аналитика
Небольшая статья, которая содержит несколько популярных вопросов, которые задают на собеседовании на должность аналитика. - Vincent Granville о Big Data
Vincent Granville — автор портала DataScienceCentral, приводит свои размышления и дает определение понятия Big Data. - Как добиться успеха в Big Data
Небольшая статья с инфографикой, которая расскажет об основных факторах, которые влияют на успешность компании в области Big Data. - Как стать Data Scientist
Несколько советов о том, как стать Data Scientist и быть успешным в области анализа данных. - Поддержка R в Azure ML
Небольшая статья с блога Microsoft Technet Machine Learning о возможности использования R в облачном решении Azure ML. - 5 ключевых идей для понимания Big Data
Интересный пост от портала Smart Data Collective, который рассказывает 5 ключевых моментах, которые помогут извелкать пользу из данных наиболее эффективно. - Применение машинного обучения для трейдинга (часть 2)
Продолжение темы использования машинного обучения для трейдинга. - 10 экспертов в машинном обучении
Список из 10 известных людей в области анализа данных и машинного обучения. - Data Mining против(?) Data Science
Еще немного интересных размышлений по поводу терминологии. - Введение в машинное обучение и быстрый старт с Azure ML
Интересная статья, описывающая возиожности нового облачного продукта для машинного обучения от Microsoft под названием Azure ML.
Соревнования по машинному обучению
- Описание победной методологии «Higgs Boson Machine Learning Challenge»
Интересной рассказ от победителя соревнования по машинному обучению «Higgs Boson Machine Learning Challenge» на Kaggle, где он описывает подход, который принес ему успех в данном соревновании. - Соревнование по расшифровке Азбуки Морзе на Kaggle in Class
В данном небольшом посте речь пойдет о новом соревновании, которое началось на Kaggle in Class под названием Morse Learning Machine — v1. Предполагается, что участники Morse Learning Machine построят систему, которая будет расшифровывать сообщения закодированные Азбукой Морзе, содержащиеся в аудиофайлах. - Хакатон по машинному обучению от Microsoft
Статья с блога Microsoft Technet Machine Learning, в которой рассказывается о прошедшем под эгидой Microsoft хакатоне по машинному обучению.
Онлайн-курсы и обучающие материалы
- Анонсирован новый онлайн-курс «Process Mining: Data science in Action»
Не так давно был анонсирован новый онлайн-курс на Coursera по тематике анализа данных под названием «Process Mining: Data science in Action», который представлен Eindhoven University of Technology.
Литература
- Книга «Forecasting Principles and Practices» в бесплатном доступе
Rob J Hyndman в своем блоге сообщил, что его популярную книгу «Forecasting Principles and Practices» теперь можно найти в онлайн в бесплатном доступе.
Теория и алгоритмы машинного обучения, примеры кода
- Визуализация GPS-данных
Неплохой пример кода для визуализации данных с GPS-устройства с использованием языка программирования R. - Настройка .RProfile
Статья посвящена полезной и интересной теме настройки параметров запуска R с помощью файла конфигурации .RProfile. - Визуализация данных с помощью R Caret
Автор блога MachineLearningMastery рассказывает о возможностях визуализации данных в популярной библиотеке по машинному обучению Caret для языка программирования R. - Использование R Caret для Predictive Modeling
Автор блога MachineLearningMastery рассказывает про использование популярной библиотеки Caret для языка программирования R для Predictive Modeling. - Улучшение обучающей модели с помощью R Caret
Автор блога MachineLearningMastery рассказывает про возможности улучшения обучающей модели с помощью библиотеки Caret для языка программирования R - Серия слайдов по теме анализа данных на R
В данном наборе слайдов Yanchang Zhao касается семи достаточно интересных тем по анализу данных и использует язык программирования R для примеров кода. - Диагностика линейных регрессионных моделей. Часть 1
Первая часть серии статей по достаточно интересной теме диагностики линейных регрессионных моделей с блога «R: Анализ и визуализация данных». Примеры кода в статье написаны на языке программирования R. - Введение в вероятностное программирование
Достаточно неплохое введение в интересную тему вероятностного программирования с примерами кода. - Анализ тональности текста в рецензиях к фильмам
Интересный пример анализа текстовой информации, а именно анализа тональности текста в рецензиях на фильмы, с использованием популярной графовой базы данных Neo4j и языка программирования Java. - Машинное обучение на живой среде
Colin Ristig рассказывает о достаточно интересном и важном вопросе, который иногда забывают — работа алгоритма машинного обучения на живой среде. - Библиография по теме Deep Learning
Большой список различных научных материалов по популярному методу машинному обучения Deep Learning, с разбиением на категории.
Видеоматериалы
- Andrew Ng о Deep Learning
Andrew Ng из Stanford University выступил на конференции «2014 Robotics: Science and Systems Conference» с интересным докладом о Deep Learning. - Moscow Data Science. September 2014 Meetup
5 сентября посетил достаточно интересный meetup под названием Moscow Data Science — «September 2014 Meetup», организованный компанией Mail.ru. По ссылке можно будет посмотреть видео с данной встречи, я для удобства разметил время начала и длительность выступления каждого участника.
Data engineering
- Кто и как использует Hadoop
Интересная статья о текущем состоянии дел в экосистеме Hadoop: кто и как её пользуется, а также о преспективах развития. - Ближайшие встречи по Data Science в Москве
В ближайшее время намечается сразу несколько интересных митапов, поэтому я решил опубликовать небольшой список ближайших интересных встреч по теме анализа данных и высокой производительности в Москве. - 10 способов работы с Hadoop через SQL-запросы
10 инструментов и способов для работы с Hadoop через SQL-запросы и небольшое описание каждого. - Приглашаем на HadoopKitchen
Объявление о встрече, посвященной Hadoop, которая состоится в офисе Mail.ru. Я тоже собираюсь посетить данное мероприятие. - Введение в HBase
Статья, содержащая видео и поясняющий материал по теме HBase — хранилища данных из экосистемы Hadoop, а также рассказывающая о ситуациях, когда стоит применять данное решение и когда не стоит. - Анонс Apache Spark 1.1
Анонс новой версии Apache Spark 1.1 и описание основных нововведений. - Потоковая обработка данных в Apache Spark 1.1
Статья о новых возможностях потоковой обработки данных в Apache Spark 1.1 и о вариантах использования данной функциональности. - Статистические вычисления в Apache Spark 1.1
Описание расширенных возможностей статистических вычислений в Apache Spark 1.1.
Обзоры
- Еженедельный дайджест от DataScienceCentral
Регулярный еженедельный дайджест статей по анализу данных от портала DataScienceCentral. - Дайджест лучших ресурсов от DataScienceCentral
Неплохой список свежих интересных статей и ресурсов от DataScienceCentral. - Лучшие статьи KDnuggets (7 — 13 сентября)
Список лучших статей портала популярного KDnuggets в период с 7 по 13 сентября. - Новости Data Mining
Небольшой список интересных ресурсов по теме Data Mining от 17 сентября. - Наиболее интересные материалы от Freakonometrics
Сборник наиболее интересных материалов от популярного портала Freakonometrics
Предыдущий выпуск: Обзор наиболее интересных материалов по анализу данных и машинному обучению №12 (1 — 8 сентября 2014)
P.S. Думаю, что многим хотелось бы видеть больше материал по тематике на русском языке, так что если кто-то может посоветовать таковые, то я буду очень признателен и добавлю их в свой список ресурсов за которыми слежу.
Автор: moat