Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения.
Общее
IBM Watson становится ближе к бизнесу и обычным пользователям
Новая языково-независимая NLP библиотека
Как большие данные меняют облик компаний
Анализ существующих подходов к распознаванию лиц
Презентации со встречи «Новинки PostgreSQL 9.4 и кое-что ещё»
Не так давно в офисе компании «Яндекс» прошла встреча, посвященная СУБД PostgreSQL и уже уже сейчас можно посмотреть презентаций с докладов, которые были представлены на данной встрече.10 инструментов Big Data
10 инструментов Big Data с блога DZone, которые могут быть полезны специалистам по анализу данных.20 открытых источников данных
Портал SmartData Collective опубликовал интересный список из 20 источников данных, который может быть полезен специалистам по анализу данных.Как Google использует Deep Learning для борьбы со спамом
Интересная статья о том, как компания Google использует методику обучения Deep Learning для борьбы со спамом.Введение в In-Memory Computing
Еще одно интересное руководство по анализу данных от популярного портала insideBIGDATA. В данном случае это введение в In-Memory Computing.Введение в Predictive Analytics (часть 4)
Четвертая часть серии статей от портала insideBIGDATA по теме Predictive Analytics. В четвертой части речь пойдет про использование языка программирования R в Predictive Analytics.Список интересных ресурсов
Список интересных сайтов и ресурсов по Data Science, визуализации, машинному обучению и большим данным от популярного портала DataScienceCentral.Введение в Big Data в финансовой сфере
Портал insideBIGDATA анонсирует новую серию статей по теме анализа данных. В данной серии речь пойдет об использовании Big Data в финансовой сфере.Выбор GPU для машинного обучения
Интересная статья про выбор и использование GPU для вычислений при использовании машинного обучения Deep Learning.Библиография по теме Deep Learning
Наиболее популярные статьи из библиографии по тематике Deep Learning.43 лидера Data Science
Список из 43 лидеров в области Data Science по версии портала DataScienceCentral.5 наиболее привлекательных профессий в области анализа данных
Статья с популярного портала Smart Data Collective, которая описывает 5 направлений возможной деятельности в области анализа данных (Data Scientist, Technical Architect, Machine Learning Expert, Hadoop Engineer, Data Marketing Executive).KDD — две темы
Небольшая статья с блога Microdoft Technet Machine Learning о конференции KDD и об облачном продукте Azure ML.50 блогов, которые стоит почитать
Неплохой список из 50 блогов по статистике, машинному обучению и анализу данных, которые будет интересно почитать, представленный популярным порталом DataScienceCentral.Как Baidu применяет Deep Learning
Интересный рассказ о том как компания Baidu использует алгоритмы машинного обучения Deep Learning в своей работе.Как работает поиск
Небольшая инфографика от компании Google о том, как работает поиск.
Соревнования по машинному обучению
Опыт от участия в «Display Advertising Challenge»
Интересная статья про опыт, полученный от участия в соревновании по машинному обучению «Display Advertising Challenge» на Kaggle, которое закончилось совсем недавно.Использование R, H2O и Domino на Kaggle
Интересная статья про использование языка программирования R совместно с Domino и H2O в соревновании по машинному обучению под названием «Africa Soil Property Prediction Challenge» на Kaggle.
Онлайн-курсы и обучающие материалы
Онлайн-курс «Statistical Learning»
В январе 2014 Стэнфордский университет провел онлайн-курс, основанный на новой книге «An Introduction to Statistical Learning with Applications in R» (ISLR). В данном посте будут представлены видеоматериалы и презентации с данного курса.Онлайн-курс «The Caltech-JPL Summer School on Big Data Analytics»
Достаточно необычный онлайн-курс стартовал в середине сентября на Coursera. По сути, это набор видеолекций и материалов с летней школы машинного обучения от California Institute of Technology.Онлайн-курс «Learning From Data»
На днях на edX стартовала новая сессия данного очень популярного курса по машинному обучению от California Institute of Technology и профессора Yaser Abu-Mostafa в качестве основного инструктора.
Литература
Обзор книги «Frequent Pattern Mining»
Обзор книги «Frequent Pattern Mining», вышедшей в 2014 году, от портала KDnuggets.Книга «R for Cloud Computing»
Анонс очень любопытной книги по облачным вычислениям с использованием языка программирования R, которая достаточно скоро появится в продаже.
Теория и алгоритмы машинного обучения, примеры кода
Что такое Feature Engineering
Отличная статья от автора блога MachineLearningMastery о процессе Feature Engineering в машинном обучении.Динамическое обучение и Sub-Linear Debugging
Очередная статья с блога Microsoft Technet Machine Learning. На этот раз в статье будет затронута тема динамического обучения (Online Learning) и Sub-Linear Debugging.Введение в метод опорных векторов
Очень простое и краткое введение в метод опорных веторов (Support Vector Machines).Обработка данных с помощью Python
Данная статья с блога Analytics Vidhya расскажет об обработке данных с помощью языка программирования Python и библиотеки Pandas.Сравнение и выбор обучающих моделей с помощью R Caret
Очередная статья от автора блога MachineLearningMastery, посвященная возможностям библиотеки машинного обучения Caret для языка программирования R. В данном случае речь пойдет о сравнении обучающих моделей и выборе наиболее эффективной.Как опубликовать графики ggplot2
Полезная статья, рассказывающая о том, как опубликовать графики, сделанные с помощью библиотеки ggplot2 для языка программирования R, в виде веб-страницы.Работа с Twitter через REST API и R
Неплохая статья, описывающая возможность работы с данными Twitter через REST API с помощью библиотеки RTwitterAPI для языка программирования R.Выбор параметров с помощью R Caret
Автор блога MachineLearningMastery рассказывает о функциональности по выбору признаков (Feature Selection) в популярной библиотеке по машинному обучению Caret для языка программирования R.Факторы не являются объектами первого класса в R
Достаточно большая статья, описывающая тонкости и возможные проблемы в работе с факторами в языке программирования R.Управление зависимостями в R
Интересная статья про управления зависимостями между библиотеками в языке программирования R, а также о визуализации этих данных о зависимостях между библиотеками.
Видеоматериалы
Использование больших данных в финансовой и банковской сферах
Портал insideBIGDATA опубликовал достаточно интересное видео в статье под названием Big Data in Banking and Financial Services, которое посвящено возможностям использования больших данных в финансовой и банковской сфере.
Data engineering
Spark 1.1: улучшение производительности MLlib
Небольшая статья о том, как улучшения производительности в новой версии Apache Spark повлияли на работу библиотеки для машинного обучения MLlib.5 советов по работе с NoSQL-хранилищами
5 полезных советов от портала High Scalability по масштабированию NoSQL-хранилищ.Введение в YARN
Неплохое введение в YARN для Hadoop 2 от портала insideBIGDATA.120 компаний, которые заинтересованы в Hadoop-разработчиках
В данном посте представлен список из 120 компаний, которые заинтересованы в Hadoop-разработчиках с небольшим описанием того, как используется Hadoop в компании.Производительность Cloudera Impala 1.4
Результаты тестов производительности Cloudera Impala 1.4 в сравнении с другими продуками с блога компании Cloudera.
Обзоры
Лучшие статьи KDnuggets (21 — 27 сентября)
Список лучших статей портала популярного KDnuggets в период с 21 по 27 сентября.Дайджест лучших ресурсов от DataScienceCentral
Неплохой список свежих интересных статей и ресурсов от DataScienceCentral.Еженедельный дайджест от DataScienceCentral
Регулярный еженедельный дайджест статей по анализу данных от портала DataScienceCentral.Новости Data Mining
Небольшой список интересных ресурсов по теме Data Mining от 24 сентября.Лучшие статьи KDnuggets (14 — 20 сентября)
Список лучших статей портала популярного KDnuggets в период с 14 по 20 сентября.Наиболее интересные материалы от Freakonometrics №167
Сборник наиболее интересных материалов от популярного портала FreakonometricsНаиболее интересные материалы от Freakonometrics №166
Сборник наиболее интересных материалов от популярного портала FreakonometricsНаиболее интересные материалы по High Scalability
Обзор наиболее интересных материалов по теме HighScalability от популярного портала High Scalability.
Предыдущий выпуск: Обзор наиболее интересных материалов по анализу данных и машинному обучению №14 (15 — 21 сентября 2014)
Автор: moat