Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения.
Общее
- IBM Watson становится ближе к бизнесу и обычным пользователям
- Новая языково-независимая NLP библиотека
- Как большие данные меняют облик компаний
- Анализ существующих подходов к распознаванию лиц
- Презентации со встречи «Новинки PostgreSQL 9.4 и кое-что ещё»
Не так давно в офисе компании «Яндекс» прошла встреча, посвященная СУБД PostgreSQL и уже уже сейчас можно посмотреть презентаций с докладов, которые были представлены на данной встрече. - 10 инструментов Big Data
10 инструментов Big Data с блога DZone, которые могут быть полезны специалистам по анализу данных. - 20 открытых источников данных
Портал SmartData Collective опубликовал интересный список из 20 источников данных, который может быть полезен специалистам по анализу данных. - Как Google использует Deep Learning для борьбы со спамом
Интересная статья о том, как компания Google использует методику обучения Deep Learning для борьбы со спамом. - Введение в In-Memory Computing
Еще одно интересное руководство по анализу данных от популярного портала insideBIGDATA. В данном случае это введение в In-Memory Computing. - Введение в Predictive Analytics (часть 4)
Четвертая часть серии статей от портала insideBIGDATA по теме Predictive Analytics. В четвертой части речь пойдет про использование языка программирования R в Predictive Analytics. - Список интересных ресурсов
Список интересных сайтов и ресурсов по Data Science, визуализации, машинному обучению и большим данным от популярного портала DataScienceCentral. - Введение в Big Data в финансовой сфере
Портал insideBIGDATA анонсирует новую серию статей по теме анализа данных. В данной серии речь пойдет об использовании Big Data в финансовой сфере. - Выбор GPU для машинного обучения
Интересная статья про выбор и использование GPU для вычислений при использовании машинного обучения Deep Learning. - Библиография по теме Deep Learning
Наиболее популярные статьи из библиографии по тематике Deep Learning. - 43 лидера Data Science
Список из 43 лидеров в области Data Science по версии портала DataScienceCentral. - 5 наиболее привлекательных профессий в области анализа данных
Статья с популярного портала Smart Data Collective, которая описывает 5 направлений возможной деятельности в области анализа данных (Data Scientist, Technical Architect, Machine Learning Expert, Hadoop Engineer, Data Marketing Executive). - KDD — две темы
Небольшая статья с блога Microdoft Technet Machine Learning о конференции KDD и об облачном продукте Azure ML. - 50 блогов, которые стоит почитать
Неплохой список из 50 блогов по статистике, машинному обучению и анализу данных, которые будет интересно почитать, представленный популярным порталом DataScienceCentral. - Как Baidu применяет Deep Learning
Интересный рассказ о том как компания Baidu использует алгоритмы машинного обучения Deep Learning в своей работе. - Как работает поиск
Небольшая инфографика от компании Google о том, как работает поиск.
Соревнования по машинному обучению
- Опыт от участия в «Display Advertising Challenge»
Интересная статья про опыт, полученный от участия в соревновании по машинному обучению «Display Advertising Challenge» на Kaggle, которое закончилось совсем недавно. - Использование R, H2O и Domino на Kaggle
Интересная статья про использование языка программирования R совместно с Domino и H2O в соревновании по машинному обучению под названием «Africa Soil Property Prediction Challenge» на Kaggle.
Онлайн-курсы и обучающие материалы
- Онлайн-курс «Statistical Learning»
В январе 2014 Стэнфордский университет провел онлайн-курс, основанный на новой книге «An Introduction to Statistical Learning with Applications in R» (ISLR). В данном посте будут представлены видеоматериалы и презентации с данного курса. - Онлайн-курс «The Caltech-JPL Summer School on Big Data Analytics»
Достаточно необычный онлайн-курс стартовал в середине сентября на Coursera. По сути, это набор видеолекций и материалов с летней школы машинного обучения от California Institute of Technology. - Онлайн-курс «Learning From Data»
На днях на edX стартовала новая сессия данного очень популярного курса по машинному обучению от California Institute of Technology и профессора Yaser Abu-Mostafa в качестве основного инструктора.
Литература
- Обзор книги «Frequent Pattern Mining»
Обзор книги «Frequent Pattern Mining», вышедшей в 2014 году, от портала KDnuggets. - Книга «R for Cloud Computing»
Анонс очень любопытной книги по облачным вычислениям с использованием языка программирования R, которая достаточно скоро появится в продаже.
Теория и алгоритмы машинного обучения, примеры кода
- Что такое Feature Engineering
Отличная статья от автора блога MachineLearningMastery о процессе Feature Engineering в машинном обучении. - Динамическое обучение и Sub-Linear Debugging
Очередная статья с блога Microsoft Technet Machine Learning. На этот раз в статье будет затронута тема динамического обучения (Online Learning) и Sub-Linear Debugging. - Введение в метод опорных векторов
Очень простое и краткое введение в метод опорных веторов (Support Vector Machines). - Обработка данных с помощью Python
Данная статья с блога Analytics Vidhya расскажет об обработке данных с помощью языка программирования Python и библиотеки Pandas. - Сравнение и выбор обучающих моделей с помощью R Caret
Очередная статья от автора блога MachineLearningMastery, посвященная возможностям библиотеки машинного обучения Caret для языка программирования R. В данном случае речь пойдет о сравнении обучающих моделей и выборе наиболее эффективной. - Как опубликовать графики ggplot2
Полезная статья, рассказывающая о том, как опубликовать графики, сделанные с помощью библиотеки ggplot2 для языка программирования R, в виде веб-страницы. - Работа с Twitter через REST API и R
Неплохая статья, описывающая возможность работы с данными Twitter через REST API с помощью библиотеки RTwitterAPI для языка программирования R. - Выбор параметров с помощью R Caret
Автор блога MachineLearningMastery рассказывает о функциональности по выбору признаков (Feature Selection) в популярной библиотеке по машинному обучению Caret для языка программирования R. - Факторы не являются объектами первого класса в R
Достаточно большая статья, описывающая тонкости и возможные проблемы в работе с факторами в языке программирования R. - Управление зависимостями в R
Интересная статья про управления зависимостями между библиотеками в языке программирования R, а также о визуализации этих данных о зависимостях между библиотеками.
Видеоматериалы
- Использование больших данных в финансовой и банковской сферах
Портал insideBIGDATA опубликовал достаточно интересное видео в статье под названием Big Data in Banking and Financial Services, которое посвящено возможностям использования больших данных в финансовой и банковской сфере.
Data engineering
- Spark 1.1: улучшение производительности MLlib
Небольшая статья о том, как улучшения производительности в новой версии Apache Spark повлияли на работу библиотеки для машинного обучения MLlib. - 5 советов по работе с NoSQL-хранилищами
5 полезных советов от портала High Scalability по масштабированию NoSQL-хранилищ. - Введение в YARN
Неплохое введение в YARN для Hadoop 2 от портала insideBIGDATA. - 120 компаний, которые заинтересованы в Hadoop-разработчиках
В данном посте представлен список из 120 компаний, которые заинтересованы в Hadoop-разработчиках с небольшим описанием того, как используется Hadoop в компании. - Производительность Cloudera Impala 1.4
Результаты тестов производительности Cloudera Impala 1.4 в сравнении с другими продуками с блога компании Cloudera.
Обзоры
- Лучшие статьи KDnuggets (21 — 27 сентября)
Список лучших статей портала популярного KDnuggets в период с 21 по 27 сентября. - Дайджест лучших ресурсов от DataScienceCentral
Неплохой список свежих интересных статей и ресурсов от DataScienceCentral. - Еженедельный дайджест от DataScienceCentral
Регулярный еженедельный дайджест статей по анализу данных от портала DataScienceCentral. - Новости Data Mining
Небольшой список интересных ресурсов по теме Data Mining от 24 сентября. - Лучшие статьи KDnuggets (14 — 20 сентября)
Список лучших статей портала популярного KDnuggets в период с 14 по 20 сентября. - Наиболее интересные материалы от Freakonometrics №167
Сборник наиболее интересных материалов от популярного портала Freakonometrics - Наиболее интересные материалы от Freakonometrics №166
Сборник наиболее интересных материалов от популярного портала Freakonometrics - Наиболее интересные материалы по High Scalability
Обзор наиболее интересных материалов по теме HighScalability от популярного портала High Scalability.
Предыдущий выпуск: Обзор наиболее интересных материалов по анализу данных и машинному обучению №14 (15 — 21 сентября 2014)
Автор: moat