Прошлый выпуск обзора был полностью посвящен онлайн-курсам по тематике Data Science. Данный выпуск обзора наиболее интересных материалов по анализу данных и машинному обучению будет содержать ссылки на свежие материалы по тематике. В данном выпуске некоторое количество материалов посвящено важной теме визуализации данных. Есть несколько статей, которые описывают небольшие практические примеры анализа данных. Как обычно много статей посвящено алгоритмам машинного обучения, в том числе несколько статей посвящены популярным алгоритмам машинного обучения Deep Learning и Random Forest. Также есть несколько ссылок на интересные видеоматериалы.
Материалы по анализу данных и машинному обучению
- Визуализация с помощью D3.js [EN]
Несколько примеров визуализации данных с помощью библиотеки D3.js - Наука о данных, большие данные и статистика. Теперь все вместе (Видеолекция) [EN]
Terry Speed, заслуженный профессор из Беркли, рассказывает о совмещении традиционной статистики с наукой о данных и большими данными. - Лучшие специалисты по анализу данных в Twitter [EN]
Микроблоги лучших специалистов по анализу данных. - Цепи Маркова [EN]
Основы цепей Маркова простым языком. - Статьи и ресурсы по анализу данных [EN]
Свежий список интересных статей от ведущих специалистов по анализу данных. - 25 Популярных специалистов по данным на LinkedIn [EN]
Список 25 популярных специалистов по данных и их блоги на LinkedIn. - Техники визуализации, которые вы знаете с детства [EN]
Статья про 6 простых, но полезных принципов визуализации. - Watson и машинное обучение [EN]
Интересная статья про потенциал применения IBM Watson в различных областях жизнедеятельности. - Почему стать Data Scientist не так уж и просто [EN]
Статья пытается объяснить, что недостаточно закончить один-два онлайн-курса по Machine Learning, чтобы быть Data Scientist. - Deep Learning с использованием Hadoop (Видеолекция) [EN]
Инструменты и технологии машинного обучения постоянно развиваются. Техника машинного обучение Deep Learning становится все более популярной. В данном видео Josh Patterson и Adam Gibson рассуждают на тему возможностей распараллеливания Deep Belief Networks в методике Deep Learning с помощью фреймворка Hadoop YARN и библиотеки Iterative Reduce. - Использование Facebook API с помощью R [EN]
Небольшой пример решения практической задачи с использованием социальной сети Facebook и языка R. - Книги по визуализации данных [EN]
Большой список из 35 книг, посвященных визуализации данных. - 12 интересныг книг и онлайн-ресурсов по R [EN]
Список из 12 полезных книг и онлайн-ресурсов для изучения языка программирования R. - Развертывание продукта на R [EN]
Очередная статья из цикла статей по машинному обучению, с использованием языка программирования R. - Машинное обучение — это в том числе и соревнования на Kaggle [EN]
Интересный ответ на статью «Machine learning isn't Kaggle competitions». - Сообщества, посвященные машинному обучению [EN]
Хорошая статья, которая приводит краткое описание существующих на данный момент сообществ, посвященных машинному обучению. - Книги по машинному обучению с использованием R [EN]
Полезный список литературы по машинному обучению с использованием языка R. - «Data Scientist» больше чем «Data Analyst»? [EN]
Небольшая статья о сравнении таких двух понятий, как «Data Scientist» и «Data Analyst» - Основы анализа данных при помощи Python [EN]
Статья посвящена первым шагам по анализу данных при помощи Pyhton и дополнительных библиотек. - Cayley: открытая графовая база данных [EN]
Короткий список достоинств графовой базы данных Cayley с открытым исходных кодом. - Вероятностные модели: от наивного Байеса к LDA, часть 1 [RU]
Очередная статья по теоретическим основам анализа данных. В данном случае речь пойдет про вероятностные модели. - Список открытых ресурсов полезных для машинного обучения. [EN]
Интересный набор ссылок на бесплатные полезные ресурсы, а также наборы данных для машинного обучения. - Использование Galene в LinkedIn [EN]
Рассказ от одного из ведущих инженеров LinkedIn о том, как изменилась архитектура поиска в LinkedIn после перехода на использование поисковой платформы Galene. - Структурированные и неструктурированные типы данных [EN]
Небольшая статья, о том в чем разница между структурированными и неструктурированнымии типами дынных. - Нужна ли научная степень, для того чтобы быть Data Scientist? [EN]
Ведущие специалисты по анализу данных отвечают на интересный вопрос о том, а нужна ли ученая степень для того, чтобы быть Data Scientist. - Google I/O 2014 — Модели искусственного интеллекта, основанные на биологических моделях (Рэймонд Курцвейл) (Видеолекция) [EN]
Интересная лекция по теме искусственного интеллекта от известного ученого и футоролога Рэмонда Курцвейла с Google I/O 2014. - Сравнение облачных хранилищ 2014 [EN]
Свежая инфографика по сравнению облачных хранилищ. - Domino — современная платформа для анализа данных [EN]
Небольшая статья о новой гибкой системе для анализа данных Domino. - Как начать заниматься машинным обучением [EN]
Отличная статья о том, как новичку быстро войти в тему машинного обучения и начать заниматься реальными практическими задачами. - Кластеризация изображений [EN]
Кластеризация похожих изображением с использованием MapReduce, с примерами кода на C# и R. - Анализ записей в Google+ [EN]
Небольшой пример анализа записей в Google+ c использованием языка программирования R. - Сравнение производительности SAS и Revolution R Enterprise [EN]
Небольшая статья о сравнении производительности SAS и Revolution R Enterprise от Revolution Analytics. - Andrew Ng рассказывает о Deep Learning (Видеолекция) [EN]
Профессор Стэнфордского Университета Andrew Ng рассказывает о Deep Learning на парижской встрече, посвященной машинному обучению. - Сравнение алгоритмов CART и Random Forest (часть 1) [EN]
Первая часть сравнения популярных алгоритмов CART (Сlassification and Regression Trees) и Random Forest. - Сравнение алгоритмов CART и Random Forest (часть 2) [EN]
Продолжение сравнения алгоритмов машинного обучения CART (Сlassification and Regression Trees) и Random Forest. - Сравнение In-Memory Database и In-Memory Data Grid [EN]
Сравнение двух популярных подходов к работе с данными. - MongoDB совместно с Google Cloud Platform [EN]
Краткая статься о работе с MongoDB на облачной платформе Google (Google Cloud Platform). - Генерация и визуализация многомерных случайных величин с помощью R [EN]
Небольшой пример кода для генерации и визуализации многомерных случайных величин на языке R. - Data Shinobi 3 [EN]
Продолжение серии статей по анализу данных, во третьей части поднимается вопрос различных направлений в анализе данных. - Введение в Hadoop [EN]
Очередное простое и краткое описание Hadoop. - Что такое Deep Learning и почему вокруг данного алгоритма так много шума? [EN]
Небольшая статья о популярном наборе алгоритмов машинного обучения Deep Learning.
Предыдущий выпуск: Обзор наиболее интересных материалов по анализу данных и машинному обучению №3 (обзор онлайн курсов)
Автор: moat