Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения.
Общее
Как мы готовим будущих специалистов по большим данным
Визуализация шаблонов Data Science — наглядная и интересная инфографика.
Новые возможности RStudio (v0.99 Preview): Code Completion
IPython: выпущена версия 3.0
Pulsar: фреймворк для анализа данных в режиме реального времени от eBay
Deep learning без больших затрат — небольшая статья с портала HighScalability.com, которая расскажет о том, что вы можете начать свои эксперименты с Deep Learning уже сейчас без каких-либо больших финансовых вложений.
Библиотеки машинного обучения — большой список библиотек машинного обучения, представленный в виде периодической таблицы и разбитый на несколько категорий: Big Data, Lua/JS/Clojure, Computer Vision, NLP, C/C++, R/Julia, Java, Scala, Python.
Теория и алгоритмы машинного обучения, примеры кода
Обучение на больших данных: Spark MLlib
Необычные модели Playboy, или про обнаружение выбросов в данных c помощью Scikit-learn
ИИ от Google самостоятельно освоил 49 старых игр Atari
Ошибки, которых стоит избегать при использовании машинного обучения
Изучение пользователей через анализ данных Twitter и машинное обучение
Ошибки машинного обучения — автор данной публикации описывает несколько типичных ошибок, с которыми сталкиваются те кто использует алгоритмы машинного обучения при решении своих задач.
Стандарты оформления R кода от Google (Google's R Style Guide)
Помогает ли балансировка классов улучшить результаты работы классификатора?
Алгоритм предсказания K в алгоритме кластеризации методом k-средних — интересная возможность в библиотеке BigML.
Deep Speech: точное распознавание речи с помощью Deep Learning и GPU
Визуализация кластеров с помощью R
Сравнение алгоритмов обучения с учителем (Supervised learning)
Серия уроков по машинному обучению и обработке естественного языка. Урок 4: Наивный байесовский классификатор
Соревнования по машинному обучению
Дневник участников соренования по машинному обучению «Avazu Kaggle Challenge»
Соревнование по машинному обучению: Diabetic Retinopathy Detection
Онлайн-курсы, обучающие материалы и литература
Анонс нового курса: Introduction to Data Science — стоит отметить, что курс платный.
Обзор книги: Mastering Scientific Computing with R
Бесплатная электронная книга: Hadoop for Dummies
Бесплатная электронная книга: Software Defined Storage for Dummies
Видеоматериалы, подкасты
Интервью с Andrew Ng на конференции Deep Learning Summit в Сан-Франциско
Масштабирование машинного обучения с помощью R и библиотеки H2O
Talking Machines: Эпизод 4: Интервью с Geoffrey Hinton, Yoshua Bengio и Yann LeCun: История машинного обучения изнутри — пятый эпизод серии подкастов «Talking Machines», в данном случае это сессия общения с такими зубрами, как Geoffrey Hinton (Google, University of Toronto), Yoshua Bengio (University of Montreal) и Yann LeCun (Facebook, NYU).
Data engineering
Apache Spark: что там под капотом?
Анализ логов в режиме реального времени с помощью Apache Kafka, Cloudera Search и Hue
Потоковая обработка больших данных: Storm, Spark и Samza
Обработка больших данных в Apache Spark
Использование MongoDb с Hadoop и Spark: Часть 1 — основы и настройка
Начало новой эры: Релиз Apache HBase версии 1.0
Появилась возможность скачать бета версию Hive-on-Spark
Обзоры
Интересное из мира R (23 февраля — 1 марта 2015 г.)
Лучшие материалы за неделю от KDnuggets.com (15-21 февраля)
Еженедельный дайджест от DataScienceCentral (2 марта)
Новости Data Science от MyDataMine.com (27 февраля)
Новости Big Data от MyDataMine.com (24 февраля)
Лучшие ресурсы за неделю от Data Elixir (№24)
Еженедельный сборник лучших материалов от R1Soft (27 февраля)
Наиболее интересные материалы по High Scalability (27 февраля)
Предыдущий выпуск: Обзор наиболее интересных материалов по анализу данных и машинному обучению №36 (16 — 22 февраля 2015)
Автор: moat