Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения.
Общее
- Как мы готовим будущих специалистов по большим данным
- Визуализация шаблонов Data Science — наглядная и интересная инфографика.
- Новые возможности RStudio (v0.99 Preview): Code Completion
- IPython: выпущена версия 3.0
- Pulsar: фреймворк для анализа данных в режиме реального времени от eBay
- Deep learning без больших затрат — небольшая статья с портала HighScalability.com, которая расскажет о том, что вы можете начать свои эксперименты с Deep Learning уже сейчас без каких-либо больших финансовых вложений.
- Библиотеки машинного обучения — большой список библиотек машинного обучения, представленный в виде периодической таблицы и разбитый на несколько категорий: Big Data, Lua/JS/Clojure, Computer Vision, NLP, C/C++, R/Julia, Java, Scala, Python.
Теория и алгоритмы машинного обучения, примеры кода
- Обучение на больших данных: Spark MLlib
- Необычные модели Playboy, или про обнаружение выбросов в данных c помощью Scikit-learn
- ИИ от Google самостоятельно освоил 49 старых игр Atari
- Ошибки, которых стоит избегать при использовании машинного обучения
- Изучение пользователей через анализ данных Twitter и машинное обучение
- Ошибки машинного обучения — автор данной публикации описывает несколько типичных ошибок, с которыми сталкиваются те кто использует алгоритмы машинного обучения при решении своих задач.
- Стандарты оформления R кода от Google (Google's R Style Guide)
- Помогает ли балансировка классов улучшить результаты работы классификатора?
- Алгоритм предсказания K в алгоритме кластеризации методом k-средних — интересная возможность в библиотеке BigML.
- Deep Speech: точное распознавание речи с помощью Deep Learning и GPU
- Визуализация кластеров с помощью R
- Сравнение алгоритмов обучения с учителем (Supervised learning)
- Серия уроков по машинному обучению и обработке естественного языка. Урок 4: Наивный байесовский классификатор
Соревнования по машинному обучению
- Дневник участников соренования по машинному обучению «Avazu Kaggle Challenge»
- Соревнование по машинному обучению: Diabetic Retinopathy Detection
Онлайн-курсы, обучающие материалы и литература
- Анонс нового курса: Introduction to Data Science — стоит отметить, что курс платный.
- Обзор книги: Mastering Scientific Computing with R
- Бесплатная электронная книга: Hadoop for Dummies
- Бесплатная электронная книга: Software Defined Storage for Dummies
Видеоматериалы, подкасты
- Интервью с Andrew Ng на конференции Deep Learning Summit в Сан-Франциско
- Масштабирование машинного обучения с помощью R и библиотеки H2O
- Talking Machines: Эпизод 4: Интервью с Geoffrey Hinton, Yoshua Bengio и Yann LeCun: История машинного обучения изнутри — пятый эпизод серии подкастов «Talking Machines», в данном случае это сессия общения с такими зубрами, как Geoffrey Hinton (Google, University of Toronto), Yoshua Bengio (University of Montreal) и Yann LeCun (Facebook, NYU).
Data engineering
- Apache Spark: что там под капотом?
- Анализ логов в режиме реального времени с помощью Apache Kafka, Cloudera Search и Hue
- Потоковая обработка больших данных: Storm, Spark и Samza
- Обработка больших данных в Apache Spark
- Использование MongoDb с Hadoop и Spark: Часть 1 — основы и настройка
- Начало новой эры: Релиз Apache HBase версии 1.0
- Появилась возможность скачать бета версию Hive-on-Spark
Обзоры
- Интересное из мира R (23 февраля — 1 марта 2015 г.)
- Лучшие материалы за неделю от KDnuggets.com (15-21 февраля)
- Еженедельный дайджест от DataScienceCentral (2 марта)
- Новости Data Science от MyDataMine.com (27 февраля)
- Новости Big Data от MyDataMine.com (24 февраля)
- Лучшие ресурсы за неделю от Data Elixir (№24)
- Еженедельный сборник лучших материалов от R1Soft (27 февраля)
- Наиболее интересные материалы по High Scalability (27 февраля)
Предыдущий выпуск: Обзор наиболее интересных материалов по анализу данных и машинному обучению №36 (16 — 22 февраля 2015)
Автор: moat