Представляю очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения (в том числе Deep Learning). Как всегда есть материалы по алгоритмам машинного обучения. Несколько практических статей по популярному пакету для машинного обучения Scikit-Learn для Python. Есть статьи, посвященные практическому применению языка R. Некоторое количество материалов посвящено теме Data Engineering. Присутствуют интересные статьи про популярные проекты 'Google Brain' и 'Project Adam'.
Материалы по анализу данных и машинному обучению
- Про Google Brain [EN]
Интересные размышления про исследовательский проект компании Google, который носит неофициальное название 'Google Brain'. - Система искусственного интеллекта от Microsoft 'Project Adam' [EN]
Достаточно большая статья о новом проекте от Microsoft Research под названием 'Prjoject Adam'. До какой-то степени этот проект можно назвать ответом Microsoft на проект 'Google Brain'. - Машинное обучение — микроскоп современного ученого. Зачем ЦЕРНу технологии Яндекса [RU]
Статья о сотрудничестве Яндекс и CERN, а также использовании облачных технологий и машинного обучения в работе CERN. - Логарифмическое преобразование положительных и отрицательных значений [EN]
Небольшая статья о статистических преобразованиях данных. - Earl Hathaway рассказывает о технике машинного обучения Distributed GBM (видео) [EN]
В данном видео Earl Hathaway (CTO в компании 0xdata) рассказывает о Distributed GBM (Gradient Boosting) — популярной технике машинного обучения, которая часто используется в соревнованиях по анализу данных, а также полезна и в практическом применении. - 7 вариантов использования Hadoop в банковской сфере [EN]
Краткий список из 7 возможных вариантов использования семейства продуктов Hadoop при анализе данных в банковской сфере. - Стартап Clarify [EN]
Небольшой интересный рассказ о новом стартапе в сфере искусственного интеллекта и машинного обучения Clarify, который еще не куплен ни одним из софтверных гигантов и который занимается достаточно интересными исследованиями в области распознования образов и обработкой изображений. - Оценка финансовых рисков с помощью Apache Spark [EN]
Статья от компании Cloudera, посвященная использованию Apache Spark для оценки финансовых рисков. - Соглашения об именовании в языке R [EN]
Дискуссия о соглашениях об именовании в языке программирования R, с чем как известно в данном языке есть большие проблемы и неопределенность в стандартах. - Подстройка параметров алгоритма с помощью Python Scikit-Learn [EN]
Продолжение дискуссии о работе с scikit-learn — популярной библиотекой машинного обучения для Python. В данном случае речь пойдет о подстройке параметров алгоритма. - Список ресурсов по NoSQL, Big Data и Machine Learning [EN]
Большой список ресурсов по различным направлениям анализа данных (распределенные вычисления, графовые базы данных, анализ временных рядов, визуализация данных, поисковые системы и другие направления). - Машинное обучение с использованием Java [EN]
Небольшой обзор технологий и продуктов для машинного обучения с использованием языка программирования Java. - Введение в Microsft Azure Machine Learning [EN]
Краткое введение в новый облачный продукт для машинного обучение Microsoft Azure Machine Learning, который сейчас находится в стадии Public Preview. - Самообучаемые компьютеры от Darpa [EN]
Статья о проекте Darpa, который призван развивать технологию самообучаемых компьютеров и их применение. - Популярные Data Science микроблогеры [EN]
Небольшой анализ микроблогов в Twitter, посвященных теме Data Science. - 15 бесплатных книг по машинному обучению [EN]
Список из 15 бесплатных электронных книг по теме машинного обучения. - 8 блогов по анализу данных [EN]
Список из 8 отличных блогов, которые посвящены теме анализа данных. - Список ресурсов по машинному обучению [EN]
Большой список полезных ресурсов по машинному обучению. - 10 советов по Deep Learning [EN]
10 небольших советов для повышения эффективности результатов при использовании техники машинного обучения Deep Learning. - Основы анализа данных при помощи Python: библиотеки и структуры данных [EN]
Статья посвящена первым шагам по анализу данных при помощи Pyhton и дополнительных библиотек. Это продолжение дискуссии на данную тему. Текущая статья посвящена библиотекам и структурам данных. - Deep Learning и обработка естественного языка [EN]
Отличная статья о применении набора алгоритмов Deep Learning при обработке естественного языка. - Про размер выборки [EN]
Небольшая статья, посвященная размеру выборки, с применением аргументации, основанной на элементарной статистики. - О масштабировании признаков и нормализации в машинном обучении [EN]
Полезная статья о масштабировании признаков (Feature Scaling) и нормализации (Normalization) при машинном обучении с использованием scikit-learn. - Векторы в R [EN]
Небольшая статья о работе с векторами в языке программирования R. - Приключения вокруг feature learning [EN]
Занимательный рассказ от Andrej Karpathy о применение машинного обучения в распознавании образов. - Подготовка данных с помощью Python Scikit-Learn [EN]
Продолжение дискуссии о работе с scikit-learn — популярной библиотекой машинного обучения для Python. В данном случае речь пойдет о подготовке данных, а именно о процессе Rescaling Data. - Процесс Feature Selection при помощи Python Scikit-Learn [EN]
Еще одна статья о работе с scikit-learn — популярной библиотекой машинного обучения для Python. В данном случае речь пойдет о процессе Feature Selection при машинном обучении. - Использование машинного обучения для повышения эффективности работы дата-центров в Google [EN]
Небольшая любопытная статья, о том как в Google использовали машинное обучение для повышения эффективности работы своих дата-центров. - Рейтинг языка R [EN]
Свежий рейтинг языков программирования от IEEE, в том числе можно увидеть, что R находится на 9 месте среди всех языков. - Загрузка данных при помощи Scikit-Learn [EN]
Небольшая, но полезная статья про загрузку данных при помощью популярной Python-библиотеки для машинного обучения scikit-learn. - Зависимости популярных библиотек R [EN]
Небольшая статья про то от каких библиотек зависят популярные пакеты языка R (ggplot2, data.table, plyr, knitr, shiny, xts, lattice) и сколько же в итоге будет установлено библиотек, в случае установки всех популярных библиотек из данного списка. - Обработка временных рядов с помощью Apache Crunch [EN]
Статья с блога компании Cloudera про работу с временными рядами (time series) с помощью Apache Crunch с примерами кода на Java. - Предсказание победителя ЧМ по футболу 2014 с помощью R [EN]
Попытка предсказать победителя ЧМ по футболу 2014 с использованием языка R на основе полуфинальных пар. Сейчас уже можно увидеть сбылся ли прогноз. - 3 вещи, которые помогут улучшить ваш код на R [EN]
Несколько полезных практических советов по улучшению кода на R. - Data Scientist и Data Engineer [EN]
Короткая статья, сравнивающая две роли в анализе данных: Data Scientist и Data Engineer. - Быстрая функция для 2x2 таблиц на языке R [EN]
Небольшой пример создания собственной ускоренной функции для создания 2x2 таблиц на языке R, вместо стандартной функции table. - HDFS и MapReduce простым языком [EN]
Описание таких базовых составляющих Hadoop таких, как Hadoop Distributed File System (HDFS) и MapReduce достаточно простым языком. - Интервью на позицию специалиста по анализу данных [EN]
Небольшая статья про то чего можно ожидать от интервью на позицию специалиста по анализу данных. - Data Origami: скринкасты по тематике Data Science [EN]
Небольшой обзор сайта Data Origami, на котором можно найти много скринкастов различного уровня сложности по теме анализа данных и машинного обучения. Правда сайт имеет платную помесячную подписку.
Предыдущий выпуск: Обзор наиболее интересных материалов по анализу данных и машинному обучению №4 (23 июня — 7 июля 2014)
Автор: moat