Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения.
Общее
- Интересное из мира R (17-23 ноября 2014)
- Анализ тональности текста с помощью Azure Machine Learning
- Делимся опытом: особенности подготовки русскоязычных текстовых документов к анализу в среде R — первая статья из новой рубрики с сайта «R: Анализ и визуализация даных» под названием «Делимся опытом», идея которой состоит в публикации гостевых сообщений, написанных читателями блога.
- И ещё раз про распознавание номеров
- Адаптивное обучение, или несколько слов о Knewton
- Netflix: 10 уроков, полученных при построении систем машинного обучения — неплохой набор слайдов с презентации Xavier Amatriain (Director Algorithms Engineering, Netflix) под названием «10 lessons learned from building ML systems» с конференции MLconf.
- Как правильно формировать успешные Data Science команды
- Как стать Data Scientist за 4 шага — еще один набор советов, посвященных теме достижения успеха в области Data Science, в данном случае советы дает Vincent Granville.
- Показывайте хорошие результаты, чтобы получить работу в области машинного обучения — отличная статья от автора блога MachineLearningMastery, в которой он расскажет, что совершенно не обязятельно иметь какое-то престижное образования, для того чтобы получить работу в области машинного обучения.
- Библиотека graph-tool для Python — интересная библиотека для анализа графов graph-tool для языка программирования Python.
- Владимир Вапник теперь работает в команде Facebook — один из самых известных людей в области машинного обучения и один из автором метода опорных векторов (Support vector machines) присоединился к команде, работающей над вопросами искусственного интеллекта в компании Facebook.
- 4 интересных статьи от Vincent Granville — небольшой список из 4 статей, которые автор портала Data Science Central рекомендует к прочтению.
- Будущее Big Data — неплохая инфографика от популярного портала SmartData Collective.
- Andrew Ng о Deep Learning и инновациях в Кремниевой долине — интересное интервью с Andrew Ng.
- 5 вещей, о которых должен знать каждый лидер Data Science команды
- Самые популярные презентации со Slideshare по теме Data Science
- 3 основные ошибки компаний при работе с Big Data и способы их избежать
- Самые популярные презентации со Slideshare по теме Big Data
- 6 советов, которые помогут найти работу в области Big Data
- Основные тренды Big Data в 2015 году
- 4 вещи о Big Data, которые необходимо знать стартапам
Теория и алгоритмы машинного обучения, примеры кода
- Распознаем штрихкоды на изображениях с помощью Python и OpenCV
- Реализация распределенной Deep Learning сети с помощью Apache Spark
- Факторизация матриц на Python — хорошая статья, рассказывающая об основах факторизации матриц с примерами кода на языке программирования Python.
- Интерпретация коэффициентов линейной регрессии в R
- Ask a Data Scientist: Data Leakage — очередная статья с популярного портала insideBIGDATA из цикла «Ask a Data Scientist», в данном выпуске речь пойдет о таком важном понятии в машинном обучении как Data Leakage.
- Предсказание курса акций с помощью машинного обучения и больших данных — очень интересная статья с примерами года о предсказании курса акций с помощью машинного обучения и использования Apache Spark.
- Пример кода: Визуализация распределения данных с помощью Python — множество примеров кода на языке программирования Python для визуализации распределения данных.
- Пример кода: логистическая регрессия в SAS и R
- Параметры веб-сервиса Azure ML — статья с блога Microsoft Technet Machine Learning о работе с веб-сервисом Azure ML с небольшим примером кода на языке программирования C#.
Соревнования по машинному обучению
- Новые соревнования по машинному обучению — в данном посте представлен небольшой список новых соревнований по машинному обучению на Kaggle.
Онлайн-курсы, обучающие материалы и литература
- Анонс нового онлайн-курс «Convolutional Neural Networks for Visual Recognition» — на сайте Stanford University появился новый очень любопытный курс, посвященный теме использования сверточных нейронных сетей (Convolutional Neural Networks) для распознавания визуальных образов.
- Мастер-класс по Deep Learning — в данном посте представлены материалы с прошедшего 5-6 ноября мастер-класса по теме Deep Learning в Tel-Aviv University.
- Обзор книги «Predictive Analytics with Microsoft Azure Machine Learning»
- Обзор книги «R Object-oriented Programming»
Видеоматериалы
- О понимании — замечательное видео с TED — Сюзан Этлиджер: Как быть с большими данными? Нетривиальный вопрос о работе с большими массивами данных их обработкой и последующей интерпретацией.
Data engineering
- Gobblin: новый фреймворк для работы с Big Data от LinkedIn
- BigBench: замеры производительности работы Big Data систем — новый продукт от Intel и Cloudera для замеров производительности работы аналитических систем.
- Введение в Spark Streaming — неплохая статья о достаточно популярной сейчас теме использования streaming в Apache Spark.
- Проблемы Big Data: производительность хранилища данных — небольшая статья, в которой приведены рассуждения о такой актуальной проблеме Big Data, как производительность хранилища данных.
- 5 ошибок при построении архитектуры данных, которых стоит избегать
- MongoDB, Cassandra и HBase — 3 NoSQL базы данных, за которыми стоит следить
- Виды баз данных и их эволюция
Обзоры
- Еженедельный дайджест от DataScienceCentral (1 декабря)
- Лучшие материалы за неделю от KDnuggets.com (16 — 22 ноября)
- Лучшие ресурсы за неделю от Data Elixir (№12)
- Наиболее интересные материалы от Freakonometrics №188
- Наиболее интересные материалы от Freakonometrics №187
- Еженедельный сборник лучших материалов от R1Soft (29 ноября)
Предыдущий выпуск: Обзор наиболее интересных материалов по анализу данных и машинному обучению №23 (17 — 23 ноября 2014)
Автор: moat