Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения.
Общее
5 трендов в области анализа и обработки данных в 2015 году
Примеры работы генетического алгоритма — встретил два очень наглядных примера работы генетических алгоритмов с достаточно большим количеством настраиваемых параметров.
Отличная коллекция различных наборов данных — коллекция различных наборов данных от Sebastian Raschka.
NASA будет прибегать к помощи машинного обучения при изучении звезд
Развитие Deep Learning в Google Search — очень интересная статья под названием «Google Search Wiil Be Your Next Brain» из серии статей о развитии поисковой системы в компании Google. В этой статье речь пойдет о появлении и развитии в компании методик Deep Learning, покупке компании DeepMind, развитии проекта Google Brain и технологий искусственного интеллекта.
Интервью с Demis Hassabis — продолжение предыдущей статьи, интервью с Demis Hassabis — основателем компании DeepMind, которую компания Google купила за 400 млн. долларов.
Инструменты с открытым исходным кодом от Facebook для более эффективного использования методик Deep Learning
В Baidu построили суперкомпьютер для Deep Learning
Как проводить собеседование на позицию Data Scientist
Talking Machines: Эпизод 2: Интервью с Ilya Sutskever — второй эпизод «Talking Machines», в данном случае это интервью с Ilya Sutskever — одним из членов команды Google Research.
8 тенденций Big Data в 2015 году по версии DataFloq
R не теряет своей актуальности — немного размышлений о популярности языка программирования R и о том, что он не теряет своей популярности, а даже наоборот.
Python против R: что изучать в первую очередь? — в продолжение темы обсуждения языков программирования для анализа данных — неплохое сравнение от автора блога Udacity двух популярных языков, которые используются для анализа данных в настоящее время и очевидный, как мне кажется, вывод в конце.
5 провалов 2014 года в области работы с данными
10 экспертов из области Big Data, о которых стоит знать
12 лучших историй прошлого года в области Big Data
Теория и алгоритмы машинного обучения, примеры кода
Свои Яндекс-Новости с преферансом и куртизанками
Событийная аналитика
Введение в машинное обучение с помощью Python и Scikit-Learn
Искусство Feauture Engineering в машинном обучении
Метод главных компонент за 3 простых шага — очередная отличная статья от Sebastian Raschka. В данном случае он расскажет про основы метода главных компонент (Principal Component Analysis).
Что такое Deep Learning? — неплохая статья вводного уровня, объясняющая так быстро набирающий сейчас популярность метод машинного обучения Deep Learning.
Краткий обзор Deep Learning
Геометрия классификаторов — в данной статье развивается тема достаточно популярного исследования “Do we Need Hundreds of Classifiers to Solve Real World Classification Problems?” с примерами кода на языке программирования Python.
Примеры Deep Learning на Python
Балансировка нагрузки с помощью RStudio Server Pro
Использование библиотеки microbenchmark для сравнения времени выполнения различных выражений в R
Запуск R в параллельном режиме (простой способ)
О деревьях принятия решений простым языком
Эффективность работы модели (часть 1) — автор блога Analytics Vydhya поможет разобрать с тем, насколько эффективна ваша предсказательная модель и расскажет о возможных способах измерения эффективности работы модели.
Фундаментальные методы Data Science: Классификация, регрессия и сравнение схожести
Пример визуализации расширенного фильтра Калмана при помощи R — продолжение статьи «Пример визуализации фильтра Калмана при помощи R» из прошлого обзора, в данном случае представлен пример визуализации расширенного фильтра Калмана (EKF, Extended Kalman filter) при помощи языка программирования R.
Пример кода: R: тотальная векторизация
Соревнования по машинному обучению
Соревнование по машинному обучению «National Data Science Bowl» — не так давно на Kaggle началось новое соревнование по машинному обучению «National Data Science Bowl».
Результаты соревнования «Angry Birds AI Competiton»
Соревнование по машинному обучению: ChaLearn Automatic Machine Learning Challenge (AutoML)
Онлайн-курсы, обучающие материалы и литература
Big Data for Business — новый платный курс по теме Big Data на русском языке с возможностью обучения как оффлайн, так и онлайн. Длительность обучения 3 месяца. Занятия 3 раза в неделю по 3 часа. Сертификат в конце обучения.
Очередная сессия «Machine Learning» от Andrew Ng — 19 января начинается очередная сессия самого, пожалуй, популярного на данный момент онлайн-курса по машинному обучению.
Стартует курс «Statistical Learning» — 19 января на сайте Stanford Online стартует интересный курс по машинному обучению под названием «Statistical Learning».
Начало курса «Statistics and R for the Life Sciences» — 19 января начинается интересный курс под названием «Statistics and R for the Life Sciences» от Harvard University на edX.
Бесплатная электронная книга: «Rabbit. Introduction to R» — неплохая книга по основам R, которая является сопровождением к онлайн-курсу «Introduction to R».
Data engineering
Big Data на вашем компьютере: Установка Hadoop-кластера
Повышение эффективности сортировки в Apache Spark
Как развернуть кластер Hadoop
Пример персонализации с использованием Apache Cassandra в компании Spotify
Обзоры
Интересное из мира R (12-18 января 2015 г.)
Еженедельный дайджест от DataScienceCentral (19 января)
Лучшие материалы за неделю от KDnuggets.com (4 — 10 января)
Новости Data Science от MyDataMine.com (14 января)
Новости Big Data от MyDataMine.com (16 января)
7 популярных статей от Vincent Granville
Еженедельный сборник лучших материалов от R1Soft (16 января)
Лучшие ресурсы за неделю от Data Elixir (№18)
Наиболее интересные материалы от Freakonometrics №203
Наиболее интересные материалы по High Scalability (16 января)
Предыдущий выпуск: Обзор наиболее интересных материалов по анализу данных и машинному обучению №30 (5 — 11 января 2015)
Автор: moat