Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения.
Общее
- Использование подхода Data-Driven в машинном обучении
Очередная интересная статья с блога MachineLearningMastery, в данном случае речь пойдет о том, какие есть возможности для улучшения эффективности алгоритмов машинного обучения. - Введение в машинное обучение для разработчиков
Неплохое введение в тему машинного обучения для разработчиков, в которой упоминаются многие аспекты, которые необходимы для работы с алгоритмами машинного обучения. - 30 лучших блогов по теме Data Science
Рейтинг лучших блогов по тематике Data Science по версии портала DataScienceCentral. - Улучшение навыков машинного обучения
Несколько полезных советов от автора блога MachineLearningMastery, которые могут помочь в улучшении навыков машинного обучения. - Как успешно пройти собеседование на позицию в области Data Science
Интересная и полезная статья, которая поможет подготовиться к собеседованию на позицию в области Data Science. - Модули Vowpal Wabbit в Azure ML
Продолжение рассказа с блога «Micorosoft Technet Machine Learning» о возможностях Vowpal Wabbit в облачном сервисе машинного обучение Azure ML от компании Microsoft. - 22 навыка, которые необходимы Data Scientist
Интересная статья от Vincent Granville на популярном портале DataScienceCentral о том, какие навыки необходимы специалисту по анализу данных с учетом его специализации. - Первая неделя курса «Stanford’s Machine Learning»
Автор статьи делится своими впечатлениями от первой недели популярного курса по машинному обучению от Andrew Ng и Stanford University, очередная сессия которого стартовала не так давно на Coursera.
Теория и алгоритмы машинного обучения, примеры кода
- Наивный Байес и текстовая классификация (часть 1)
- О вычислительной сложности MapReduce
Неплохая статья о теоретических основах программной модели MapReduce. - Введение в нейронные сети
Достаточно объемная статья с блога Andrej Karpathy (CS PhD student at Stanford), в которой автор рассказывает про машинное обучение и нейронные сети, приводит примеры кода и говорит о том, что данная статья будет со временем дополняться новыми материалами. - Использование машинного обучения и NodeJS для определения пола пользователей Instagram
Неплохой пример предсказательной модели на основе нейронных сетей для определения пола пользователей Intstagram на основе различных входных параметров, а также с использованием NodeJS. - Введение в метод опорных векторов
Полезная статья с блога Analytics Vidhya, в которой достаточно простым языком описывается работа метода опорных векторов (Support Vector Machines). - Оценка эффективности системы бинарной классификации
Краткое введение в оценку эффективности бинарных систем классификации. - miniCRAN: свой собственный репозитарий библиотек
Статья, которая кратко расскажет о библиотеке miniCRAN для языка программирования R, которая позволяет сделать свой собственный репозитарий библиотек. - Запуск RStudio в облаке
Статья о том, как достаточно быстро и легко запустить RStudio в браузере с помощью облачного решения и Docker. - Вывод нескольких переменных на линейной диаграмме в ggplot2
Небольшой практический пример вывода нескольких переменных на линейной диаграмме с помощью языка программирования R и библиотеки ggplot2.
Соревнования по машинному обучению
- Интервью с Diogo Ferreira
Полезное интервью на блоге MachineLearningMastery с успешным участником соревнований по машинному обучению Diogo Ferreira. - Простая модель для Kaggle «Bike Sharing Demand»
Описание достаточно простой модели для соревнования по машинному обучению «Bike Sharing Demand» на Kaggle с примерами на языке программирования R.
Онлайн-курсы, обучающие материалы и литература
- Стартовал онлайн-курс «Mining Massive Datasets»
29 сентября 2014 года на Coursera стартовал онлайн-курс, который привлек так много внимания. Это курс от Stanford University под названием Mining Massive Datasets. - Книга «The Field Guide to Data Science»
Краткое описание и бесплатная версия любопытной книге под названием «The Field Guide to Data Science» об основах Data Science. - Анонс книги «Practical Data Science Cookbook»
Небольшая статья-анонс достаточно любопытной книги «Practical Data Science Cookbook». - Список для чтения (октябрь)
Список книг с блога Dave Gilles (Professor of Economics at the University of Victoria), которые по мнению профессора могут быть интересны к прочтению. - Книга «Getting Started with Impala»
Анонс любопытной книги «Getting Started with Impala» на блоге компании Cloudera.
Видеоматериалы
- Martin Maechler о практике хорошего кода на R
Martin Maechler (член команды R-Core) выступил с интересным докладом на конференции useR! 2014. В данном видео он расскажет о практике хорошего кода как на языке программирования R, так и в целом о лучших приемах и практиках в программировании. - Материалы со встречи «Новинки PostgreSQL 9.4 и кое-что ещё»
Не так давно прошла интересная встреча в офисе компании «Яндекс» и была посвящена СУБД PostgreSQL. И вот появились и видеоматериалы с данной встречи. - Nando de Freitas о деревьях принятия решений
Отличная лекция от профессора Nando de Freitas из The University of British Columbia о деревьях принятия решений. - Jürgen Schmidhuber о Deep Learning
Интересное видео, в котором профессор Jürgen Schmidhuber из IDSIA (International Computer Science Institute) рассказывает об истории Deep Learning и возрождении интереса к данному методу машинного обучения в настоящее время.
Data engineering
- Использование Pinot для аналитики в режиме реального времени
Интересная статья с блога компании LinkedIn об архитектуре их решения для аналитики в реальном времени с использованием продукта собственной разработки под названием Pinot. - Результаты тестов производительности NoSQL-хранилищ
Свежее интересное сравнение производительности различных NoSQL-хранилищ (Apache Cassandra, MongoDB, CouchBase) при различных профилях нагрузки. - Масштабируемые деревья принятия рещений в Apache Spark
Продолжение обсуждений новой версии Apache Spark 1.1, в данном случае речь пойдет о деревьях принятия решений и возможностях их масштабирования в библиотеке машинного обучения MLlib. - Анонс бета-версии ForestDB
Анонс нового хранилище «ключ-значение» ForestDB с открытым исходным кодом от создателей CouchBase. - Что такое Apache Storm
Статья, в которой дается краткое описание Apache Strorm.
Обзоры
- Еженедельный дайджест от DataScienceCentral
Регулярный еженедельный дайджест статей по анализу данных от портала DataScienceCentral. - Лучшие материалы Niut Blanche (сентябрь)
Лучшие материалы за сентябрь от популярного блога Nuit Blanche. - Еженедельный обзор Hadoop Weekly №89 (28 сентября)
Еженедельные новости и материалы экосистемы Hadoop. - Еженедельный обзор Hadoop Weekly №88 (21 сентября)
Еженедельные новости и материалы экосистемы Hadoop. - Наиболее интересные материалы от Freakonometrics №170
Сборник наиболее интересных материалов от популярного портала Freakonometrics. - Наиболее интересные материалы от Freakonometrics №169
Сборник наиболее интересных материалов от популярного портала Freakonometrics. - Наиболее интересные материалы от Freakonometrics №168
Сборник наиболее интересных материалов от популярного портала Freakonometrics. - Наиболее интересные материалы по High Scalability
Обзор наиболее интересных материалов по теме HighScalability от популярного портала High Scalability.
Предыдущий выпуск: Обзор наиболее интересных материалов по анализу данных и машинному обучению №15 (22 — 28 сентября 2014)
Автор: moat