Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения.
Общее
Использование подхода Data-Driven в машинном обучении
Очередная интересная статья с блога MachineLearningMastery, в данном случае речь пойдет о том, какие есть возможности для улучшения эффективности алгоритмов машинного обучения.Введение в машинное обучение для разработчиков
Неплохое введение в тему машинного обучения для разработчиков, в которой упоминаются многие аспекты, которые необходимы для работы с алгоритмами машинного обучения.30 лучших блогов по теме Data Science
Рейтинг лучших блогов по тематике Data Science по версии портала DataScienceCentral.Улучшение навыков машинного обучения
Несколько полезных советов от автора блога MachineLearningMastery, которые могут помочь в улучшении навыков машинного обучения.Как успешно пройти собеседование на позицию в области Data Science
Интересная и полезная статья, которая поможет подготовиться к собеседованию на позицию в области Data Science.Модули Vowpal Wabbit в Azure ML
Продолжение рассказа с блога «Micorosoft Technet Machine Learning» о возможностях Vowpal Wabbit в облачном сервисе машинного обучение Azure ML от компании Microsoft.22 навыка, которые необходимы Data Scientist
Интересная статья от Vincent Granville на популярном портале DataScienceCentral о том, какие навыки необходимы специалисту по анализу данных с учетом его специализации.Первая неделя курса «Stanford’s Machine Learning»
Автор статьи делится своими впечатлениями от первой недели популярного курса по машинному обучению от Andrew Ng и Stanford University, очередная сессия которого стартовала не так давно на Coursera.
Теория и алгоритмы машинного обучения, примеры кода
Наивный Байес и текстовая классификация (часть 1)
О вычислительной сложности MapReduce
Неплохая статья о теоретических основах программной модели MapReduce.Введение в нейронные сети
Достаточно объемная статья с блога Andrej Karpathy (CS PhD student at Stanford), в которой автор рассказывает про машинное обучение и нейронные сети, приводит примеры кода и говорит о том, что данная статья будет со временем дополняться новыми материалами.Использование машинного обучения и NodeJS для определения пола пользователей Instagram
Неплохой пример предсказательной модели на основе нейронных сетей для определения пола пользователей Intstagram на основе различных входных параметров, а также с использованием NodeJS.Введение в метод опорных векторов
Полезная статья с блога Analytics Vidhya, в которой достаточно простым языком описывается работа метода опорных векторов (Support Vector Machines).Оценка эффективности системы бинарной классификации
Краткое введение в оценку эффективности бинарных систем классификации.miniCRAN: свой собственный репозитарий библиотек
Статья, которая кратко расскажет о библиотеке miniCRAN для языка программирования R, которая позволяет сделать свой собственный репозитарий библиотек.Запуск RStudio в облаке
Статья о том, как достаточно быстро и легко запустить RStudio в браузере с помощью облачного решения и Docker.Вывод нескольких переменных на линейной диаграмме в ggplot2
Небольшой практический пример вывода нескольких переменных на линейной диаграмме с помощью языка программирования R и библиотеки ggplot2.
Соревнования по машинному обучению
Интервью с Diogo Ferreira
Полезное интервью на блоге MachineLearningMastery с успешным участником соревнований по машинному обучению Diogo Ferreira.Простая модель для Kaggle «Bike Sharing Demand»
Описание достаточно простой модели для соревнования по машинному обучению «Bike Sharing Demand» на Kaggle с примерами на языке программирования R.
Онлайн-курсы, обучающие материалы и литература
Стартовал онлайн-курс «Mining Massive Datasets»
29 сентября 2014 года на Coursera стартовал онлайн-курс, который привлек так много внимания. Это курс от Stanford University под названием Mining Massive Datasets.Книга «The Field Guide to Data Science»
Краткое описание и бесплатная версия любопытной книге под названием «The Field Guide to Data Science» об основах Data Science.Анонс книги «Practical Data Science Cookbook»
Небольшая статья-анонс достаточно любопытной книги «Practical Data Science Cookbook».Список для чтения (октябрь)
Список книг с блога Dave Gilles (Professor of Economics at the University of Victoria), которые по мнению профессора могут быть интересны к прочтению.Книга «Getting Started with Impala»
Анонс любопытной книги «Getting Started with Impala» на блоге компании Cloudera.
Видеоматериалы
Martin Maechler о практике хорошего кода на R
Martin Maechler (член команды R-Core) выступил с интересным докладом на конференции useR! 2014. В данном видео он расскажет о практике хорошего кода как на языке программирования R, так и в целом о лучших приемах и практиках в программировании.Материалы со встречи «Новинки PostgreSQL 9.4 и кое-что ещё»
Не так давно прошла интересная встреча в офисе компании «Яндекс» и была посвящена СУБД PostgreSQL. И вот появились и видеоматериалы с данной встречи.Nando de Freitas о деревьях принятия решений
Отличная лекция от профессора Nando de Freitas из The University of British Columbia о деревьях принятия решений.Jürgen Schmidhuber о Deep Learning
Интересное видео, в котором профессор Jürgen Schmidhuber из IDSIA (International Computer Science Institute) рассказывает об истории Deep Learning и возрождении интереса к данному методу машинного обучения в настоящее время.
Data engineering
Использование Pinot для аналитики в режиме реального времени
Интересная статья с блога компании LinkedIn об архитектуре их решения для аналитики в реальном времени с использованием продукта собственной разработки под названием Pinot.Результаты тестов производительности NoSQL-хранилищ
Свежее интересное сравнение производительности различных NoSQL-хранилищ (Apache Cassandra, MongoDB, CouchBase) при различных профилях нагрузки.Масштабируемые деревья принятия рещений в Apache Spark
Продолжение обсуждений новой версии Apache Spark 1.1, в данном случае речь пойдет о деревьях принятия решений и возможностях их масштабирования в библиотеке машинного обучения MLlib.Анонс бета-версии ForestDB
Анонс нового хранилище «ключ-значение» ForestDB с открытым исходным кодом от создателей CouchBase.Что такое Apache Storm
Статья, в которой дается краткое описание Apache Strorm.
Обзоры
Еженедельный дайджест от DataScienceCentral
Регулярный еженедельный дайджест статей по анализу данных от портала DataScienceCentral.Лучшие материалы Niut Blanche (сентябрь)
Лучшие материалы за сентябрь от популярного блога Nuit Blanche.Еженедельный обзор Hadoop Weekly №89 (28 сентября)
Еженедельные новости и материалы экосистемы Hadoop.Еженедельный обзор Hadoop Weekly №88 (21 сентября)
Еженедельные новости и материалы экосистемы Hadoop.- Наиболее интересные материалы от Freakonometrics №170
Сборник наиболее интересных материалов от популярного портала Freakonometrics. Наиболее интересные материалы от Freakonometrics №169
Сборник наиболее интересных материалов от популярного портала Freakonometrics.Наиболее интересные материалы от Freakonometrics №168
Сборник наиболее интересных материалов от популярного портала Freakonometrics.Наиболее интересные материалы по High Scalability
Обзор наиболее интересных материалов по теме HighScalability от популярного портала High Scalability.
Предыдущий выпуск: Обзор наиболее интересных материалов по анализу данных и машинному обучению №15 (22 — 28 сентября 2014)
Автор: moat