В очередном обзор наиболее интересных материалов, посвященных теме анализа данных и машинного обучения, достаточно большое внимание уделено популярному набору алгоритмов машинного обучения Deep Learning и его практическому применению. Несколько статей посвящено тому какие есть пути для собственного развития как специалиста по анализу данных и машинному обучению. Также несколько статей касаются такой темы как Data Engineering и рассматривают такие популярные продукты как Cassandra и Apache Kafka. Но начинается данный выпуск с обзора стартующих в ближайшее онлайн-курсов, связанных с темой анализа данных и машинного обучения.
Онлайн-курсы (MOOC) по Data Science, стартующие в ближайшее время
- Machine Learning (Coursera — Stanford University)
Один из наиболее известных курсов по Machine Learning, ведет его профессор Стэнфордского Университета Andrew Ng. Курс начался 16 июня и продлится 10 недель. Курс достаточно простой и понятный, не требует каких-то специальных знаний для его успешного прохождения, при этом охватывает достаточно много направлений Machine Learning. Еще можно успеть зарегистрироваться на данную сессию курса, успев к сдаче первого теста. - Mathematical Biostatistics Boot Camp 1 (Coursera — Jonhs Hopkins University)
Первая часть курса по биостатистике от Johns Hopkins University. Начался он 16 июня и продлится 7 недель. Является неофициальным дополнением к специализации Data Science от того же университета. Хорошо покрывает основы статистики и теории вероятности. Опять же еще можно успеть зарегистрироваться на данную сессию курса, успев к сдаче первого теста. - Introduction to Data Science (Coursera — University of Washington)
Курс по основам Data Science от University of Washington. Курс стартует 30 июня и продлится 8 недель. Один из наиболее популярных онлайн-курсов по основам Data Science. - SABR101x Sabermetrics 101: Introduction to Baseball Analytics (edX — Boston University)
Хотя курс начался в начале мая, еще не поздно к нему присоединиться, так как крайний срок сдачи тестов по всем модулям — 18 июля. В курсе объясняются многие аспекты Data Science и Big Data на основе анализа спортивной статистики (в данном случае бейсбола).
Материалы по анализу данных и машинному обучению
- Серия материалов по популярной методике машинного обучения Deep Learning:
- Возможные проблемы при практическом использовании Deep Learning [EN]
Материал посвящен потенциальным проблемам, с которыми может столкнуться тот кто использует алгоритмы Deep Learning при машинном обучении. - Лекция по практическому применению Deep Learning [EN]
Методика машинного обучения Deep learning последнее время набирает популярность. В следующем видео Адам Гибсон объясняет детали данной технологии на достаточно простом для новичков уровне. - Основы Deep Learning [EN]
Отличный сборник статей по основам Deep Learning.
- Возможные проблемы при практическом использовании Deep Learning [EN]
- Подготовка данных для анализа с помощью библиотеки Pandas [EN]
Обычно данные для анализа изначально находятся в сыром виде и требуют дополнительной обработки. Данный материал будет интересен тем кто использует Python SciPy при анализе данных. Статья рассказывает о практическом применении библиотеки обработки и анализа данных Pandas. - Семейство продуктов RStudio [EN]
Статья, рассказывающая про линейку продуктов RStudio и их возможности при анализе данных. - Идеи стартапов в области Data Science [RU]
Набор потенциально интересных идей для стартапа в области Data Science. - Машинное обучение при помощи Scikit-learn [EN]
Отличный обзор возможностей библиотеки для машинного обучения Python Scikit-learn. - Соревнования Kaggle не научат вас машинному обучению [EN]
Любопытная точка зрения на вопрос связи между соревнованиями на Kaggle и реальными жизненными задачам по машинному обучения. Мысли достаточно спорные, хотя безусловно есть смысл с ними ознакомиться. - Список материалов для подготовки к интервью на позицию специалиста по анализу данных [EN]
Хороший сборник статей по анализу данных. Будет также крайне полезен перед подготовкой к интервью на позицию специалиста по анализу данных. - Летний сезон в машинном обучении [EN]
Летом обычно наступает сезон отпусков, но это также означает, что можно больше времени уделить соревнованиям по машинному обучению. Данная статья приводит список интересных возможностей для развития своих навыков по анализу данных и машинному обучению в летний период. - Лучший алгоритм для машинного обучения [EN]
Очередная полезная статья от автора MachineLearningMachinery.com, задающаяся популярным в сообществе специалистов по анализу данных вопросом, о том какой алгоритм машинного обучения самый лучший и правильно вообще ли ставить вопрос таким образом. - Рейтинг популярности инструментов для анализа данных от KDnuggets [EN]
Анализ популярности различных инструментов в сфере Data Mining и Data Science от одного из самых популярных ресурсов по данной тематике. - Постройте ML-портфолио [EN]
Статья дает очень ценный совет о важности создания своего небольшого портфолио по теме Machine Learning. Это может послужить важным аспектом в развитии вашей карьеры в области анализа данных. - Необходимое оборудование для машинного обучения [EN]
Полезная статья о подходах, которые необходимо применять к вашему оборудованию при анализе данных и машинном обучении. - Обсуждение бесплатной версии SAS [EN]
SAS выпускает бесплатную версию своего продукта. В статье обсуждаются детали данной версии. - Архитектура Cassandra и быстродействие данного продукта [EN]
Свежий обзор популярного NoSQL рещения Cassandra и сравнение его производительности с другими лидерами NoSQL решений, таких как MongoDb, Couchbase, HBase. - Apache Kafka: новое поколение распределенных систем обмена сообщений [EN]
Обзор новой системы обмена сообщениями Apache Kafka. - Что мешает вашему развитию в теме анализа данных [EN]
Отличная статья, которая рассуждает о проблемах и препятствиях на пути вашего развития в сфере анализа данных и машинного обучения. - Обзор книги «Practical Data Science with R» [EN]
Обзор новой книги по машинному обучению «Practical Data Science with R», а также другой литературы по данной тематике. - План саморазвития в области машинного обучения [EN]
Материал, рассказывающий о том как грамотно построить свой путь саморазвития в теме машинного обучения.
Предыдущий выпуск: Дайджест наиболее интересных материалов по анализу данных (9 — 16 июня 2014)
Автор: moat