Обзор наиболее интересных материалов по анализу данных и машинному обучению №3 (обзор онлайн курсов)

в 19:06, , рубрики: big data, data mining, data science, data science digest, machine learning, MOOC, метки: , , , , ,

Данный выпуск обзора наиболее интересных материалов по анализу данных и машинному обучению полностью посвящен онлайн-курсам по тематике Data Science. В прошлом выпуске был представлен список онлайн-курсов, стартующих в ближайшее время. В данном выпуске я постарался собрать наиболее интересные онлайн-курсы по теме анализа данных. Стоит отметить, что некоторые курсы уже закончились, но у большинства таких курсов можно посмотреть архив всех учебных материалов.
Начинается обзор с набора курсов от Johns Hopkins University на Coursera, которые объединены в одной специализации «Data Science Specialization», поэтому имеет смысл рассмотреть их отдельно от остальных курсов. Это 9 официальных курсов специализации и два дополнительных Mathematical Biostatistics Boot Camp 1 и 2, которые официально не входят в специализацию. Важно отметить, что весь набор данных курсов регулярно начинается заново и в общем-то можно достаточно гибко построить свой график продвижения по специализации. Большинство курсов длятся 4 недели. Язык R является основным языком программирования в данном наборе курсов. Далее идет список курсов из специализации Data Science от Johns Hopkins University:

  • The Data Scientist’s Toolbox — базовый курс в специализации и посвящен обзору различных инструментов специалиста по анализу данных. Количество материалов невелико и курс может быть пройден за 3-4 часа.
  • R Programming — базовый курс в специализации и посвящен основам работы с язык программирования R.
  • Getting and Cleaning Data — также является базовым курсом в специализации и посвящен очень важной теме подготовки и обработки сырых входных данных к дальнейшему анализу.
  • Exploratory Data Analysis — курс посвящен исследовательскому анализу данных и визуализации данных с помощью языка R и таких популярных пакетов для визуализации как lattice и ggplot2.
  • Reproducible Research — курс рассказывает о такой важной теме в анализе данных как Reproducible Research. Рассматриваются пакет knitlr для языка R, а также язык разметки R Markdown.
  • Statistical Inference — формально курс посвящен теме статистического вывода, но по сути является курсом по основам статистики и теории вероятностей. Подано все в очень скомканной и сумбурной форме. Один из самых неоднозначных курсов в данной специализации. Надеюсь, что в будущих версиях курс будет серьезно переработан.
  • Regression Models — курс посвящен теме регрессионного анализа. К курсу также есть вопросы по теме проработанности материала и надежда, что создатели курса обратят внимание на комментарии студентов и серьезно переработают курс в будущем.
  • Practical Machine Learning — курс посвящен основам машинного обучения.
  • Developing Data Products — курс посвящен разработке современных продуктов в теме анализа данных. Рассматриваются такие популярные фреймворки как Shiny и Slidify.
  • Mathematical Biostatistics Boot Camp 1 — первая часть курса по биостатистике от Johns Hopkins University, является неофициальным дополнением к специализации Data Science, хорошо покрывает основы статистики и теории вероятностей.
  • Mathematical Biostatistics Boot Camp 2 — вторая часть курса по биостатистике от Johns Hopkins University, является неофициальным дополнением к специализации Data Science, хорошо покрывает основы статистики и теории вероятностей.

Далее рассмотрим курсы, которые помогут улучшить общие навыки, необходимые для специалиста по анализу данных:

  • Intro to Hadoop and MapReduce (Udacity) — курс посвящен основам работы с Hadoop и большими наборами данных.
  • Data Wrangling with MongoDB (Udacity) — речь в данном курсе пойдет о работе с данными в такой популярной сейчас NoSQL базе данных как MongoDB.
  • Programming Foundations with Python (Udacity) — курс посвящен основам языка программирования Python, который стремительно набирает популярность среди специалистов по анализу данных.
  • Introduction to Databases (Coursera — Stanford University) — курс рассказывает о работе с реляционными источниками данных, а также о работе с другими популярными форматами хранения данных (XML, JSON)

Теперь перейдем к курсам, которые посвящены теории вероятностей и статистике. Безусловно знание данных дисциплин будет полезно каждому, кто претендует на звание специалиста по анализу данных. В некоторых случаях разделение курсов на категории достаточно условно, так как многие курсы охватывают различные аспекты, связанные с анализом данных. Далее представлен список курсов в данной категории:

  • Probabilty and Statistics (Khan Academy) — отличный набор базовых вещей по статистике и теории вероятностей от Khan Academy.
  • Case-Based Introduction to Biostatistics (Coursera — Johns Hopkins University) — курс прдеставляет в доступной форме основы статистики и теории вероятностей с примерами из биостатистики.
  • Probabilistic Graphical Models (Coursera — Stanford University) — небольшой курс по теории вероятностей.
  • Statistics: Making Sense of Data (Coursera — University of Toronto) — еще один курс по основам статистики.
  • Data Analysis and Statistical Inference (Coursera — Duke University) — отличный курс по анализу данных, в котором доступно рассказывается об основах теории вероятностей и статистики.
  • Statistics One (Coursera — Princeton University) — неплохой курс по основам статистики. Материал подается на доступном уровне и не требует от слушателя специальных знаний для усвоения материала.
  • Statistics in Medicine (Stanford Online) — основы статистики на основе примеров из медицины.
  • Statistics for Medical Professionals (CME) (Stanford Online) — основы статистики на основе примеров из медицины.
  • Stat_2.1x — Introduction to Statistics: Descriptive Statistics (edX — BerkleyX) — первая часть из серии курсов по статистике и теории вероятностей. Первая часть посвящена описательной статистике.
  • Stat_2.2x — Introduction to Statistics: Probability (edX — BerkleyX) — вторая часть из серии курсов по статистике и теории вероятностей. Вторая часть посвящена основам теории вероятностей.
  • Stat_2.3x — Introduction to Statistics: Inference (edX — BerkleyX) — третья часть из серии курсов по статистике и теории вероятностей. Третья часть посвящена теме статистического вывода.
  • 6.041x Introduction to Probability — The Science of Uncertainty (edX — MITx) — курс по теории вероятностей от MIT.
  • Explore Statistics with R (edX — KIx) — новый курс по работе со статистическим языком программирования R. Первая сессия данного курса начинается 9 сентября 2014 года.
  • Intro to Statistics (Udacity) — еще один курс по основам статистики.
  • Statistics (Udacity) — достаточно простой курс по теории вероятностей и статистике.

Далее следует список курсов, которые посвящены различным аспектам темы анализа данных, таким как машинное обучение, обработка естественного языка, нейронным сетям, рекомендательным системам, анализу социальных сетей, искусственному интеллекту и другим:

  • Data Analysis (Coursera — Johns Hopkins University) — курс по анализу данных с использованием языка R длительностью 8 недель.
  • Introduction to Data Science (Coursera — University of Washington) — курс длится 8 недель. Один из наиболее популярных онлайн-курсов по основам Data Science.
  • Machine Learning (Coursera — University of Washington) — отличный курс, который длится 10 недель по машинному обучению от University of Washington.
  • Machine Learning (Coursera — Stanford University) — один из наиболее известных курсов по Machine Learning, ведет его профессор Стэнфордского Университета Andrew Ng. Курс длится 10 недель. Курс достаточно простой и понятный, не требует каких-то специальных знаний для его успешного прохождения, при этом охватывает достаточно много направлений Machine Learning.
  • Natural Language Processing (Coursera — Stanford University) — один из самых популярных онлайн-курсов по обработке естественного языка от Стэнфордского Университета.
  • Introduction to Recommender Systems (Coursera — University of Minnesota) — введение в рекомендательные системы. Нельзя сказать, что курс тщательно проработан, но курсов по данной не так много, так что он может быть интересен тем, кто занимается тематикой рекомендательных систем.
  • Neural Networks for Machine Learning (Coursera — University of Toronto) — курс по применению нейронных сетей в машинном обучении.
  • Natural Language Processing (Coursera — Columbia University) — еще один курс, посвященный теме обработки естественного языка.
  • Social Network Analysis (Coursera — University of Michigan) — курс посвящен популярной теме анализа данных социальных сетей.
  • Statistical Learning (Stanford Online) — курс, посвященный основам обучения с учителем (Supervised learning) в машинном обучении.
  • SABR101x Sabremetrics: Introduction to Baseball Analytics (edX — BUx-Boston University) — в курсе объясняются многие аспекты Data Science и Big Data на основе анализа спортивной статистики (в данном случае бейсбола).
  • PH525x Data Analysis for Genomics (edX — HarvardX) — достаточно простой курс по теме анализа данных.
  • 15.071x The Analytics Edge (edX — MITx) — курс с отличным материалом по теме анализа данных и машинному обучению.
  • Learning From Data (edX — CaltechX) — один из лучших курсов по машинному обучению. Доступно раскрываются многие темы машинного обучения.
  • CS188.1x Artificial Intelligence (edX — BerkleyX) — наверное один из самых интересных онлайн-курсов по теме искусственного интеллекта. В курсе используется язык программирования Python.
  • Intro to Data Science (Udacity) — введение в Data Science от Udacity.
  • Machine Learning 1—Supervised Learning (Udacity) — первая часть из серии курсов по машинному обучению от Udacity. Первая часть посвящена теме обучения с учителем (Supervised learning).
  • Machine Learning 2—Unsupervised Learning (Udacity) — вторая часть из серии курсов по машинному обучению от Udacity. Вторая часть посвящена теме обучения без учителя (Unsupervised learning).
  • Machine Learning 3—Reinforcement Learning (Udacity) — третья часть из серии курсов по машинному обучению от Udacity. Третья часть посвящена популярной методике машинного обучения Reinforcement Learning.
  • Exploratory Data Analysis (Udacity) — курс по визуализации данных с использованием языка R.
  • Artificial Intelligence for Robotics (Udacity) — введение в тему программирования искусственного интеллекта на примере беспилотного автомобиля.
  • Intro to Artificial Intelligence (Udacity) — курс по основам искусственного интеллекта.
  • CS109 Data Science (Harvard) — видеолекции курса по основам Data Science от Harvard Extension School

Предыдущий выпуск: Обзор наиболее интересных материалов по анализу данных и машинному обучению №2 (16 — 23 июня 2014)

Автор: moat

Источник

* - обязательные к заполнению поля


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js