Сегодня мы подготовили для вас дайджест, в котором постарались собрать самые интересные литературные источники, статьи, видеокурсы и лекции (в том числе подготовленные силами преподавателей, студентов и сотрудников Университета ИТМО), которые позволят познакомиться с Data Science.
Эти материалы затрагивают как теоретические аспекты работы с данными, так и практические — направленные на создание алгоритмов и написание программ.
Flickr / Thierry Leclerc / CC
Статьи
Работа с данными — новая наука
Объемы научных данных увеличиваются с поразительной скоростью, потому появляется необходимость в новых математических методах и методах анализа. При этом недостаточно просто собирать и хранить громадные объемы информации, их нужно грамотно организовывать, а для этого нужна специальная структура. Статья о том, как ученые реализуют нетривиальные подходы к работе с данными.
Список ресурсов по машинному обучению. Часть 1
Адаптированная подборка полезных материалов по машинному обучению, которые обсуждали резиденты Stack Overflow и Stack Exchange. Внимание уделено таким темам, как логистическая регрессия, нейронные сети прямого распределения, обработка естественного языка, метод опорных векторов и др.
Список ресурсов по машинному обучению. Часть 2
Вторая часть адаптированной подборки полезных материалов: фреймворки, презентации, интервью и другие материалы по теме.
Коламбия Пикчерз не представляет: что могут рассказать данные IMDB
Студент кафедры вычислительной техники Юрий Волков рассказал, как анализировал датасет крупнейшего мирового хранилища информации о фильмах IMDB и к каким выводам пришел.
Глубокое обучение: Немного теории
Что нужно для создания искусственного интеллекта и какие алгоритмы для этого применяются. Сложности реализации и варианты решения проблем.
Подборка: Более 70 источников по машинному обучению для начинающих
Это список предназначен для тех, кто только начинает изучать тему машинного обучения, например, с использованием Python. Здесь вы найдете статьи, курсы, книги, пакеты и инструменты, чаты и обсуждения.
40 инструментов и методик, используемых специалистами по анализу данных
Наиболее часто встречающиеся термины, что они означают и какое значение имеют в контексте науки о данных. Каждый пункт в списке является ссылкой на несколько других статей портала.
Литература
«Голая статистика. Самая интересная книга о самой скучной науке»
Книга подойдет не только специалистам по обработке данных. В ней содержатся основы статистического анализа, которые пригодятся и в других сферах деятельности. Автор книги, профессор Чарльз Уилан, с юмором и наглядными примерами учит находить скрытые взаимосвязи между явлениями.
Книга разработана в соответствии с программой дисциплины «Статистика» Университета ИТМО, и в ней собраны основные методологические и методические положения по теории статистки и прикладного их применения.
Журнал «Научно-технический вестник информационных технологий, механики и оптики»
Журнал выходит на базе Университета ИТМО и является одним из старейших научных периодических изданий страны. Здесь содержится большое количество статей на тему компьютерных систем и информационных технологий, включая глубокое обучение и анализ статистических данных.
Doing Data Science: Straight Talk from the Frontline
Эта книга основана на курсе Колумбийского университета и позволяет глубоко изучить такие темы, как регрессионные модели, фильтрация спама, рекомендательные машины и большие данные.
Think Stats: Exploratory Data Analysis in Python
Think Stats делает акцент на простых техниках, которые вы можете использовать для исследования реальных сводов данных. Здесь также представлен конкретный пример с данными из Национальных институтов здравоохранения.
«Алгоритмы. Руководство по разработке»
Это наиболее полное руководство по разработке эффективных алгоритмов. В первой части книги рассматриваются типы структур данных, алгоритмы сортировки, примеры использования комбинаторного поиска, эвристических методов и динамического программирования. Во второй части автор разместил список литературы и каталог из 75 наиболее распространенных алгоритмических задач с существующими программными реализациями.
The Elements of Statistical Learning: Data Mining, Inference, and Prediction
В книге нет ни одной строчки кода на Python или R, зато есть множество графиков и формул. Она охватывает большое количество областей: машинное обучение с учителем и без, нейронные сети, деревья решений, метод опорных векторов и ансамбли моделей. На сайте Стэнфордского университета её можно скачать бесплатно.
«Алгоритмы. Построение и анализ»
Книга представляет собой исчерпывающий учебник, охватывающий весь спектр современных алгоритмов: от быстрых алгоритмов и структур данных до алгоритмов с полиномиальным временем работы и специализированных алгоритмов поиска подстрок, вычислительной геометрии и теории чисел.
«Алгоритмы. Разработка и применение»
Читатель сперва знакомится с базовыми аспектами построения алгоритмов, основными понятиями и определениями, а затем переходит к методам построения алгоритмов, неразрешимости и методам решения неразрешимых задач. Самые сложные темы объясняются на простых примерах.
Книга рассказывает о том, как использовать данные в бизнес-среде. Она учит, почему важно фокусироваться на одной ключевой метрике при оценке рабочих процессов компании, а также рассказывает о шести видах онлайн-бизнеса и стратегиях работы с данными в каждом из них.
Analytics Lessons Learned: Free e-book with 13 case studies
Это электронное издание является своеобразным дополнением к предыдущей книге. В ней собраны истории о том, как работают с данными такие компании, как Airbnb, Backupify, Sincerely, Swiffer и EMI.
I Heart Logs: Event Data, Stream Processing, and Data Integration
Эта небольшая книжка содержит всего 60 страниц, но она дает хорошее представление о технической стороне процессов сбора и обработки данных. Также читатель узнает, с какими данными работают специалисты по инфраструктуре различных компаний.
Data Science at the Command Line
Эта книга призвана расширить ваши возможности в сфере анализа данных. Еще это единственная книга, содержащая информацию об анализе данных с помощью командной строки.
Здесь рассматриваются вопросы переформатирования, очистки и обработки данных на Python. Ее можно также рассматривать как современное практическое введение в разработку научных приложений на Python, ориентированных на обработку данных. Это книга о тех частях языка Python и библиотек для него, которые необходимы для эффективного решения широкого круга аналитических задач.
«R в действии. Анализ и визуализация данных на языке R»
Руководство по обучению языку R, в котором особое внимание уделяется практике. Здесь представлены полезные примеры статистической обработки данных и описаны методы работы с запутанными и неполными данными. Она также учит читателя тому, как правильно представлять данные для визуального исследования.
«Hadoop. Подробное руководство»
Apache Hadoop — фреймворк с открытым исходным кодом, в котором реализована вычислительная парадигма, известная как MapReduce. Эта книга покажет, как использовать всю мощь Hadoop для создания надежных, масштабируемых распределенных систем и обрабатывать большие своды данных.
«Основы Data Science и Big Data. Python и наука о данных»
Каждая из глав этой книги посвящена одному из самых интересных аспектов анализа и обработки данных. Вы начнете с теоретических основ, затем перейдете к алгоритмам машинного обучения, работе с огромными массивами данных, NoSQL, потоковым данным, глубокому анализу текстов и визуализации информации. В многочисленных практических примерах использованы сценарии Python.
Видеокурсы
Узнать больше о Machine Learning и поймать робота: 10 онлайн-курсов, на которые стоит записаться
Подборка из 10 онлайн-курсов от ведущих компаний и университетов мира, записаться на которые никогда не поздно. Программы подойдут для тех, кто уже давно хотел попробовать МООК (массовый открытый онлайн-курс), но решился только сейчас.
Методы и алгоритмы теории графов
Целью курса является формирование базовых знаний, умений и навыков решения наиболее важных и часто встречаемых на практике графовых задач. В составе онлайн-курса используются видео-лекции вместе с опросами по их отдельным частям, упражнения, интерактивные демонстрации и виртуальные лаборатории для формирования и контроля навыков алгоритмического решения задач на графах.
Функциональное программирование: базовый курс
В курсе изучаются основы функционального подхода к программированию и практические вопросы программирования на языке Lisp. Функциональные языки обладают множеством интересных особенностей, знакомство с которыми расширяет кругозор программиста.
Программирование и разработка веб-приложений
Целью курса является формирование базовых знаний, умений и навыков решения наиболее важных и часто встречаемых на практике задач по программированию на языке Python. Также внимание уделяется созданию систем и приложений с использованием CMS Django. Дополнением к курсу может служить бесплатная электронная книга по Python.
Курс дает возможность ознакомиться с важными концепциями и навыками программирования и статистического анализа, предлагая работать с реальными сводами данных: экономическими и географическими и информацией из социальных сетей. Все программное обеспечение, используемое в рамках курса, является открытым.
Машинное обучение с Эндрю Ыном
Курс по машинному обучению от Эндрю Ына — учёного в области информатики из Стэнфордского университета. Эндрю начинает с объяснения принципов работы машинного обучения, а затем плавно переходит к алгоритмам и используемым функциям.
P.S. Преподаватели Университета ИТМО проводят онлайн-курсы и на другие темы: геометрическая оптика, реология, менеджмент. С полным списком доступных курсов вы можете ознакомиться здесь.
Автор: itmo