Data Science — наука о данных, возникшая на стыке нескольких обширных направлений: программирования, математики и машинного обучения. Этим обусловлен высокий порог вхождения в профессию и необходимость постоянно получать новые знания.
Ключевыми навыками для начинающих специалистов являются:
- умение писать код (Python);
- способность визуализировать свои результаты;
- понимание того, что происходит «под капотом».
На эти три категории разделены книги, которые специалисты Plarium Krasnodar подобрали для читателей с начальными знаниями в Data Science.
Python
Некоторые люди ищут себя в R, но путь истины лежит через Python. Отличным выбором для изучения будут следующие книги.
Python Tricks: The Book
Dan Bader
Книга о различных трюках и полезностях, которые помогают становиться продуктивнее и программировать более качественно.
Речь тут идет об основных типах данных языка Python и подходах к написанию кода — от ООП до работы с зависимостями. Стоит почитать как новичкам, так и всем, кто хочет освежить память типовыми pythonic-конструкциями.
High Performance Python: Practical Performant Programming for Humans
Micha Gorelick, Ian Ozsvald
Книга описывает язык на внутреннем уровне. В ней приведены пояснения работы интерпретатора и механик кода, основные типы данных и способы их взаимодействия с памятью. Также это руководство поможет понять, как эффективно использовать скрытые возможности Python.
Визуализация
Каждый Data Scientist однажды сталкивается с необходимостью представить результат своей работы. И как известно, нет способа лучше, чем качественная визуализация. Тут-то и возникают причудливые pie charts…
Storytelling with Data: A Data Visualization Guide for Business Professionals
Cole Nussbaumer Knaflic
Прекрасная книга о том, как качественно визуализировать свои результаты. В ней еx-googler детально описывает все этапы создания правильных графиков и приводит контрпримеры.
Также можно посетить сайт автора, на котором собрано огромное количество вариантов представления данных от лучших специалистов. Конечно, пошаговой инструкции для создания безупречной работы здесь не найти — да и где ее найдешь!
The Big Book of Dashboards. Visualizing Your Data Using Real-World Business Scenarios
Steve Wexler, Jeffrey Shaffer, Andy Cotgreave
Визуализация данных — кропотливая работа, но когда знаешь, как должен выглядеть идеал, то понимаешь, к чему нужно стремиться.
Это отличная подборка дашбордов на все случаи жизни, в которой рекомендованы решения почти для любой задачи бизнеса. К сожалению, тут ничего не сказано о реализации в Tableau — только визуальные составляющие и объяснение, как лучше и почему лучше.
ML-алгоритмы
Та самая область, где относительно легко понять, что делают алгоритмы, но очень сложно достичь мастерства.
Hands-On Machine Learning with Scikit-Learn and TensorFlow: Concepts, Tools, and Techniques to Build Intelligent Systems
Aurélien Géron
Книгу можно смело рекомендовать всем, кто хочет понять, как строятся модели — от линейных до деревьев. В первой части доступным языком изложены принципы работы алгоритмов. Она будет особенно полезна тем, кто только входит в профессию. Вторая часть посвящена TensorFlow.
Глубокое обучение. Погружение в мир нейронных сетей
С. Николенко, А. Кадурин, Е. Архангельская
Почти вся IT-литература в современном мире издается на английском языке, и область Data Science не исключение. Есть даже выражение: «Хочу стать программистом, какой язык выучить? Выучи для начала английский».
Это единственная стоящая книга по Deep Learning и Neural Networks, написанная российскими авторами на русском языке. Причем очень выразительно, с кучей примеров, различных историй из науки и ссылок на источники (один список литературы в этой работе полезнее многих изданий).
The Elements of Statistical Learning: Data Mining, Inference, and Prediction, Second Edition
Trevor Hastie, Robert Tibshirani, Jerome Friedman
Просто must-read в любой подборке по Data Science. Фундаментальный труд об алгоритмах машинного обучения, который можно использовать как настольную книгу. Требует определенной подготовки, подойдет и для продвинутого уровня.
Дополнительно
Statistics Fundamentals Succinctly
Katharine Alexis Kormanik
В серии Succinctly часто встречаются жемчужины, и это одна из них. В начале книги приведены основные определения с картинками и комментариями, а остальная часть посвящена значимости тестов (T- и Z-tests).
Доступный язык и минимум математики (количество, необходимое для понимания) делают это руководство отличным введением в статистику именно с практической точки зрения.
Deep Work: Rules for Focused Success in a Distracted World
Cal Newport
Автор рассказывает о своем опыте и опыте коллег при работе над задачей с предельной концентрацией. Книга читается довольно легко и состоит из описания самого подхода, различных примеров и правил.
Основная идея — такое состояние
Автор: Plarium