Данный выпуск дайджеста наиболее интересных материалов, посвященных теме анализа данных содержит достаточно много статей, которые рассматривают теоретические аспекты вопросов, связанных с Data Science. Есть несколько статей, которые будут интересны новичкам. Также представлены ссылки на серию интересных статей о работе со схемами данных в MongoDb. Есть несколько ссылок на материалы, в которых рассматривается важная проблема переобучения (overfitting) в процессе машинного обучения. Некоторые статьи посвящены литературе, рекомендуемой к прочтению для тех кому интересна тема анализа данных.
Статьи
- Список литературы на лето [EN]
Интересный большой список литературы, посвященный теме анализа данных. - Введение в Deep Neural Networks [EN]
Введение в интересную тему Deep Neural Networks с примерами кода на C#. - Сборник статей и ресурсов по анализу данных [EN]
Большой сборник полезных статей и ресурсов, посвященных анализу данных. - Еще один сборник статей и ресурсов по анализу данных [EN]
Еще один большой сборник полезных статей и ресурсов, посвященных анализу данных. - Постер Big Data [EN]
Постер, посвященный теме Big Data, на котором достаточно емко собраны интересные вопросы разных аспектов работы с большими данными. - Как стать Data Scientist [EN]
Отличная статья о том как начать свой профессиональный путь в области анализа данных. - Стоит ли заниматься статистикой и машинным обучением? [EN]
Поднимается очень интересный вопрос того что если вы хотите сменить профессию на направление анализа данных, то будет ли проблемой не очень уверенные знания в математике. Интересно прежде всего обсуждение разных точек зрения на данный вопрос в комментариях. - Серия статей по работе со схемами данных в MongoDb:
- Схемы данных в MongoDb (часть 1) [EN]
Первая часть серии статей про работу со схемами данных в MongoDb. - Схемы данных в MongoDb (часть 2) [EN]
Вторая часть серии статей про работу со схемами данных в MongoDb. - Схемы данных в MongoDb (часть 3) [EN]
Третья часть серии статей про работу со схемами данных в MongoDb.
- Схемы данных в MongoDb (часть 1) [EN]
- Введение в Random Forest [EN]
Простое и понятное введение в алгоритм машинного обучения Random Forest. - Data Shinobi 2 — Дерево Data Shinobi [EN]
Продолжение серии статей по анализу больших объемов данных, во второй части автор предлагает набор основных проблем, с которым сталкивается специалист по анализу данных и основные способы решения данных вопросов. - Обзор алгоритмов машинного обучения [EN]
Краткий обзор по алгоритмам машинного обучения с описанием ключевых особенностей основных алгоритмов. - 100+ интересных наборов данных [EN]
Более 100 любопытных датасетов для анализа данных. - Три интересные статьи про переобучение (overfitting) при машинном обучении:
- О проклятии размерности [EN]
Статья, объясняющая понятие проклятия размерности (Curse of Dimensionality) на простом и доступном языке. - Почему переобучение опаснее низкой точности предсказания (часть 1) [EN]
Первая часть обсуждения вопроса большей опасности переобучения (overfitting) по сравнению с проблемой низкой точности предсказания результата (poor accuracy). - Почему переобучение опаснее низкой точности предсказания (часть 2) [EN]
Вторая часть обсуждения вопроса большей опасности переобучения (overfitting) по сравнению с проблемой низкой точности предсказания результата (poor accuracy).
- О проклятии размерности [EN]
- Список полезных к прочтению книг для специалиста по анализу данных [EN]
Хороший достаточно краткий список полезных для изучения книг (R, Python, Machine Learning).
Видеоматериалы
- Классификация тональности текста (Sentiment classification) [EN]
Видео о классификации тональности текста (Sentiment classification) в Facebook от специалиста по машинному обучению. - Основы Hadoop для новичков [EN]
Видео об основах семейства Hadoop для новичков. - Обработка естественного языка при помощи методики Deep Learning [EN]
Описание применение методики Deep Learning для обработки естественного языка (Natural Language Processing) достаточно простым и доступным языком.
Автор: moat