Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения.
Общее
- Яндекс открывает новое направление своей деятельности — Yandex Data Factory
- Как мы делали полярный график в DevExtreme
- Зарплата и инструменты специалистов по анализу данных по результатам опроса от O'Reilly
- Почему R сложен для изучения? — обновленная версия статьи с блога r4stats.com о языке программирования R.
- В каких сферах применяется Data Science
- Прогноз на 2015 для Data Science от Data Science Central
- Прогноз на 2015 для Data Science от KDnuggets.com
- Прогнозы в сфере аналитики на 2015 год от International Institute of Analytics (IIA)
- Большой список публичных наборов данных — отличный список наборов данных по различным тематикам.
- Словарь Big Data — небольшой список различных терминов по тематике Big Data от портала Data Science Central, которые должен знать каждый.
- Мифы Big Data
- 5 основных тенденций Big Data в 2014 году
- Прогнозы рынка аналитики Big Data на 2015 год от Forbes
- Все что вам необходимо знать для того, чтобы стать аналитиком — хорошая подборка ссылок на полезные материалы по теме анализа данных от автора блога Analytics Vidhya.
- Как используется качество контента при ранжировании Bing
- Интересные статьи от Vincent Granville — небольшой список из 3 статей, которые автор портала Data Science Central рекомендует к прочтению.
- Интересные статьи от Vincent Granville — еще 3 рекомендованных статьи от Vincent Granville.
Теория и алгоритмы машинного обучения, примеры кода
- Руководство хакера по нейронным сетям. Схемы реальных значений. Схемы с несколькими логическими элементами
- Сравнение скорости построения линейных моделей в R и Eviews
- Детекторы углов
- Data Science без использования статистики не только возможен, но и желателен — интересные размышления от Vincent Granville по теме Data Science.
- Используйте Random Forest: тестирование 179 классификаторов на 121 наборе данных — интересная статья, которая приводит размышления о правильном выборе алгоритма машинного обучения в различных ситуациях.
- Сравнение бустрэпа и перекрестных проверок — продолжение серии статей от автора книги «Applied Predictive Modeling» об использовании перекрестных проверок (Cross-validation) в машинном обучении.
- 3 вопроса, на которые необходимо ответить перед выбором алгоритма машинного обучения — неплохой набор советов по выбору алгоритма машинного обучения, соответствующего поставленной задаче.
- 12 советов по алгоритму наивного байесовский классификатора — отличный набор советов по использованию алгоритма наивного байесовского классификатора от автора блога Machine Learning Mastery.
- Наивный байесовский классификатор с нуля на Python — автор блога Machine Learning Mastery детально описывает реализацию алгоритма наивного байесовского классификатора с нуля с использованием языка программирования Python.
- Наивный Байес с помощью Python
- Deeppy: библиотека Deep Learning для Python
- Ask a Data Scientist: искажающие факторы (Confounding Variables) — очередная статья с популярного портала insideBIGDATA из цикла «Ask a Data Scientist», в данном выпуске речь пойдет об искажающих факторах (Confounding Variables).
- Использование Apache Hadoop для предсказания задержек авиарейсов (часть 2) — вторая часть серии статей с блога компании Hortonworks о практическом использовании Apache Hadoop для предсказания задержек авиарейсов.
- Пример использования Spark (1): найти человека с похожим списком связей
- Пример использования Spark (2): текстовый поиск с помощью SQL
Соревнования по машинному обучению
- Введение в анализ тональности текста от Kaggle — на сайте Kaggle началось новое достаточно интересное соревнование по машинному обучению, которое посвящено анализу тональности текста (Sentiment analysis) и в данном соревновании особенно привлекает то, что к нему прилагается четыре урока с описанием основных моментов работы NLP и Sentiment analysis.
Онлайн-курсы, обучающие материалы и литература
- Методическое пособие «Статистический анализ и визуализация данных с помощью R» — бесплатная книга на русском языке по языку программирования R от автора блога «R: Анализ и визуализация данных».
- Анонс нового онлайн-курса «Statistical Learning» от Stanford University — примерно через месяц Stanford Online запускает интересный курс по машинному обучению под названием Statistical Learning.
- Материалы с AMP Camp 5 — набор материалов с AMP Camp 5, посвященного теме Big Data, анализа данных и машинного обучения и прошедшего под эгидой UC Berkley в Калифорнии в ноябре этого года.
- Введение в анализ данных
Видеоматериалы
Data engineering
- Hadoop для сетевых инженеров
- Time Series, метрики и статистика: знакомство с InfluxDB
- 5 правил организации данных — набор советов, которые дает Vincent Granville, которые помогут оптимальнее организовать структуру данных. Очень интересное сравнение данных правил с аналогичными правилами, но датированными 1999 годом.
- 5 основных проблем измерения производительности Big Data систем — интересная статья с блога Cloudera о 5 проблемах, которые возникают при рещении задач по оценке и сравнению производительности различных Big Data систем.
- Сборник полезных советов по Cloudera Impala
Обзоры
- Интересное из мира R (1-7 декабря 2014 г.)
- Лучшие материалы за неделю от KDnuggets.com (30 ноября — 6 декабря)
- Еженедельный дайджест от DataScienceCentral (15 декабря)
- Лучшие ресурсы за неделю от Data Elixir (№13)
- Еженедельный сборник лучших материалов от R1Soft (12 декабря)
- Наиболее интересные материалы от Freakonometrics №191
- Наиболее интересные материалы от Freakonometrics №192
- Наиболее интересные материалы по High Scalability (12 декабря)
- Этот месяц в экосистеме Hadoop (ноябрь 2014)
Предыдущий выпуск: Обзор наиболее интересных материалов по анализу данных и машинному обучению №25 (1 — 7 декабря 2014)
Автор: moat