Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения.
Общее
- Видеоматериалы с Yet another Conference 2014
Появились видеоматериалы с конференции Yet another Conference 2014, которая прошла 30 октября в офисе компании Яндекс. - Новые материалы с HighLoad++ 2014
В публичном доступе появилось достаточно много новых слайдов с различных выступлений с конференции разработчиков высоконагруженных систем HighLoad++ 2014. - Рейтинг TIOBE за ноябрь 2014 г.: R на пути в список топ-10 языков программирования
Интересные новости о росте популярности языка программирования R в рейтинге по версии компании TIOBE. - Как стать Data Scientist: 8 шагов на пути к успеху
Интересная инфографика, которая содержит 8 рекомендательных шагов, которые помогут стать Data Scientist. - Ответы на вопросы по машинному обучению
Автор популярного блога MachineLearningMastery отвечает на вопросы читателей, посвященные машинному обучению. - Анализ текста и изображений
Еще одна интересная статья с блога компании AYLIEN, посвященная анализу текстовых данных и изображений. - Как команды Формулы-1 используют Big Data
Небольшая статья об использовании Big Data в Формуле-1. - Заменит ли IBM Watson Analytics специалистов по анализу данных
Небольшая любопытная статья с популярного портала KDnuggets, посвященная IBM Watson Analytics Beta. - 5 проектов для изучения Data Science
Неплохой набор идей в посте с блога Analytics Vidhya, которые помогут новчикам получить практику в проектах Data Science и улучшить свои навыки. - Производительность Revolution R Open на Linux
Результаты тестов производительности Revolution R Open на платформе Linux. - Рост темы Data Science за последние два года: 300%
Небольшое исследование от портала Data Science Central и Vincente Granville. - Мои мысли по темам Data Science и Big Data
Очень интересные размышления по темам Data Science и Big Data от Vincent Granville. - Материалы с «Python Data Science LA meetup»
Интересные материалы с недавней встречи «Python Data Science LA meetup». - 13 тенденций Big Data и Data Science
Список современных тенденций по темам Big Data и Data Science от портала Data Science Central. - 22 совета по теме Data Science
22 полезных совета по теме Data Science от Vincent Granville. - 20 наиболее комментируемых постов
20 постов, которые собрали наибольшее количество комментариев, с популярного портала Data Science Central. - Big Data 101: Масштабируемость
Несколько о слов о таком важном понятии в современном мире Big Data, как масштабируемость. - Процесс Data Science
Очередная статья с популярного портала insideBIGDATA из цикла «Ask a Data Scientist», в данном выпуске речь пойдет о том, что из себя представляет процесс Data Science.
Теория и алгоритмы машинного обучения, примеры кода
- Анализ дружеских связей VK с помощью Python. Продолжение
- Вероятностное программирование – ключ к искусственному интеллекту?
- Краткий курс по статистике, необходимой для машинного обучения
Краткий обзор областей из статистики, необходимых для работы с алгоритмами машинного обучения. - Почему мои результаты не так хороши, как я ожидал? Возможно, проблема в переобучении
Статья, которая расскажет о проблеме переобучения (overfitting) при машинном обучении и возможных путях её решения. - Использование Apache Hadoop для предсказания задержек авиарейсов
Статья с блога компании Hortonworks о практическом использовании Apache Hadoop, Python и Pig для предсказания задержек авиарейсов. - Быстрый взгляд на библиотеку igraph
Краткий обзор библиотеки igraph для языка программирования R, которая предоставляет широкие и разнообразные возможности работы с графами.
Онлайн-курсы, обучающие материалы и литература
- Стартовал новый онлайн-курс «Process Mining: Data science in Action»
12 ноября стартовал новый онлайн-курс на Coursera по тематике анализа данных под названием Process Mining: Data science in Action, который представлен Eindhoven University of Technology. - Выход второго издания книги «Doing Bayesian Data Analysis»
Появилось второе издание достаточно популярной книги «Doing Bayesian Data Analysis». - Книга «Sparse Modeling for Image and Vision Processing»
Небольшой пост о книге «Sparse Modeling for Image and Vision Processing» от автора популярного блога Nuit Blanche.
Видеоматериалы
- Анализ больших данных с помощью Apache Spark
В данном посте представлено выступление с одной из встреч в Сан-Франциско, которые посвящено анализу больших данных с помощью Apache Spark.
Data engineering
- Как Yhat делает балансировку нагрузки в облаке
Интересная статья с блога компании Yhat о проблемах балансировки нагрузки и их решении в облачном продукте ScienceOps. - Cubert: платформа для высокоскоростных вычислений при сложной аналитике на больших данных
Статья с блога компании LinkedIn о продукте под названием Cubert, который теперь является проектом с открытым исходным кодом и может быть полезен при выполнении различных аналитических задач на больших данных. - Моделирование данных в документо-ориентированных БД
Интересная статья с блога Couchbase о подходах к моделированию данных в документо-ориентированных БД.
Обзоры
- Еженедельный дайджест от DataScienceCentral
Регулярный еженедельный дайджест статей по анализу данных от портала DataScienceCentral. - Лучшие материалы за неделю (2 — 8 ноября)
Лучшие материалы за неделю по теме анализа данных от портала KDnuggets. - Новости Data Mining
Небольшой список интересных ресурсов по теме Data Mining от 12 ноября. - Лучшие материалы: Big Data Zone (7 — 14 ноября)
Сборник лучших материалов от популярного портала DZone по теме Big Data. - Лучшие материалы: Big Data Zone (31 октября — 7 ноября)
Сборник лучших материалов от популярного портала DZone по теме Big Data. - Лучшие ресурсы за неделю от Data Elixir
Сборник ссылок на различные материалы по теме анализа данных, собранные блогом Data Elixir за прошедшую неделю. - Еженедельный сборник лучших материалов от R1Soft
Еженедельный сборник лучших материалов под названием «This Week in Data» от R1Soft. - Наиболее интересные материалы от Freakonometrics №183
Сборник наиболее интересных материалов от популярного портала Freakonometrics. - Наиболее интересные материалы от Freakonometrics №182
Сборник наиболее интересных материалов от популярного портала Freakonometrics. - Лучшие материалы: NoSQL Zone (31 октября — 7 ноября)
Сборник лучших материалов от популярного портала DZone по теме NoSQL. - Наиболее интересные материалы по High Scalability
Обзор наиболее интересных материалов по теме HighScalability от популярного портала High Scalability.
Предыдущий выпуск: Обзор наиболее интересных материалов по анализу данных и машинному обучению №21 (3 — 9 ноября 2014)
Автор: moat