Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения.
Общее
- IBM анонсирует новые проекты внедрения технологий Watson и открытие штаб-квартиры Watson Group в Нью-Йорке
- Итоги Russian AI Cup 2014
- Как заставить данные говорить
- Роль больших данных в частных расследованиях и анализе
- На Яндекс.Картах теперь можно создавать тепловые карты
- Конференция HDConf: фото-видео-слайд отчет
- 50+ библиотек для распознавания лиц
Более 50 различных библиотек, API для распознавания лиц (Face Detection/Recognition), которые можно использовать в своих приложениях. - Введение в Big Data в финансовой сфере (часть 5)
Пятая и последняя часть из серии статей про использование Big Data в банковской и финансовой сферах от портала insideBIGDATA. - Популярные вопросы на собеседовании на должность аналитика (часть 2)
Вторая часть серии статей, которая содержит несколько популярных вопросов, которые задают на собеседовании на должность аналитика. - Новая библиотека для машинного обучения на Java
Статья, которая расскажет о преимуществах и недостатках нового фреймворка машинного обучения с открытым исходным кодом для языка программирования Java под названием Datumbox. - Ученые из MIT могут предсказать стоимость биткоина
Статья о группе ученых из MIT, построивших предсказательную модель на основе регрессии для предсказания краткосрочных колебаний курса биткоина, которая позволила им удвоить свои вложения в течение двух месяцев. - Введение в In-Memory Computing (часть 4)
Продолжение серии статей по теме In-Memory Computing от портала insideBIGDATA. В данном случае речь пойдет об измерении производительности In-Memory Computing. - Введение в In-Memory Computing (часть 5)
Пятая и последняя часть серии статей по теме In-Memory Computing от портала insideBIGDATA. В данном случае речь пойдет о продукте GridGain Data Fabric. - SQL или NoSQL?
Еще одна небольшая статья, в которой приведены размышления автора по поводу такого популярного сейчас вопроса, как выбор технологии для хранилища данных. - Информационный поиск с помощью Apache Lucene и Tika (часть 1)
Первая часть серии статей, которая посвящена теме информационного поиска с помощью Apache Lucene и библиотеки Tika. - Информационный поиск с помощью Apache Lucene и Tika (часть 1)
Вторая часть серии статей, которая посвящена теме информационного поиска с помощью Apache Lucene и библиотеки Tika. - Информационный поиск с помощью Apache Lucene и Tika (часть 1)
Третья часть серии статей, которая посвящена теме информационного поиска с помощью Apache Lucene и библиотеки Tika. - 15 неустаревающих статей по Data Science
Список из 15 статей от портала DataScienceCentral, которые были опубликованы 1-2 года назад, но до сих пор не потеряли своей популярности и актуальности.
Теория и алгоритмы машинного обучения, примеры кода
- Закон Бенфорда и распределения под него попадающие
- Марковские случайные поля
- Как осваивать алгоритмы машинного обучения
5 отличных советов от автора блога MachineLearningMastery о том, как правильно подходить к вопросу изучения различных алгоритмов машинного обучения. - Нелинейная регрессия
Достаточно простое описание понятия нелинейной регрессии. - Первый взгляд на Distributed R
Небольшая заметка об очень интересном проекте от HP Labs под названием Distributed R. - Как MKL позволяет повысить скорость работы Revolution R Open
В прошлом обзоре была ссылка на анонс о Revolution R Open, а в данной статье речь уже пойдет о деталях реализации данной версии языка программирования R, а именно об ускорении работы некоторых операций с помощью Intel Math Kernel Library (MKL). - Анализ текста с помощью RapidMiner (часть 1)
Первая часть серии статей, посвященной анализу текста с помощью продукта RapidMiner. - Анализ текста с помощью RapidMiner (часть 2)
Вторая часть серии статей, посвященной анализу текста с помощью продукта RapidMiner. - Введение в нейронные сети (часть 2)
Достаточно простое описание работы нейронных сетей с блога Analytics Vidhya.
Соревнования по машинному обучению
- Что такое Data-хакатон?
Интересное видео о data-хакатоне, проведенном в середине сентября под эгидой MIT. - Как выбрать модель для финальной оценки в соревновании на Kaggle
Очень полезная статья от одного из участников соревнований по машинному обучению, о том как правильно выбирать модель для финальной оценки в соревновании на Kaggle. - Советы по выбору модели в соревнованиях по машинному обучению
Продолжение обсуждения предыдущей темы о выборе финальной модели в соревнованиях по машинному обучению, в данном случае это взгляд автора популярного блога MachineLearningMastery на этот интересный вопрос.
Онлайн-курсы, обучающие материалы и литература
- Онлайн-курс «Визуализация данных. Основы»
- Новые курсы по Big Data от MIT на edX
Какое-то время назад на сайте MIT появилась публикация об интересной инициативе MIT на edX, а именно о запуске MIT Professional Education первой сессии курса «Tackling the Challenges of Big Data» на edX, которая будет доступна всем желающим. - 3 отличных бесплатных книги по теме Data Science
Набор из трех книг по теме Data Science с небольшим описанием каждой, которые можно получить бесплатно. - Книга «Data Fluency»
Обзор новой любопытной книги «Data Fluency» от авторов. - Книги «Foundations of Signal Processing» и «Fourier and Wavelet Signal Processing»
Короткая заметка об интересных книгах «Foundations of Signal Processing» и «Fourier and Wavelet Signal Processing» от автора популярного блога Nuit Blanche.
Видеоматериалы
- Масштабирование алгоритмов нечеткого поиска
Интересный доклад от Ken Kugler (President, Scale Unlimited) с конференции Cassandra Summit 2014 на тему масштабирования функциональности Fuzzy Matching на примере сравнения степени сходства данных клиентов в банковской сфере с использованием Apache Cassandra. - Использование Apache Spark для работы с данными
В данном посте представлен набор видеоматериалов, которые посвящены Apache Spark.
Data engineering
- Microsoft DocumentDB: статья первая, введение
- Microsoft DocumentDB: статья вторая, ресурсы и концепции
- Kylin от eBay
Интересный продукт с открытым исходным кодом от eBay под названием Kylin — Distributed Analytics Engine с SQL-интерфейсов и OLAP на базе Hadoop. - Hadoop в корпоративном секторе
Интересная инфографика об использовании Apache Hadoop в корпоративном секторе. - Нагрузочное тестирование Apache Kafka на AWS
Интересная статья, в которой приведены результаты проведенного нагрузочного тестирования Apache Kafka на AWS. - Ловушки шардирования (часть 2)
Вторая часть серии статей о тонкостях использования шардинга в популярном NoSQL-хранилище MongoDB. - Ловушки шардирования (часть 3)
Третья часть серии статей о тонкостях использования шардинга в популярном NoSQL-хранилище MongoDB.
Обзоры
- Еженедельный дайджест от DataScienceCentral
Регулярный еженедельный дайджест статей по анализу данных от портала DataScienceCentral. - Лучшие материалы за неделю (12 — 18 октября)
Лучшие материалы за неделю по теме анализа данных от портала KDnuggets. - Новости Data Mining
Небольшой список интересных ресурсов по теме Data Mining от 8 октября. - Наиболее интересные материалы от Freakonometrics №177
Сборник наиболее интересных материалов от популярного портала Freakonometrics. - Наиболее интересные материалы от Freakonometrics №176
Сборник наиболее интересных материалов от популярного портала Freakonometrics. - Наиболее интересные материалы от Freakonometrics №175
Сборник наиболее интересных материалов от популярного портала Freakonometrics. - Наиболее интересные материалы по High Scalability
Обзор наиболее интересных материалов по теме HighScalability от популярного портала High Scalability. - Лучшие материалы: NoSQL Zone (17 — 24 октября)
Сборник лучших материалов от популярного портала DZone по теме NoSQL.
Предыдущий выпуск: Обзор наиболее интересных материалов по анализу данных и машинному обучению №18 (13 — 19 октября 2014)
Автор: moat