Обзор наиболее интересных материалов по анализу данных и машинному обучению №19 (20 — 26 октября 2014)

2014-10-26 в 15:43, admin, рубрики: big data, data mining, data science, data science digest, machine learning, высокая производительность

Обзор наиболее интересных материалов по анализу данных и машинному обучению №19 (20 — 26 октября 2014)
Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения.

Общее

IBM анонсирует новые проекты внедрения технологий Watson и открытие штаб-квартиры Watson Group в Нью-Йорке
Итоги Russian AI Cup 2014
Как заставить данные говорить
Роль больших данных в частных расследованиях и анализе
На Яндекс.Картах теперь можно создавать тепловые карты
Конференция HDConf: фото-видео-слайд отчет
50+ библиотек для распознавания лиц
Более 50 различных библиотек, API для распознавания лиц (Face Detection/Recognition), которые можно использовать в своих приложениях.
Введение в Big Data в финансовой сфере (часть 5)
Пятая и последняя часть из серии статей про использование Big Data в банковской и финансовой сферах от портала insideBIGDATA.
Популярные вопросы на собеседовании на должность аналитика (часть 2)
Вторая часть серии статей, которая содержит несколько популярных вопросов, которые задают на собеседовании на должность аналитика.
Новая библиотека для машинного обучения на Java
Статья, которая расскажет о преимуществах и недостатках нового фреймворка машинного обучения с открытым исходным кодом для языка программирования Java под названием Datumbox.
Ученые из MIT могут предсказать стоимость биткоина
Статья о группе ученых из MIT, построивших предсказательную модель на основе регрессии для предсказания краткосрочных колебаний курса биткоина, которая позволила им удвоить свои вложения в течение двух месяцев.
Введение в In-Memory Computing (часть 4)
Продолжение серии статей по теме In-Memory Computing от портала insideBIGDATA. В данном случае речь пойдет об измерении производительности In-Memory Computing.
Введение в In-Memory Computing (часть 5)
Пятая и последняя часть серии статей по теме In-Memory Computing от портала insideBIGDATA. В данном случае речь пойдет о продукте GridGain Data Fabric.
SQL или NoSQL?
Еще одна небольшая статья, в которой приведены размышления автора по поводу такого популярного сейчас вопроса, как выбор технологии для хранилища данных.
Информационный поиск с помощью Apache Lucene и Tika (часть 1)
Первая часть серии статей, которая посвящена теме информационного поиска с помощью Apache Lucene и библиотеки Tika.
Информационный поиск с помощью Apache Lucene и Tika (часть 1)
Вторая часть серии статей, которая посвящена теме информационного поиска с помощью Apache Lucene и библиотеки Tika.
Информационный поиск с помощью Apache Lucene и Tika (часть 1)
Третья часть серии статей, которая посвящена теме информационного поиска с помощью Apache Lucene и библиотеки Tika.
15 неустаревающих статей по Data Science
Список из 15 статей от портала DataScienceCentral, которые были опубликованы 1-2 года назад, но до сих пор не потеряли своей популярности и актуальности.

Теория и алгоритмы машинного обучения, примеры кода

Закон Бенфорда и распределения под него попадающие
Марковские случайные поля
Как осваивать алгоритмы машинного обучения
5 отличных советов от автора блога MachineLearningMastery о том, как правильно подходить к вопросу изучения различных алгоритмов машинного обучения.
Нелинейная регрессия
Достаточно простое описание понятия нелинейной регрессии.
Первый взгляд на Distributed R
Небольшая заметка об очень интересном проекте от HP Labs под названием Distributed R.
Как MKL позволяет повысить скорость работы Revolution R Open
В прошлом обзоре была ссылка на анонс о Revolution R Open, а в данной статье речь уже пойдет о деталях реализации данной версии языка программирования R, а именно об ускорении работы некоторых операций с помощью Intel Math Kernel Library (MKL).
Анализ текста с помощью RapidMiner (часть 1)
Первая часть серии статей, посвященной анализу текста с помощью продукта RapidMiner.
Анализ текста с помощью RapidMiner (часть 2)
Вторая часть серии статей, посвященной анализу текста с помощью продукта RapidMiner.
Введение в нейронные сети (часть 2)
Достаточно простое описание работы нейронных сетей с блога Analytics Vidhya.

Соревнования по машинному обучению

Что такое Data-хакатон?
Интересное видео о data-хакатоне, проведенном в середине сентября под эгидой MIT.
Как выбрать модель для финальной оценки в соревновании на Kaggle
Очень полезная статья от одного из участников соревнований по машинному обучению, о том как правильно выбирать модель для финальной оценки в соревновании на Kaggle.
Советы по выбору модели в соревнованиях по машинному обучению
Продолжение обсуждения предыдущей темы о выборе финальной модели в соревнованиях по машинному обучению, в данном случае это взгляд автора популярного блога MachineLearningMastery на этот интересный вопрос.

Онлайн-курсы, обучающие материалы и литература

Онлайн-курс «Визуализация данных. Основы»
Новые курсы по Big Data от MIT на edX
Какое-то время назад на сайте MIT появилась публикация об интересной инициативе MIT на edX, а именно о запуске MIT Professional Education первой сессии курса «Tackling the Challenges of Big Data» на edX, которая будет доступна всем желающим.
3 отличных бесплатных книги по теме Data Science
Набор из трех книг по теме Data Science с небольшим описанием каждой, которые можно получить бесплатно.
Книга «Data Fluency»
Обзор новой любопытной книги «Data Fluency» от авторов.
Книги «Foundations of Signal Processing» и «Fourier and Wavelet Signal Processing»
Короткая заметка об интересных книгах «Foundations of Signal Processing» и «Fourier and Wavelet Signal Processing» от автора популярного блога Nuit Blanche.

Видеоматериалы

Масштабирование алгоритмов нечеткого поиска
Интересный доклад от Ken Kugler (President, Scale Unlimited) с конференции Cassandra Summit 2014 на тему масштабирования функциональности Fuzzy Matching на примере сравнения степени сходства данных клиентов в банковской сфере с использованием Apache Cassandra.
Использование Apache Spark для работы с данными
В данном посте представлен набор видеоматериалов, которые посвящены Apache Spark.

Data engineering

Microsoft DocumentDB: статья первая, введение
Microsoft DocumentDB: статья вторая, ресурсы и концепции
Kylin от eBay
Интересный продукт с открытым исходным кодом от eBay под названием Kylin — Distributed Analytics Engine с SQL-интерфейсов и OLAP на базе Hadoop.
Hadoop в корпоративном секторе
Интересная инфографика об использовании Apache Hadoop в корпоративном секторе.
Нагрузочное тестирование Apache Kafka на AWS
Интересная статья, в которой приведены результаты проведенного нагрузочного тестирования Apache Kafka на AWS.
Ловушки шардирования (часть 2)
Вторая часть серии статей о тонкостях использования шардинга в популярном NoSQL-хранилище MongoDB.
Ловушки шардирования (часть 3)
Третья часть серии статей о тонкостях использования шардинга в популярном NoSQL-хранилище MongoDB.

Обзоры

Еженедельный дайджест от DataScienceCentral
Регулярный еженедельный дайджест статей по анализу данных от портала DataScienceCentral.
Лучшие материалы за неделю (12 — 18 октября)
Лучшие материалы за неделю по теме анализа данных от портала KDnuggets.
Новости Data Mining
Небольшой список интересных ресурсов по теме Data Mining от 8 октября.
Наиболее интересные материалы от Freakonometrics №177
Сборник наиболее интересных материалов от популярного портала Freakonometrics.
Наиболее интересные материалы от Freakonometrics №176
Сборник наиболее интересных материалов от популярного портала Freakonometrics.
Наиболее интересные материалы от Freakonometrics №175
Сборник наиболее интересных материалов от популярного портала Freakonometrics.
Наиболее интересные материалы по High Scalability
Обзор наиболее интересных материалов по теме HighScalability от популярного портала High Scalability.
Лучшие материалы: NoSQL Zone (17 — 24 октября)
Сборник лучших материалов от популярного портала DZone по теме NoSQL.