Обзор наиболее интересных материалов по высокой производительности (15 — 21 сентября 2014)

2014-09-21 в 16:43, admin, рубрики: big data, high scalability digest, высокая производительность

Обзор наиболее интересных материалов по высокой производительности (15 — 21 сентября 2014)
Представляю вашему вниманию первый выпуск обзора наиболее интересных материалов по высокой производительности. Когда я готовил очередной выпуск обзора наиболее интересных материалов по анализу данных и машинному обучению, то понял, что выделяется вполне себе самодостаточная тематика собранных материалов. Надеюсь, что данный тип обзоров будет тоже полезен и интересен. Буду стараться расширять список ресурсов за которыми слежу при подготовке данных обзоров.

Материалы по высокой производительности

Использование Apache Samza в LinkedIn
Статья с блога LinkedIn, о том как они используют Apache Samza в своем приложении и как данный продукт помог решить проблемы при работе с данными.
Кто и как использует Hadoop
Интересная статья о текущем состоянии дел в экосистеме Hadoop: кто и как её пользуется, а также о преспективах развития.
Ближайшие встречи по Data Science в Москве
В ближайшее время намечается сразу несколько интересных митапов, поэтому я решил опубликовать небольшой список ближайших интересных встреч по теме анализа данных и высокой производительности в Москве.
Новый тип агрегации в Elasticsearch
Статья с блога Elasticsearch о новой функции агрегации top_hits, который добавился к большому списку таковых функций в версии 1.3.0.
Новая версия Apache Tez
Небольшая статья с блога компании Hortonworks о возможностях новой версии Apache Tez 0.5.
SQL-запросы к Hadoop с помощью Apache Drill
Небольшая статья про Apache Drill, который позволяет работать с Hadoop через синтаксис SQL-запросов.
Исследование влияния многопользовательской нагрузки на Cloudera Impala
Статья с блога компании Cloudera, в которой приведены результаты интересного исследования, проведенного на продукте Cloudera Impala при различных профилях нагрузки.
10 лучших презентаций с SlideShare по Data Science и Big Data
Статья со списком из 10 презентаций с сайта SlideShare по темам Data Science и Big Data с наибольшим количеством просмотров.
Использование дискового пространства в MongoDB
Небольшая статья, которая поможет лучше понять каким образом NoSQL база данных MongoDB использует дисковое пространство.
Слабая изолированность — серьезная проблема
Интересные размышления об уровнях изолированности баз данных.
10 уроков от Microsoft Azure
Очень интересный пост, который дает 10 полезных рекомендаций для правильного масштабирования приложения при использовании облака Microsoft Azure, основанных на собственном опыте.
Использование Redis в Twitter
Интересное видео, в котором Yao Yu расскажет об использовании Redis в компании Twiiter для масштабирования. А в статье по ссылке можно будет найти отличный материал по мотивам данного выступления.
KDD 2104: Google KV и Topic Modeling
Авторы блога компании URX делятся своими впечатлениями от недавно прошедшей в Нью-Йорке конференции KDD 2014, а именно рассказывают о системе под названием Google Knowledge Vault, которая активно используется в Google для улучшения качества поиска, а также они расскажут о тематическом моделировании (Topic Modeling).
Почему в Loggly выбрали AWS Route 53, а не ELB
Интересная статья с блога компании Loggly, о том почему они выбрали Amazon Route 53 DNS, а не AWS Elastic Load Balancing (ELB).
FireBox: строительный блок для Warehouse-Scale Computers в 2020 году
Видео с конференции FAST'14 под названием «FireBox: A Hardware Building Block for 2020 Warehouse-Scale Computers», в котором Krste Asanović (University of California, Berkeley) представляет свой взгляд на будущее развития Warehouse Scale Computers (WSC).
О кэшировании на @Scale
Авторы блога компании OpenDNS делятся впечатлениями от конференции @Scale, организованной компанией Facebook, и рассказывают о различных современных подходах к кэшированию, которые были описаны на конференции.
Facebook полностью отключил один дата-центр для проверки отказоустойчивости
Jay Parikh из Facebook на конференции @Scale, прошедшей в Сан-Франциско, рассказал про интересный эксперимент, проведенный в Facebook, а именно о полном отключении одного из дата-центров для проверки общей отказоустойчивости системы.
Анонс Apache Spark 1.1
Анонс новой версии Apache Spark 1.1 и описание основных нововведений.
Потоковая обработка данных в Apache Spark 1.1
Статья о новых возможностях потоковой обработки данных в Apache Spark 1.1 и о вариантах использования данной функциональности.
Статистические вычисления в Apache Spark 1.1
Описание расширенных возможностей статистических вычислений в Apache Spark 1.1.
Метрики Elasticsearch
Небольшая статья с блога компании Compose про метрики Elasticsearch.
Новости от Apache Software Foundation Blog
Небольшой список последних новостей от Apache Software Foundation Blog.
Еженедельный дайджест от Rackspace
Еженедельный дайджест интересных материалов от компании Rackspace.
10 способов работы с Hadoop через SQL-запросы
10 инструментов и способов для работы с Hadoop через SQL-запросы и небольшое описание каждого.
Обзор наиболее интересных материалов по Hadoop №87
Традиционный дайджест наиболее интересных материалов по теме Hadoop за неделю от портала Hadoop Weekly.
174 драйвера для MongoDB с открытым исходным кодом
Большой набор из 174 драйверов с открытым исходным кодом для NoSQL базы данных MongoDB для разных языков программирования.
Что нового в RavenDB 3.0
Описание возможностей новой версии популярный базы данных RavenDB.
Синхронизация MongoDB и Elasticsearch
Небольшая статья про сервис Transporter, который позволяет оперативно синхронизовать MongoDB и ElasticSearch.
Введение в HBase
Статья, содержащая видео и поясняющий материал по теме HBase — хранилища данных из экосистемы Hadoop, а также рассказывающая о ситуациях, когда стоит применять данное решение и когда не стоит.
Использование OCRFile в Cascading и Apache Crunch
Пример использования OCRFile для Cascading и Apache Crunch, которое позволяет улучшить производительность их работы.
Приглашаем на HadoopKitchen
Объявление о встрече, посвященной Hadoop, которая состоится в офисе Mail.ru. Я тоже собираюсь посетить данное мероприятие.
Как добиться успеха в Big Data
Небольшая статья с инфографикой, которая расскажет об основных факторах, которые влияют на успешность компании в области Big Data.
Vincent Granville о Big Data
Vincent Granville — автор портала DataScienceCentral, приводит свои размышления и дает определение понятия Big Data.
5 ключевых идей для понимания Big Data
Интересный пост от портала Smart Data Collective, который рассказывает 5 ключевых моментах, которые помогут извелкать пользу из данных наиболее эффективно.