Представляю вашему вниманию первый выпуск обзора наиболее интересных материалов по высокой производительности. Когда я готовил очередной выпуск обзора наиболее интересных материалов по анализу данных и машинному обучению, то понял, что выделяется вполне себе самодостаточная тематика собранных материалов. Надеюсь, что данный тип обзоров будет тоже полезен и интересен. Буду стараться расширять список ресурсов за которыми слежу при подготовке данных обзоров.
Материалы по высокой производительности
- Использование Apache Samza в LinkedIn
Статья с блога LinkedIn, о том как они используют Apache Samza в своем приложении и как данный продукт помог решить проблемы при работе с данными. - Кто и как использует Hadoop
Интересная статья о текущем состоянии дел в экосистеме Hadoop: кто и как её пользуется, а также о преспективах развития. - Ближайшие встречи по Data Science в Москве
В ближайшее время намечается сразу несколько интересных митапов, поэтому я решил опубликовать небольшой список ближайших интересных встреч по теме анализа данных и высокой производительности в Москве. - Новый тип агрегации в Elasticsearch
Статья с блога Elasticsearch о новой функции агрегации top_hits, который добавился к большому списку таковых функций в версии 1.3.0. - Новая версия Apache Tez
Небольшая статья с блога компании Hortonworks о возможностях новой версии Apache Tez 0.5. - SQL-запросы к Hadoop с помощью Apache Drill
Небольшая статья про Apache Drill, который позволяет работать с Hadoop через синтаксис SQL-запросов. - Исследование влияния многопользовательской нагрузки на Cloudera Impala
Статья с блога компании Cloudera, в которой приведены результаты интересного исследования, проведенного на продукте Cloudera Impala при различных профилях нагрузки. - 10 лучших презентаций с SlideShare по Data Science и Big Data
Статья со списком из 10 презентаций с сайта SlideShare по темам Data Science и Big Data с наибольшим количеством просмотров. - Использование дискового пространства в MongoDB
Небольшая статья, которая поможет лучше понять каким образом NoSQL база данных MongoDB использует дисковое пространство. - Слабая изолированность — серьезная проблема
Интересные размышления об уровнях изолированности баз данных. - 10 уроков от Microsoft Azure
Очень интересный пост, который дает 10 полезных рекомендаций для правильного масштабирования приложения при использовании облака Microsoft Azure, основанных на собственном опыте. - Использование Redis в Twitter
Интересное видео, в котором Yao Yu расскажет об использовании Redis в компании Twiiter для масштабирования. А в статье по ссылке можно будет найти отличный материал по мотивам данного выступления. - KDD 2104: Google KV и Topic Modeling
Авторы блога компании URX делятся своими впечатлениями от недавно прошедшей в Нью-Йорке конференции KDD 2014, а именно рассказывают о системе под названием Google Knowledge Vault, которая активно используется в Google для улучшения качества поиска, а также они расскажут о тематическом моделировании (Topic Modeling). - Почему в Loggly выбрали AWS Route 53, а не ELB
Интересная статья с блога компании Loggly, о том почему они выбрали Amazon Route 53 DNS, а не AWS Elastic Load Balancing (ELB). - FireBox: строительный блок для Warehouse-Scale Computers в 2020 году
Видео с конференции FAST'14 под названием «FireBox: A Hardware Building Block for 2020 Warehouse-Scale Computers», в котором Krste Asanović (University of California, Berkeley) представляет свой взгляд на будущее развития Warehouse Scale Computers (WSC). - О кэшировании на @Scale
Авторы блога компании OpenDNS делятся впечатлениями от конференции @Scale, организованной компанией Facebook, и рассказывают о различных современных подходах к кэшированию, которые были описаны на конференции. - Facebook полностью отключил один дата-центр для проверки отказоустойчивости
Jay Parikh из Facebook на конференции @Scale, прошедшей в Сан-Франциско, рассказал про интересный эксперимент, проведенный в Facebook, а именно о полном отключении одного из дата-центров для проверки общей отказоустойчивости системы. - Анонс Apache Spark 1.1
Анонс новой версии Apache Spark 1.1 и описание основных нововведений. - Потоковая обработка данных в Apache Spark 1.1
Статья о новых возможностях потоковой обработки данных в Apache Spark 1.1 и о вариантах использования данной функциональности. - Статистические вычисления в Apache Spark 1.1
Описание расширенных возможностей статистических вычислений в Apache Spark 1.1. - Метрики Elasticsearch
Небольшая статья с блога компании Compose про метрики Elasticsearch. - Новости от Apache Software Foundation Blog
Небольшой список последних новостей от Apache Software Foundation Blog. - Еженедельный дайджест от Rackspace
Еженедельный дайджест интересных материалов от компании Rackspace. - 10 способов работы с Hadoop через SQL-запросы
10 инструментов и способов для работы с Hadoop через SQL-запросы и небольшое описание каждого. - Обзор наиболее интересных материалов по Hadoop №87
Традиционный дайджест наиболее интересных материалов по теме Hadoop за неделю от портала Hadoop Weekly. - 174 драйвера для MongoDB с открытым исходным кодом
Большой набор из 174 драйверов с открытым исходным кодом для NoSQL базы данных MongoDB для разных языков программирования. - Что нового в RavenDB 3.0
Описание возможностей новой версии популярный базы данных RavenDB. - Синхронизация MongoDB и Elasticsearch
Небольшая статья про сервис Transporter, который позволяет оперативно синхронизовать MongoDB и ElasticSearch. - Введение в HBase
Статья, содержащая видео и поясняющий материал по теме HBase — хранилища данных из экосистемы Hadoop, а также рассказывающая о ситуациях, когда стоит применять данное решение и когда не стоит. - Использование OCRFile в Cascading и Apache Crunch
Пример использования OCRFile для Cascading и Apache Crunch, которое позволяет улучшить производительность их работы. - Приглашаем на HadoopKitchen
Объявление о встрече, посвященной Hadoop, которая состоится в офисе Mail.ru. Я тоже собираюсь посетить данное мероприятие. - Как добиться успеха в Big Data
Небольшая статья с инфографикой, которая расскажет об основных факторах, которые влияют на успешность компании в области Big Data. - Vincent Granville о Big Data
Vincent Granville — автор портала DataScienceCentral, приводит свои размышления и дает определение понятия Big Data. - 5 ключевых идей для понимания Big Data
Интересный пост от портала Smart Data Collective, который рассказывает 5 ключевых моментах, которые помогут извелкать пользу из данных наиболее эффективно.
Автор: moat