Главная

Рубрика «apache hadoop»

Найдена новая версия программы. Устанавливаем?

2017-07-24 в 10:55, admin, рубрики: apache hadoop, apache tomcat, cisco vpn, intellij idea, Исследования и прогнозы в IT, метки: apache tomcat

Пути «романтики потребления” новых версий программного обеспечения у всех свои, но финал один – “Если работает, не трогай!”…
Читать полностью »

Cisco OpenSOC — open source решение для создания собственного центра мониторинга киберугроз

2016-09-15 в 22:44, admin, рубрики: Apache, apache hadoop, apache storm, Cisco, open source, opensoc, response, SoC, Блог компании Cisco, метки: opensoc

Как часто бывает, сначала ты ищешь решение на рынке и, не найдя его, делаешь самостоятельно и под себя. А потом получается настолько хорошо, что ты отдаешь это другим. Так было и с OpenSOC, open source решением для управления большими объемами данных в области кибербезопасности, которое было разработано в Cisco для своих собственных нужд, а потом было выложено на GitHub для всеобщего доступа.

Архитектура Cisco OpenSOC
Читать полностью »

Укрощаем слона или что такое HUE

2016-05-10 в 12:46, admin, рубрики: Apache, apache hadoop, big data, cloudera, java

Пост будет о том, как сделать работу на Хадупе немного комфортнее.

Укрощаем слона или что такое HUE - 1

В данной статье я хочу рассмотреть один из компонентов экосистемы Hadoop – HUE. Произносим правильно «Хьюи» или «Эйч Ю И», но не другими, созвучными с широко известным русским словом, вариантами.
Читать полностью »

Производительность Apache Parquet

2016-04-26 в 23:47, admin, рубрики: apache hadoop, Apache Spark, avro, big data, csv, data mining, file format, parquet, performance tests, scala, кто читает теги?, сжатие данных, хранение данных

Плохой пример хорошего теста

Примечание переводчика:
Изначально статья задумывалась как вольный перевод текста Дона Дрейка (@dondrake) для Cloudera Engineering Blog об опыте сравнения Apache Avro и Apache Parquet при использовании Apache Spark. Однако в процессе перевода я углубился в детали и нашел в тестах массу спорных моментов. Я добавил к статье подзаголовок, а текст снабдил комментариями со злорадным указанием неточностей.

В последнее время в курилках часто возникали дискуссии на тему сравнения производительности различных форматов хранения данных в Apache Hadoop — включая CSV, JSON, Apache Avro и Apache Parquet. Большинство участников сразу отметают текстовые форматы как очевидных аутсайдеров, оставляя главную интригу состязанию между Avro и Parquet.

Господствующие мнения представляли собой неподтвержденные слухи о том, что один формат выглядит "лучше" при работе со всем датасетом, а второй "лучше" справляется с запросами к подмножеству столбцов.

Как любой уважающий себя инженер, я подумал, что было бы неплохо провести полноценные performance-тесты, чтобы наконец проверить, на чьей стороне правда. Результат сравнения — под катом.

Apache Parquet Logo Читать полностью »

Intel Distribution for Apache Hadoop: чтобы «большим данным» было комфортно

2013-03-15 в 9:30, admin, рубрики: apache hadoop, big data, Блог компании Intel, Облачные вычисления, метки: apache hadoop

Intel Distribution for Apache Hadoop: чтобы «большим данным» было комфортно
Хабражителям, интересующимся «большими данными», наверное, не имеет смысла рассказывать о проекте Apache Hadoop. В последнее время этот фреймворк стал особенным популярным и часто упоминаемым на Хабре – так, совсем недавно специалисты Mail.ru рассказали о миграции своей поисковой машины на Hadoop.
А как сделать хорошую программную систему еще лучше? Например, добавить в нее аппаратные компоненты. Именно таким путем пошла компания Intel, выпустив Intel Distribution for Apache Hadoop – «локализацию» Hadoop под платформу Intel Xeon, снабженную многими полезными функциями для облегчения ее управления и эксплуатации.
Читать полностью »

Анализ данных Twitter в облаке с помощью Apache Hadoop и Hive

2012-09-26 в 9:44, admin, рубрики: apache hadoop, big data, Excel, open source, twitter, windows azure, Блог компании Microsoft, Облачные вычисления, облачные сервисы

В данном руководстве описаны процедуры запроса, изучения и анализа данных Twitter с помощью служб на базе Apache Hadoop для Windows Azure, а также Hive-запрос в Excel. Социальные сети — это главный источник больших данных. Поэтому общедоступные API таких социальных медиа, как Twitter, служат источником полезной информации и помогают лучше понять сетевые тренды.

Руководство состоит из следующих разделов.

Поиск, загрузка, установка и использование Microsoft Analytics для Twitter
Получение фидов Twitter с помощью cURL и Twitter Streaming API
Запрос и настройка нового Hadoop на кластере Windows Azure
Обработка данных Twitter с помощью Hive на Hadoop в кластере Windows
Настройка Hive ODBC и панели Hive в Excel для получения данных Hive

Читать полностью »

Стоит ли платить за Apache Hadoop?

2012-09-07 в 12:42, admin, рубрики: apache hadoop, big data, data mining, java, метки: apache hadoop

Стоит ли платить за Apache Hadoop?

В 2010 году Apache Hadoop, MapReduce и ассоциированные с ними технологии привели к распространению нового явления в сфере информационных технологий, названного «большими данными» или «Big Data». Понимание того, что из себя представляет платформа Apache Hadoop, зачем она нужна и для чего её можно использовать потихоньку проникает в умы специалистов по всему миру. Зарожденный, как идея одного человека, и быстро выросший до промышленных масштабов, Apache Hadoop стал одной из самых широко обсуждаемых платформ для распределенных вычислений, а также платформой для хранения неструктурированной или слабо структурированной информации. В этой статье я хотел бы подробнее остановиться на самой платформе Apache Hadoop и рассмотреть коммерческие реализации, предоставляемые сторонними компаниями, и их отличия от свободно распространяемой версии Apache Hadoop.Читать полностью »

Публикации RSS | Комментарии RSS

https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js

Информация

Обсуждаемое

Рекомендуем

Рубрика «apache hadoop»

Найдена новая версия программы. Устанавливаем?