Рубрика «Hadoop» - 5

В качестве приветствия

2017-06-05 в 14:39, admin, рубрики: agile, BigData, confluence, Hadoop, IBM, java, jira, oracle, scrum, Блог компании Райффайзенбанк, финансы в IT, Хакатоны

Всем привет.

С сегодняшнего дня Райффайзенбанк начинает свое вещание на Хабрахабр. За последние 2-3 года мы многое сделали с точки зрения внутренних преобразований, запуска и реализации ИТ-проектов. И нам есть, о чем рассказать.
Читать полностью »

Инфраструктура Twitter: масштаб

2017-03-30 в 13:03, admin, рубрики: BGP, Blobstore, cassandra, Clos, FlockDB, Gizzard, graph, Hadoop, Haplo, Manhattan, memcache, mesos, MPLS, mysql, Nighthawk, puppet, redis, RSVP, Snowflake, twitter, twitter api, высокая производительность, инфраструктура, Проектирование и рефакторинг, Системы обмена сообщениями

Обзор парка Twitter

Twitter пришёл из эпохи, когда в дата-центрах было принято устанавливать оборудование от специализированных производителей. С тех пор мы непрерывно разрабатывали и обновляли серверный парк, стремясь извлечь пользу из последних открытых технологических стандартов, а также повысить эффективность работы оборудования, чтобы обеспечить наилучший опыт для пользователей.

Наше текущее распределение оборудования показано ниже:

Читать полностью »

Распределённый xargs, или Исполнение гетерогенных приложений на Hadoop-кластере

2017-02-15 в 9:55, admin, рубрики: big data, Hadoop, java, open source, spark, xargs, Блог компании Badoo, Программирование

enter image description here

Привет! Меня зовут Александр Крашенинников, я руковожу DataTeam в Badoo. Сегодня я поделюсь с вами простой и элегантной утилитой для распределённого выполнения команд в стиле xargs, а заодно расскажу историю её возникновения.

Наш отдел BI работает с объёмами данных, для обработки которых требуются ресурсы более чем одной машины. В наших процессах ETL (Extract Transform Load) в ход идут привычные миру Big Data распределённые системы Hadoop и Spark в связке с OLAP-базой Exasol. Использование этих инструментов позволяет нам горизонтально масштабироваться как по дисковому пространству, так и по CPU/ RAM.

Безусловно, в наших процессах ETL существуют не только тяжеловесные задачи на кластере, но и машинерия попроще. Широкий пласт задач решается одиночными PHP/ Python-скриптами без привлечения гигабайтов оперативной памяти и дюжины жёстких дисков. Но в один прекрасный день нам потребовалось адаптировать одну CPU-bound задачу для выполнения в 250 параллельных инстансов. Настала пора маленькому Python-скрипту покинуть пределы родного хоста и устремиться в большой кластер!

Читать полностью »

С чего начать внедрение Hadoop в компании

2017-01-09 в 0:44, admin, рубрики: big data, data mining, Hadoop, highload junior, алексей еремихин, Блог компании Конференции Олега Бунина (Онтико), высокая производительность, Проектирование и рефакторинг, метки: алексей еремихин

С чего начать внедрение Hadoop в компании - 1

Алексей Еремихин ( alexxz )

Я хочу навести порядок в головах, чтобы люди поняли, что такое Hadoop, и что такое продукты вокруг Hadoop, а также для чего не только Hadoop, но и продукты вокруг него можно использовать на примерах. Именно поэтому тема — «С чего начать внедрение Hadoop в компании?»

Структура доклада следующая. Я расскажу:

какие задачи я предлагаю решать с помощью Hadoop на начальных этапах,
что такое Hadoop,
как он устроен внутри,
что есть вокруг него,
как Hadoop применяется в Badoo в рамках решения задач с первого пункта.

Читать полностью »

Hadoop From Scratch

2017-01-06 в 18:07, admin, рубрики: big data, Hadoop

Hadoop From Scratch - 1 Эта статья послужит практическим руководством по сборке, начальной настройке и тестированию работоспособности Hadoop начинающим администраторам. Мы разберем, как собрать Hadoop из исходников, сконфигурировать, запустить и проверить, что все работает, как надо. В статье вы не найдете теоретической части. Если вы раньше не сталкивались с Hadoop, не знаете из каких частей он состоит и как они взаимодействуют, вот пара полезных ссылок на официальную документацию:

hadoop.apache.org/docs/r2.7.3/hadoop-project-dist/hadoop-hdfs/HdfsDesign.html
hadoop.apache.org/docs/r2.7.3/hadoop-yarn/hadoop-yarn-site/YARN.html

Почему просто не использовать готовый дистрибутив?

— Обучение. Похожие статьи часто начинаются с рекомендаций скачать образ виртуальной машины с дистрибутивом Cloudera или HortonWorks. Как правило, дистрибутив – сложная экосистема с уймой компонент. Новичку будет непросто разобраться, где что, и как это все взаимодействует. Начиная from scratch мы немного уменьшаем порог вхождения, так как имеем возможность рассматривать компоненты по одной.

— Функциональные тесты и бенчмарки. Есть небольшой лаг между выходом новой версии продукта, и моментом, когда она появляется в дистрибутиве. Если вам необходимо протестировать новые функции только что появившейся версии, Вы не сможете использовать готовый дистрибутив. Также будет сложно сравнить производительность двух версий одного и того же софта, так как в готовых дистрибутивах как правило отсутствует возможность обновить версию какого-либо одного компонента, оставив все остальное как есть.

— Just for fun.
Читать полностью »

Как писать меньше кода для MR, или Зачем миру ещё один язык запросов? История Yandex Query Language

2016-10-12 в 14:44, admin, рубрики: big data, Hadoop, MapReduce, netty, realtime mapreduce, s-expressions, spark, sql, Алгоритмы, Анализ и проектирование систем, Блог компании Яндекс, инфраструктура, Промышленное программирование, языки запросов

Исторически во многих уголках Яндекса разрабатывались свои системы хранения и обработки больших объемов данных — с учетом специфики конкретных проектов. При такой разработке в приоритете всегда была эффективность, масштабируемость и надежность, поэтому на удобные интерфейсы для использования подобных систем времени, как правило, не оставалось. Полтора года назад разработку крупных инфраструктурных компонентов выделили из продуктовых команд в отдельное направление. Цели были следующими: начать двигаться быстрее, уменьшить дублирование среди схожих систем и снизить порог входа новых внутренних пользователей.

Очень скоро мы поняли, что тут мог бы здорово помочь общий высокоуровневый язык запросов, который бы предоставлял единообразный доступ к уже имеющимся системам, а также избавлял от необходимости заново реализовывать типовые абстракции на низкоуровневых примитивах, принятых в этих системах. Так началась разработка Yandex Query Language (YQL) — универсального декларативного языка запросов к системам хранения и обработки данных. (Сразу скажу, что мы знаем, что это уже не первая штука в мире, которая называется YQL, но мы решили, что это делу не мешает, и оставили название.)

В преддверии нашей встречи, которая будет посвящена инфраструктуре Яндекса, мы решили рассказать о YQL читателям Хабрахабра.

Читать полностью »

Сравнение аналитических in-memory баз данных

2016-10-11 в 7:57, admin, рубрики: big data, clickhouse, dwh, exasol, greenplum, Hadoop, hana, impala, MemSQL, mysql, postgresql, sapbo, sql, Блог компании Тинькофф Банк

Сравнение аналитических in-memory баз данных - 1

В последние два месяца лета в управлении хранилищ данных (Data Warehouse, DWH) Тинькофф Банка появилась новая тема для кухонных споров.
Всё это время мы проводили масштабное тестирование нескольких in-memory СУБД. Любой разговор с администраторами DWH в это время можно было начать с фразы «Ну как, кто лидирует?», и не прогадать. В ответ люди получали длинную и очень эмоциональную тираду о сложностях тестирования, премудростях общения с доселе неизвестными вендорами и недостатках отдельных испытуемых.
Подробности, результаты и некое подобие выводов из тестирования — под катом.
Читать полностью »

Когда старый MapReduce лучше нового Tez

2016-10-10 в 13:53, admin, рубрики: big data, Hadoop, MapReduce, tez, Блог компании Mail.Ru Group, высокая производительность, метки: tez

Когда старый MapReduce лучше нового Tez - 1

Как всем известно, количество данных в мире растёт, собирать и обрабатывать поток информации становится всё сложнее. Для этого служит популярное решение Hadoop c идеей упрощения методов разработки и отладки многопоточных приложений, использующее парадигму MapReduce. Эта парадигма не всегда удачно справляется со своими задачами, и через некоторое время появляется «надстройка» над Hadoop: Apache Tez с парадигмой DAG. Под появление Tez подстраивается и HDFS-SQL-обработчик Hive. Но не всегда новое лучше старого. В большинстве случаев HiveOnTez значительно быстрее HiveOnMapReduce, но некоторые подводные камни могут сильно повлиять на производительность вашего решения. Здесь я хочу рассказать, с какими нюансами столкнулся. Надеюсь, это поможет вам ускорить ETL или другой Hadoop UseCase.
Читать полностью »

Видеозапись вебинара «Инструменты для работы Data Scientist»

2016-09-29 в 10:24, admin, рубрики: algorithms, big data, data mining, data science, deep learning, FlyElephant, Hadoop, HPC, spark, Блог компании FlyElephant, вебинар, высокая производительность, машинное обучение, Облачные вычисления

Видеозапись вебинара «Инструменты для работы Data Scientist» - 1

Вчера наша команда провела вебинар на тему «Инструменты для работы Data Scientist». В его рамках мы рассмотрели, кто такой data scientist и какими инструментами он пользуется. Поговорили о платформе FlyElephant и чем она может быть полезной для работы data scientist’а.
Читать полностью »

Про HPE Synergy

2016-08-22 в 11:04, admin, рубрики: BigData, Hadoop, HPE, synergy, ит-инфраструктура, Серверная оптимизация, хранение данных

Изначально я планировал написать одну небольшую статью, но, по мере погружения в тему понял, что скорее всего понадобится серия из 5-6 статей, чтобы раскрыть суть достаточно полно.

О чем пойдет речь? О продукте компании Hewlett-Packard Enterprise (дальше – просто HPE) – Synergy.
Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «Hadoop» - 5

В качестве приветствия

Инфраструктура Twitter: масштаб

Обзор парка Twitter

Распределённый xargs, или Исполнение гетерогенных приложений на Hadoop-кластере

С чего начать внедрение Hadoop в компании

Алексей Еремихин ( alexxz )

Hadoop From Scratch

Как писать меньше кода для MR, или Зачем миру ещё один язык запросов? История Yandex Query Language

Сравнение аналитических in-memory баз данных

Когда старый MapReduce лучше нового Tez

Видеозапись вебинара «Инструменты для работы Data Scientist»

Про HPE Synergy

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «Hadoop» - 5

Обзор парка Twitter

Алексей Еремихин ( alexxz )

Новости

Актуальные темы

Архив