Рубрика «Hadoop» - 6

Flume — управляем потоками данных. Часть 3

2016-08-12 в 12:03, admin, рубрики: big data, flume, Hadoop, Анализ и проектирование систем, Блог компании DCA (Data-Centric Alliance)

Привет! После долгой паузы мы наконец-то возвращаемся к разбору Apache Flume. В предыдущих статьях мы познакомились с Flume (Часть 1) и разобрались, как настраивать основные его компоненты (Часть 2). В этой, заключительной, части цикла мы рассмотрим следующие вопросы:

Как настроить мониторинг компонентов узла.
Как написать собственную реализацию компонента Flume.
Проектирование полноценной транспортной сети.

Flume — управляем потоками данных. Часть 3 - 1

Читать полностью »

Strata + Hadoop 2016 review

2016-07-22 в 7:43, admin, рубрики: Apache Spark, big data, Business Intelligence, Hadoop, review, Блог компании Badoo, высокая производительность, конференции, Программирование

Strata + Hadoop 2016 review - 1

В последний год в Badoo стали очень активно использовать связку Hadoop + Spark и построили свою систему сбора и обработки десятков миллионов метрик при помощи Spark Streaming.
Для того чтобы расширить наши знания и познакомиться с последними новинками в этой сфере, в конце мая этого года разработчики отдела BI (Business Intelligence) отправились в Лондон, где проходила очередная конференция серии Hadoop + Strata, посвященная широкому спектру вопросов в области машинного обучения, обработки и анализа больших данных.
Читать полностью »

Курс молодого бойца для Spark-Scala

2016-06-07 в 13:50, admin, рубрики: big data, data mining, data science, Hadoop, scala, spark, Блог компании Retail Rocket, машинное обучение

Команда Retail Rocket использует узкоспециализированный стек технологий Hadoop + Spark для вычислительного кластера, о котором мы уже писали обзорный материал в самом первом посте нашего инженерного блога на Хабре.

Готовых специалистов для таких технологий найти довольно сложно, особенно, если учесть, что программируем мы исключительно на Scala. Поэтому я стараюсь найти не готовых специалистов, а людей, имеющих минимальный опыт работы, но обладающих большим потенциалом. Мы берем даже людей с частичной занятостью, чтобы было удобно совмещать учебу и работу, если кандидат — студент последних курсов.

Читать полностью »

Big Data от A до Я. Часть 5.1: Hive — SQL-движок над MapReduce

2016-05-11 в 9:40, admin, рубрики: Apache Hive, big data, Hadoop, Hive, MapReduce, sql, Блог компании DCA (Data-Centric Alliance)

Привет! Мы продолжаем наш цикл статьей, посвященный инструментам и методам анализа данных. Следующие 2 статьи нашего цикла будут посвящены Hive — инструменту для любителей SQL. В предыдущих статьях мы рассматривали парадигму MapReduce, и приемы и стратегии работы с ней. Возможно многим читателям некоторые решения задач при помощи MapReduce показались несколько громоздкими. Действительно, спустя почти 50 лет после изобретения SQL, кажется довольно странным писать больше одной строчки кода для решения задач вроде «посчитай мне сумму транзакций в разбивке по регионам».

С другой стороны, классические СУБД, такие как Postgres, MySQL или Oracle не имеют такой гибкости в масштабировании при обработке больших массивов данных и при достижении объема большего дальнейшая поддержка становится большой головоной болью.

Собственно, Apache Hive был придуман для того чтобы объеденить два этих достоинства:

Масштабируемость MapReduce
Удобство использования SQL для выборок из данных.

Под катом мы расскажем каким образом это достигается, каким образом начать работать с Hive, и какие есть ограничения на его применения.
Читать полностью »

Flume — управляем потоками данных. Часть 2

2016-04-21 в 9:20, admin, рубрики: big data, flume, Hadoop, Анализ и проектирование систем, Блог компании DCA (Data-Centric Alliance), разработка, хранение данных

Привет! Мы продолжаем цикл статей, посвященный Apache Flume. В предыдущей части мы поверхностно рассмотрели этот инструмент, разобрались с тем, как его настраивать и запускать. В этот раз статья будет посвящена ключевым компонентам Flume, с помощью которых не страшно манипулировать уже настоящими данными.

Flume — управляем потоками данных. Часть 2 - 1

Читать полностью »

Сравнение производительности Hadoop на DAS и Isilon

2016-04-19 в 6:53, admin, рубрики: DAS, Hadoop, Isilon, Блог компании EMC², высокая производительность, ит-инфраструктура, хранение данных, метки: isilon

Сравнение производительности Hadoop на DAS и Isilon - 1

Я уже писал о том, с помощью Isilon можно создавать озёра данных, способные одновременно обслуживать по несколько кластеров с разными версиями Hadoop. В той публикации я упомянул, что во многих случаях системы на Isilon работают быстрее, чем традиционные кластеры, использующие DAS-хранилища. Позднее это подтвердили и в IDC, прогнав на соответствующих кластерах различные Hadoop-бенчмарки. И на этот раз я хочу рассмотреть причины более высокой производительности Isilon-кластеров, а также как она меняется в зависимости от распределения данных и балансировки внутри кластеров.
Читать полностью »

Data Lake – от теории к практике. Методы интеграции данных Hadoop и корпоративного DWH

2016-04-07 в 16:13, admin, рубрики: big data, dwh, gphdfs, greenplum, Hadoop, hdfs, Hive, informatica, informatica bde, sas, sql, Блог компании Тинькофф Банк, хранение данных

В этой статье я хочу рассказать про важную задачу, о которой нужно думать и нужно уметь решать, если в аналитической платформе для работы с данными появляется такой важный компонент как Hadoop — задача интеграции данных Hadoop и данных корпоративного DWH. В Data Lake в Тинькофф Банке мы научились эффективно решать эту задачу и дальше в статье я расскажу, как мы это сделали.

Data Lake – от теории к практике. Методы интеграции данных Hadoop и корпоративного DWH - 1

Данная статья является продолжением цикла статей про Data Lake в Тинькофф Банке (предыдущая статья Data Lake – от теории к практике. Сказ про то, как мы строим ETL на Hadoop).

Читать полностью »

21 популярная и 21 непопулярная технология в IT

2016-03-31 в 13:14, admin, рубрики: android, big data, cpu, css, docker, flash, geekbrains, github, gpu, Hadoop, iaas, iOS, javascript, node.js, paas, php, ruby, spark, Блог компании GeekBrains, ИИ, препроцессоры, Программирование, Сетевые технологии, технологии

21 популярная и 21 непопулярная технология в IT - 1

Популярно или не очень? Посмотрим, что приходит и уходит в мире разработки.
Программисты любят иронизировать над миром моды, где ветра трендов дуют туда-сюда. Юбки становятся длиннее и короче, цвета приходят и уходят, галстуки становятся шире, потом уже. Но в мире технологий строгость, наука, математика и точность господствуют над причудой.
Это не значит, что программирование — профессия, лишенная тенденций. Разница в том, что тенденции программирования управляются большей эффективностью, увеличенной вариативностью и простотой использования. Новые технологии по большей части затмевают предыдущие. Это меритократия, а не власть прихоти.
Дальше список популярного и не очень популярного среди программистов сегодня. Не все согласятся с этим списком. Это то, что делает программирование бесконечно увлекательной профессией: быстрые изменения, жаркие дебаты и внезапные возвращения.Читать полностью »

Flume — управляем потоками данных. Часть 1

2016-03-29 в 15:44, admin, рубрики: big data, flume, Hadoop, Анализ и проектирование систем, Блог компании DCA (Data-Centric Alliance), разработка, хранение данных

Привет! В этом цикле статей я планирую рассказать о том, как можно организовать сбор и передачу данных с помощью одного из инструментов Hadoop — Apache Flume.

Flume — управляем потоками данных. Часть 1 - 1

Читать полностью »

Визуализация инструментов обработки данных с Github

2016-03-29 в 9:31, admin, рубрики: big data, github, Hadoop, mysql, nosql, postgres, postgresql, spark, sql, visualization

В своей работе вы используете MySQL, Postgres или Mongo, а может даже Apache Spark? Хотите знать с чего начинались эти проекты и куда они движутся сейчас? В этой статье я представлю соответствующую визуализацию

Визуализация инструментов обработки данных с Github - 1

Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «Hadoop» - 6

Flume — управляем потоками данных. Часть 3

Strata + Hadoop 2016 review

Курс молодого бойца для Spark-Scala

Big Data от A до Я. Часть 5.1: Hive — SQL-движок над MapReduce

Flume — управляем потоками данных. Часть 2

Сравнение производительности Hadoop на DAS и Isilon

Data Lake – от теории к практике. Методы интеграции данных Hadoop и корпоративного DWH

21 популярная и 21 непопулярная технология в IT

Flume — управляем потоками данных. Часть 1

Визуализация инструментов обработки данных с Github

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «Hadoop» - 6

Новости

Актуальные темы

Архив