Рубрика «dwh» - 2

Сравнение аналитических in-memory баз данных

2016-10-11 в 7:57, admin, рубрики: big data, clickhouse, dwh, exasol, greenplum, Hadoop, hana, impala, MemSQL, mysql, postgresql, sapbo, sql, Блог компании Тинькофф Банк

Сравнение аналитических in-memory баз данных - 1

В последние два месяца лета в управлении хранилищ данных (Data Warehouse, DWH) Тинькофф Банка появилась новая тема для кухонных споров.
Всё это время мы проводили масштабное тестирование нескольких in-memory СУБД. Любой разговор с администраторами DWH в это время можно было начать с фразы «Ну как, кто лидирует?», и не прогадать. В ответ люди получали длинную и очень эмоциональную тираду о сложностях тестирования, премудростях общения с доселе неизвестными вендорами и недостатках отдельных испытуемых.
Подробности, результаты и некое подобие выводов из тестирования — под катом.
Читать полностью »

Тестирование хранилищ данных

2016-06-06 в 9:29, admin, рубрики: dwh, Блог компании Тинькофф Банк, тестирование, Тестирование IT-систем, тинькофф банк, хранилища данных

Публикуется от имени IvanovAleksey.

Тестирование хранилищ данных - 1

В интернете мало информации по тестированию Data Warehouse.
Можно найти общие требования: полнота данных, качество и т.п.
Но нигде нет описания организации процесса, и какими проверками можно покрыть эти требования.
В этой статье постараюсь рассказать: как мы тестируем Хранилище данных в "Тинькофф Банк".

Читать полностью »

Data Lake – от теории к практике. Методы интеграции данных Hadoop и корпоративного DWH

2016-04-07 в 16:13, admin, рубрики: big data, dwh, gphdfs, greenplum, Hadoop, hdfs, Hive, informatica, informatica bde, sas, sql, Блог компании Тинькофф Банк, хранение данных

В этой статье я хочу рассказать про важную задачу, о которой нужно думать и нужно уметь решать, если в аналитической платформе для работы с данными появляется такой важный компонент как Hadoop — задача интеграции данных Hadoop и данных корпоративного DWH. В Data Lake в Тинькофф Банке мы научились эффективно решать эту задачу и дальше в статье я расскажу, как мы это сделали.

Data Lake – от теории к практике. Методы интеграции данных Hadoop и корпоративного DWH - 1

Данная статья является продолжением цикла статей про Data Lake в Тинькофф Банке (предыдущая статья Data Lake – от теории к практике. Сказ про то, как мы строим ETL на Hadoop).

Читать полностью »

7 ошибок ETL-разработчика

2015-12-16 в 7:04, admin, рубрики: data lineage, data warehouse, dwh, etl, modelling, oracle, sql, Администрирование баз данных, хранение данных

Проекты хранилищ данных уже давно являются частью IT-инфраструктуры большинства крупных предприятий. Процессы ETL являются частью этих проектов, однако разработчики иногда совершают одни и те же ошибки при проектировании и сопровождении этих процессов. Некоторые из этих ошибок описаны в этом посте.
Читать полностью »

Проект Dual ETL или как мы строили Disaster Recovery для Greenplum

2015-01-28 в 17:05, admin, рубрики: big data, dba, disaster recovery, dwh, etl, graphana, graphite, greenplum, sas, sql, Администрирование баз данных, Блог компании Тинькофф Кредитные Системы, хранение данных

В этой статье я хочу рассказать про ещё один этап развития DWH в Тинькофф Банке.

Ни для кого не секрет, что требования к наличию Disaster Recovery (далее DR) в современных бизнес информационных системах относятся к категории «must have». Так, чуть более года назад, команде, занимающейся развитием DWH в банке, была поставлена задача реализовать DR для DWH, на котором построены как offline, так и online процессы банка.

Проект Dual ETL или как мы строили Disaster Recovery для Greenplum - 1

Читать полностью »

Oracle vs Teradata vs Hadoop

2014-09-03 в 8:33, admin, рубрики: big data, dwh, Hadoop, oracle, teradata, хранение данных, метки: dwh, Hadoop, oracle, teradata

Эта статья нацелена на Большие и Очень большие Хранилища Данных, но для ровной картины в классификации немного упомянуты и маленькие.

Статья написана для специалистов, которые ценят главный критерий работы с базами данными — скорость. Речь пойдет о системах, нацеленных на грубый full scan (ораклисты уже напряглись, а терадатовцы радуются).

Давайте рассмотрим, под какой объем данных и работ лучше всего подходит Oracle или Hadoop/NoSQL.
Читать полностью »

HP Vertica, проектирование хранилища данных, больших данных

2014-06-23 в 14:44, admin, рубрики: big data, dwh, sql, Vertica, Администрирование баз данных, метки: dwh, Vertica

О чем статья

Незаметно пролетел год, как начались работы по разработке и внедрению хранилища данных на платформе Вертика.
На хабре уже есть статьи про саму СУБД Вертика, особенно рекомендую эту: HP Vertica, первый запущенный проект в РФ, ведь ее автор очень помог нам на начальном этапе. Алексей, спасибо еще раз.
Хотелось бы рассказать о том, какая методология применялась для проектирования физической структуры хранилища, чтобы наиболее полно использовать возможности HP Vertica.
Эту статью хотел бы посветить обоснованию оптимальности выбранной методологии, а в следующей — рассказать о том, какие техники позволяют анализировать данные, содержащие десятки млрд. строк, не быстро, а очень быстро.

Постановка задачи

Рассмотрим высоконагруженный сайт крупной российской интернет-компании (входит в топ 10 сайтов рунета по количеству уникальных пользователей по данным LiveInternet и Google Analytics).
Деятельность компании описывается следующими цифрами: ~ 10 млн. активных пользователей, ~100 млн. просмотров страниц в день, около 1 тыс. новых объектов, размещенных пользователями на сайте в течение 1 минуты, ~10 тыс. поисковых запросов пользователей в минуту.
Грубая оценка количества действий, подлежащих сохранению в хранилище, составляет 100 млн. новых записей в сутки (~100 GB новых данных в сутки).
Т.е. при построении классического хранилища данных с отказом от стирания поступивших ранее данных, объем хранилища через 3 месяца эксплуатации составит 10TB сырых данных. Big Data как она есть.
Нужно построить хранилище, которое хранило бы не меньше 6 месяцев данных, позволяло их анализировать, визуализировать, и отставало бы от реальной жизни настолько мало, насколько это возможно (в худшем случае — отставало бы на день, в лучшем — на минуты).
Вынося сразу за скобки вопрос выбора платформы — хранилище должно работать на HP Vertica, MPP базе колоночного хранения, см. вводную статью в заголовке.
Читать полностью »

Data replication. Attunity Replicate and Greenplum

2013-12-16 в 17:00, admin, рубрики: CDC, dwh, greenplum, oracle, Блог компании Тинькофф Кредитные Системы, метки: CDC, dwh, greenplum, oracle

Data replication. Attunity Replicate and Greenplum

В данной статье мне хотелось бы продолжить описание технологий, используемых в Банке ТКС при построении DWH. Статья может быть интересна тем, кто планирует использовать LogMining Change Data Capture (CDC) для репликации данных из операционных источников в онлайн-стэйджинг Хранилища, построенного на основе СУБД GreenPlum.

Читать полностью »

Методика формирования измерения с атрибутами типа 1 и 2

2013-09-30 в 13:47, admin, рубрики: dwh, sql, sql server, метки: dwh, sql server

Мы работаем над DWH в телекоммуникациях, поэтому пример, который я рассматриваю, называется «Абонент». Принцип универсален и это мог быть «Клиент» или «Пациент» — в зависимости от отрасли. Я надеюсь методику найдут полезной разработчики DWH из разных отраслей.

Если Вы не понимаете, что такое DWH, измерения и факты, я рекомендую прочитать книгу Ральфа Кимбалла «Dimensional Modeling». Речь идёт о базе данных для аналитики и консолидированной отчетности предприятия, конкретно о формировании и актуализации измерений — таблиц, которые хранят атрибуты (поля) для отбора (WHERE) в будущих запросах. Читать полностью »

BI в Одноклассниках: сбор данных и их доставка до DWH

2012-10-26 в 4:28, admin, рубрики: dwh, etl, sql, Блог компании Mail.Ru Group, Блог компании Одноклассники, метки: dwh, etl, sql

В прошлый раз (http://habrahabr.ru/company/odnoklassniki/blog/149391/) мы говорили о системе графиков и дешбордов, которые используем для мониторинга сайта и активности пользователей. Нам приходится логировать более двух триллионов (2 000 000 000 000) событий в день. В этом посте мы расскажем, как мы собираем эти данные, обрабатываем и загружаем в хранилище. Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «dwh» - 2

Сравнение аналитических in-memory баз данных

Тестирование хранилищ данных

Data Lake – от теории к практике. Методы интеграции данных Hadoop и корпоративного DWH

7 ошибок ETL-разработчика

Проект Dual ETL или как мы строили Disaster Recovery для Greenplum

Oracle vs Teradata vs Hadoop

HP Vertica, проектирование хранилища данных, больших данных

О чем статья

Постановка задачи

Data replication. Attunity Replicate and Greenplum

Методика формирования измерения с атрибутами типа 1 и 2

BI в Одноклассниках: сбор данных и их доставка до DWH

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «dwh» - 2

О чем статья

Постановка задачи

Новости

Актуальные темы

Архив