Рубрика «Администрирование баз данных» - 32

Введение в Data Engineering. ETL, схема «звезды» и Airflow

2018-05-14 в 9:18, admin, рубрики: airflow, big data, data engineering, data mining, etl, sql, Администрирование баз данных, базы данных, Блог компании New Professions Lab

Способность data scientist-а извлекать ценность из данных тесно связана с тем, насколько развита инфраструктура хранения и обработки данных в компании. Это значит, что аналитик должен не только уметь строить модели, но и обладать достаточными навыками в области data engineering, чтобы соответствовать потребностям компании и браться за все более амбициозные проекты.

При этом, несмотря на всю важность, образование в сфере data engineering продолжает оставаться весьма ограниченным. Мне повезло, поскольку я успел поработать со многими инженерами, которые терпеливо объясняли мне каждый аспект работы с данными, но не все обладают такой возможностью. Именно поэтому я решил написать эту статью — введение в data engineering, в которой я расскажу о том, что такое ETL, разнице между SQL- и JVM-ориентированными ETL, нормализации и партиционировании данных и, наконец, рассмотрим пример запроса в Airflow.

Введение в Data Engineering. ETL, схема «звезды» и Airflow - 1
Читать полностью »

Нечеткий поиск (fuzzy search) в реляционных базах данных

2018-04-22 в 13:26, admin, рубрики: elasticsearch, h2, java, lucene, mongodb, orientdb, sphinxsearch, Администрирование баз данных, Разработка веб-сайтов

Для поиска нужной информации на веб-сайтах и в мобильных приложениях часто используется поиск по словам или фразам, которые пользователь свободно вводит с клавиатуры (а не выбирает например из списка). Естественно, что пользователь может допускать ошибки и опечатки. В этом случае полнотекстовый поиск, полнотекстовые индексы, которые реализованы в большинстве базы данных не дают ожидаемого результата и практически бесполезны. Такой функционал все чаще реализуют на основе elasticsearch.

Решения с использованием elasticsearch имеют один существенный недостаток — очень большая вероятность рассогласования основной базы данных, например PostgreSQL, MySQL, mongodb и elasticsearch, в которой хранятся индексы для поиска.
Читать полностью »

Концепция BaselineTopology в Apache Ignite 2.4

2018-04-10 в 10:04, admin, рубрики: Apache Ignite, java, Администрирование баз данных, базы данных, Блог компании GridGain, Программирование, распределённые вычисления, распределенные системы, СУБД

На момент появления в Apache Software Foundation проекта Ignite он позиционировался как чистое in-memory-решение: распределенный кэш, поднимающий в память данные из традиционной СУБД, чтобы выиграть во времени доступа. Но уже в релизе 2.1 появился модуль встроенной персистентности (Native Persistence), который позволяет классифицировать Ignite как полноценную распределенную базу данных. С тех пор Ignite перестал зависеть от внешних систем обеспечения персистентного хранения данных, и вязанка граблей конфигурации и администрирования, на которые не раз наступали пользователи, исчезла.

Однако persistent-режим порождает свои сценарии и новые вопросы. Как предотвратить неразрешимые конфликты данных в ситуации split-brain? Можем ли мы отказаться от перебалансировки партиций, если выход узла теперь не означает, что данные на нем потеряны? Как автоматизировать дополнительные действия вроде активации кластера? BaselineTopology нам в помощь.

Читать полностью »

Сравниваем Tarantool с Redis и Memcached

2018-04-06 в 7:11, admin, рубрики: nosql, tarantool, Администрирование баз данных, Блог компании Mail.Ru Group, высокая производительность

Выбираете между Tarantool и Redis или между Tarantool и Memcached? Давайте рассмотрим основные различия, чтобы вам легче было определиться.

Читать полностью »

Что нового в DataGrip 2018.1

2018-04-05 в 11:57, admin, рубрики: intellij idea, mysql, oracle, postgresql, pycharm, sql, Администрирование баз данных, Блог компании JetBrains

Привет! В этом релизном цикле некоторые улучшения появились ещё в минорных обновлениях. Но, так как о них на Хабре мы не пишем, я расскажу в этом посте обо всём новом с момента предыдущего релиза.

Читать полностью »

Апгрейд хранимок Tarantool: «все своё ношу с собой!»

2018-04-04 в 6:40, admin, рубрики: Lua, tarantool, Администрирование баз данных, Блог компании Mail.Ru Group, большие проекты, Разработка веб-сайтов, сессионное хранилище, управление разработкой

Апгрейд хранимок Tarantool: «все своё ношу с собой!» - 1

В мире баз данных существует сложная проблема рефакторинга и апгрейда хранимых процедур.

Проблема состоит в противоречии:

С точки зрения эффективности работы с данными желательно максимум бизнес-логики реализовывать в хранимых процедурах.
С точки зрения эффективности разработки ПО желательно, чтобы части одной программы находились в одном месте. Хранение кода работы с хранилищем прямо в хранилище создаёт много трудностей.

Читать полностью »

Книга «Высоконагруженные приложения. Программирование, масштабирование, поддержка»

2018-04-03 в 9:46, admin, рубрики: dba, site reliability engineer, администрирование, Администрирование баз данных, Анализ и проектирование систем, архитектура приложений, базы данных, Блог компании Издательский дом «Питер», высокая производительность, книги, Профессиональная литература

В этой книге вы найдете ключевые принципы, алгоритмы и компромиссы, без которых не обойтись при разработке высоконагруженных систем для работы с данными. Материал рассматривается на примере внутреннего устройства популярных программных пакетов и фреймворков. В книге три основные части, посвященные, прежде всего, теоретическим аспектам работы с распределенными системами и базами данных. От читателя требуются базовые знания SQL и принципов работы баз данных.

В обзорном посте рассматривается раздел «Знание, истина и ложь».

Если у вас нет опыта работы с распределенными системами, то последствия этих проблем могут оказаться весьма дезориентирующими. Узел сети ничего не знает наверняка — он способен только делать предположения на основе получаемых (или не получаемых) им по сети сообщений. Один узел в силе узнать состояние другого узла (какие данные на нем хранятся, правильно ли он работает), только обмениваясь с ним сообщениями. Если удаленный узел не отвечает, то нет никакого способа выяснить его состояние, поскольку невозможно отличить сетевые проблемы от проблем в узле.
Читать полностью »

Применение Tarantool: хранимые процедуры

2018-04-02 в 9:39, admin, рубрики: nosql, tarantool, Администрирование баз данных, Блог компании Mail.Ru Group, высокая производительность, хранимые процедуры

Перевод статьи с DZone. Оригинал: https://dzone.com/articles/applications-for-tarantool-part-1-stored-procedure.

Я хочу поделиться своим опытом создания приложений для Tarantool, и сегодня мы поговорим об установке этой СУБД, о хранении данных и об обращении к ним, а также о записи хранимых процедур.

Читать полностью »

Terraform: новый подход к Infrastructure as code

2018-03-23 в 9:00, admin, рубрики: cloud computing, Go, iac, terraform, Администрирование баз данных, Блог компании Издательский дом «Питер», высокая производительность, книги, непрерывная интеграция, Программирование

Привет, коллеги! Пока блистательный Илон Маск вынашивает амбициозные планы терраформирования Марса, мы интересуемся новыми возможностями, связанными с парадигмой "Infrastructure as Code" и хотим предложить вам перевод статьи об одном из представителей «великолепной семерки» — Terraform. Книга Евгения Брикмана по теме неплохая, но ей скоро год, так что просим высказаться — хотите ли увидеть ее на русском языке

Слово Камалу Мархуби (Kamal Marhubi) из компании Heap.
Читать полностью »

Как я парсил БД C-Tree, разработанную 34 года назад

2018-03-20 в 16:27, admin, рубрики: c-tree, db, Go, Администрирование баз данных

Прилетела мне недавно задача дополнить функционал одной довольно старой програмки (исходного кода программы нет). По сути нужно было просто сканить периодически БД, анализировать информацию и на основе этого совершать рассылки. Вся сложность оказалась в том, что приложение работает с БД c-tree, написанной аж в 1984 году.

Порывшись на сайте производителя данной БД нашёл некий odbc драйвер, однако у меня никак не получалось его подключить. Многочисленные гугления так же не помогли нормально сконнектиться с базой и доставать данные. Позже было решено связаться с техподдержкой и попросить помощи у разработчиков данной базы, однако ребята честно признались что уже прошло 34 года, всё поменялось 100500 раз, нормальных драйверов для подключения на такое старьё у них нет и небось уже тех программистов в живых тоже нету, которые писали сие чудо.
Порывшись в файлах БД и изучив структуру, я понял, что каждая таблица в БД сохраняется в два файла с расширением *.dat и *.idx. Файл idx хранит информацию по id, индексам и т.д. для более быстрого поиска информации в базе. Файл dat содержит саму информацию, которая хранится в табличках.

Решено было парсить эти файлики самостоятельно и как-то добывать эту информацию. В качестве языка использовался Go, т.к. весь остальной проект написан на нём.
Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «Администрирование баз данных» - 32

Введение в Data Engineering. ETL, схема «звезды» и Airflow

Нечеткий поиск (fuzzy search) в реляционных базах данных

Концепция BaselineTopology в Apache Ignite 2.4

Сравниваем Tarantool с Redis и Memcached

Что нового в DataGrip 2018.1

Апгрейд хранимок Tarantool: «все своё ношу с собой!»

Книга «Высоконагруженные приложения. Программирование, масштабирование, поддержка»

Применение Tarantool: хранимые процедуры

Terraform: новый подход к Infrastructure as code

Как я парсил БД C-Tree, разработанную 34 года назад

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «Администрирование баз данных» - 32

Новости

Актуальные темы

Архив