Главная

Рубрика «целостность данных»

Цена «мусорных» логов: Как некачественная информация чуть не привела к провалу

2025-04-05 в 10:15, admin, рубрики: анализ логов, защита данных, информационная безопасность, логи, расследование инцидентов, целостность данных

Логи — это черный ящик информационной системы. Когда что-то идет не так, все надежды на него: что там записалось, как все было на самом деле. В теории звучит красиво. А на практике…

Недавно был случай – назовем клиента «Pypkin Corp», крупное производство, куча компов, серверов. Расследование рядового, на первый взгляд, инцидента превратилось в марафон с препятствиями, где главным врагом был не хакер, а собственная система записи событий. История поучительная, поэтому делюсь (изменив детали, конечно).

«У нас тут что-то странное!»

Читать полностью »

Миф о чистых данных: почему ваш аналитик похож на сапёра

2024-12-01 в 10:16, admin, рубрики: data quality, визуализация данных, витрина данных, данные, обработка данных, очистка данных, ошибки в бизнесе, подготовка данных, целостность данных

Представьте: вы — аналитик данных, перед вами — гора необработанных данных, и каждый неверный шаг может привести к катастрофическим последствиям для бизнеса. Звучит как сценарий фильма-катастрофы? К сожалению, для многих аналитиков это повседневная реальность.

Часто, начиная проект по бизнес-аналитике, заказчик заявляет: «У нас идеально чистые данные, просто заходите и визуализируйте!» Эта фраза, увы, часто предвещает долгие часы кропотливой работы по очистке, обогащению и агрегации данных — настоящее разминирование информационного поля.

Читать полностью »

Целостность данных в микросервисной архитектуре — как ее обеспечить без распределенных транзакций и жесткой связности

2018-10-11 в 15:08, admin, рубрики: big data, базы данных, микросервисы, паттерны, Разработка веб-сайтов, целостность данных

Всем привет.

Как вы, возможно, знаете, раньше я все больше писал и рассказывал про хранилища, Vertica, хранилища больших данных и прочие аналитические вещи. Сейчас в область моей ответственности упали и все остальные базы, не только аналитические, но и OLTP (PostgreSQL), и NOSQL (MongoDB, Redis, Tarantool).

Эта ситуация позволила мне взглянуть на организацию, имеющую несколько баз данных, как на организацию, имеющую одну распределенную гетерогенную (разнородную) базу. Единую распределенную гетерогенную базу, состоящую из кучи PostgreSQL, Redis-ов и Монг… И, возможно, из одной-двух баз Vertica.

Работа этой единой распределенной базы порождает кучу интересных задач. Прежде всего, с точки зрения бизнеса важно, чтобы с данными, движущимися по такой базе, все было нормально. Я специально не использую здесь термин целостность, consistency, т.к. термин это сложный, и в разных нюансах рассмотрения СУБД (ACID и CAP теорема) он имеет разный смысл.

Ситуация с распределенной базой обостряется, если компания пытается перейти на микросервисную архитектуру. Под катом я рассказываю, как обеспечить целостность данных в микросервисной архитектуре без распределенных транзакций и жесткой связности. (А в самом конце объясняю, почему выбрал для статьи такую иллюстрацию).

Целостность данных в микросервисной архитектуре — как ее обеспечить без распределенных транзакций и жесткой связности - 1

Читать полностью »

Сложное ограничение целостности

2016-05-10 в 8:30, admin, рубрики: oracle, целостность данных, целостность файлов, метки: целостность данных, целостность файлов

В моей работе необходимость организовать сложный контроль вводимой одновременно в несколько таблиц логически связанной информации в БД ORACLE. Преобразование начального логически корректного набора данных в таблицах в конечный логически корректный набор производится последовательностью DML операторов. При этом проводить модификацию может произвольный клиент поведение которого неконтролируемо а структура данных такова, что в процессе выполнения пошаговой модификации на некоторых шагах набор данных может становится логически ошибочным.

Самый простой пример — это таблица истории значений из трех полей: значение, начальная дата действия значения, конечная дата действия значения. Логически корректная история не может иметь записей у которых перекрываются периоды действия значений. Для изменения границы действия двух соседних значений необходимо изменить две даты — дату конца действия предыдущего значения в предыдущей записи и дату начала действия последующего в следующей записи. Если границу смены значений двигать по времени вперед и на первом шаге переставить вперед дату окончания действия значения первой записи получим логически ошибочный набор данных. Именно поэтому решить задачу табличными триггерами невозможно — они срабатывают по каждому оператору модификации данных.

Реальная задача слегка отличается от простейшего примера. Набор данных разложен в десятке таблиц, алгоритм бизнес правил контроля вылился в процедуру на 400 строк с обращением через линки к API на других серверах.

Для реализации такого контроля нужен был триггер, который срабатывает только один раз в транзакции по событию COMMIT, с возможностью отката транзакции по результату отработки процедуры контроля бизнес логики. Такой триггер нашелся.
Читать полностью »

Публикации RSS | Комментарии RSS

https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js

Информация

Обсуждаемое

Рекомендуем

Рубрика «целостность данных»

Цена «мусорных» логов: Как некачественная информация чуть не привела к провалу

«У нас тут что-то странное!»

Миф о чистых данных: почему ваш аналитик похож на сапёра

Целостность данных в микросервисной архитектуре — как ее обеспечить без распределенных транзакций и жесткой связности

Сложное ограничение целостности

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «целостность данных»

Цена «мусорных» логов: Как некачественная информация чуть не привела к провалу

«У нас тут что-то странное!»

Миф о чистых данных: почему ваш аналитик похож на сапёра

Целостность данных в микросервисной архитектуре — как ее обеспечить без распределенных транзакций и жесткой связности

Сложное ограничение целостности

Новости

Актуальные темы

Архив