Повышаем качество данных с Oracle Enterprise Data Quality

2017-06-30 в 12:58, admin, рубрики: data quality, edq, enterprise data quality, oracle, siebel, Анализ и проектирование систем, Блог компании Инфосистемы Джет, высокая производительность, дедупликация, качество данных, метки: data quality, enterprise data quality, siebel

В большинстве проектов по внедрению Siebel, так или иначе, приходится сталкиваться с проблемами качества данных. В этой части Oracle предлагает интересное решение – Enterprise Data Quality с возможностью интегрирования в Siebel (что нас собственно и привлекло). В данном материале я вкратце расскажу о самом продукте, его архитектуре, а также покажу, как можно создать простой процесс повышения качества данных.

Коротко о продукте

EDQ ‒ продукт, позволяющий управлять качеством информации. Основой для анализа EDQ могут служить разные источники данных, такие как:

базы данных (Oracle, Postgres, DB2, MySql и т.д.),
текстовые файлы,
XML-файлы,
MS Office файлы,
системные файлы и прочее.

EDQ позволяет анализировать данные, находить в них неточности, пробелы и ошибки. Можно совершать корректировки, трансформировать и преобразовывать информацию для улучшения ее качества. Можно интегрировать правила контроля качества данных в ETL-средства, тем самым предотвращая появление неконсистентной информации. Большим плюсом при использовании EDQ является интуитивно понятный интерфейс, а также простота изменения и расширения правил валидации и трансформации. Немаловажный инструмент EDQ – информационные панели (Dashboards), которые позволяют бизнес-пользователям отслеживать тенденции в качестве данных. Например, как на скриншоте ниже:

Повышаем качество данных с Oracle Enterprise Data Quality - 1

EDQ ‒ это веб-приложение Java, в котором используется Java Servlet Engine, графический интерфейс пользователя Java Web Start и СУБД для хранения данных.

EDQ предоставляет ряд клиентских приложений, которые позволяют управлять системой:

Повышаем качество данных с Oracle Enterprise Data Quality - 2

При посещении страницы Enterprise Data Quality Launchpad можно увидеть данные приложения, например, Director, отвечающий за проектирование и обработку информации. При нажатии на кнопку нам предлагается сохранить файл:

Повышаем качество данных с Oracle Enterprise Data Quality - 3

Открыв его, мы попадаем в основной интерфейс проектирования:

Повышаем качество данных с Oracle Enterprise Data Quality - 4

Слепки данных, обработанная информация и необходимые метаданные хранятся на сервере EDQ. Клиентские машины хранят только пользовательские настройки. EDQ использует репозиторий, который хранится в двух схемах БД – в конфигурационной и в схеме результатов.

В конфигурационной схеме хранится информация о настройках EDQ, а в схеме результатов – слепки информации (промежуточные итоги обработки и конечные результаты выполнения процессов).

Какие задачи решает EDQ

Примеры задач, решаемых с помощью EDQ:

дедупликация и консолидация информации,
приведение информации к единому виду (написание названия одной страны разными способами и др.),
идентификация информации, внесенной не в то поле,
парсинг адресов,
разбиение полей, в которых закодирована информация о нескольких атрибутах.

На основе подключений к разным источникам данных создаются так называемые «Staged Data» ‒ слепки информации для последующего анализа.

EDQ имеет множество процессоров, с помощью которых можно трансформировать исходный слепок информации.

Повышаем качество данных с Oracle Enterprise Data Quality - 5

Часто встречающаяся проблема при использовании информации – наличие дубликатов. Как говорилось выше, EDQ позволяет ее решить. Для исключения дубликатов можно воспользоваться процессором «Duplicate Check», в его настройках необходимо выбрать поле, по которому будет производиться группировка информации:

Повышаем качество данных с Oracle Enterprise Data Quality - 6

Этот процессор позволяет отобрать для дальнейшего анализа очищенные от дубликатов данные:

Повышаем качество данных с Oracle Enterprise Data Quality - 7

Простой процесс дедупликации

Для слияния повторяющихся строк можно использовать процессор «Group and Merge». На примере рассмотрим его функционал.

Поместив процессор в рабочее пространство и соединив его с процессором, отбирающим исходную информацию, необходимо зайти в настройки «Group and Merge».

Данный процессор имеет три подпроцессора:

Inputs
Group
Merge

Inputs – позволяет из исходного набора данных выбрать те поля, которые необходимо преобразовать. Перетаскиваем нужные колонки с помощью кнопок:

Повышаем качество данных с Oracle Enterprise Data Quality - 8

На основе выбранных атрибутов мы выберем поле или поля, на основе которых будет производиться группировка.

Group – в данном процессоре необходимо выбрать поля, на основе которых будут сгруппированы исходные данные:

Повышаем качество данных с Oracle Enterprise Data Quality - 9

И последний подпроцессор – Merge, позволяющий настроить правила для слияния каждого атрибута:

Повышаем качество данных с Oracle Enterprise Data Quality - 10

По умолчанию значение правила установлено в «Most Common Value», но это значение при необходимости можно заменить на подходящие из списка:

Повышаем качество данных с Oracle Enterprise Data Quality - 11

После настройки и запуска процессора мы видим результат его работы:

Повышаем качество данных с Oracle Enterprise Data Quality - 12

В исходном же наборе было другое количество данных:

Повышаем качество данных с Oracle Enterprise Data Quality - 13

Эти преобразования выполняются на уровне слепка данных в EDQ и не затрагивают данные в базе. Для того чтобы отобразить полученную очищенную информацию в базе данных, необходимо совершить еще несколько шагов. На основе полученной информации из процессора «Group and Merge» нужно создать новый слепок информации, который впоследствии мы загрузим в БД. Выбираем процессор «Writer»:

Повышаем качество данных с Oracle Enterprise Data Quality - 14

И нажимаем кнопку New Staged Data. Далее предлагается создать новый слепок на основе полученной информации после дедупликации. Итоговый экран должен выглядеть следующим образом:

Повышаем качество данных с Oracle Enterprise Data Quality - 15

Также можно использовать уже существующие слепки, которые будут перезаписаны после запуска процесса.

После записи дедуплицированой информации нужно создать новый экспорт, который запишет наши изменения в базу данных:

Повышаем качество данных с Oracle Enterprise Data Quality - 16

В интерфейсе выше предлагается выбрать подготовленный слепок данных и таблицу, в которую планируется его загрузка. По умолчанию этот процесс будет производить удаление существующих данных и вставку новых, но его можно настроить. Для этого требуется создать новый Job.

В рабочую область перетащить созданный процесс:

Повышаем качество данных с Oracle Enterprise Data Quality - 17

И созданный экспорт данных:

Повышаем качество данных с Oracle Enterprise Data Quality - 18

После чего можно настроить экспорт. Двойным щелчком вызываем меню:

Повышаем качество данных с Oracle Enterprise Data Quality - 19

Выбрав нужное значение, запускаем задачу в работу и проверяем результат в БД.

Заключение

EDQ предоставляет пользователю большой спектр инструментов, но есть, как говорится, некоторые нюансы. Например, к таковым можно отнести отсутствие преднастроенных шаблонов обработки информации. Ведь большинство проблем, связанных с качеством данных, типичны для многих проектов. Стоит сказать, что некоторые готовые процессы все же можно найти и интегрировать в свой проект. Собственно этим мы и планируем заняться – подготовить пакет процессов, которые можно использовать на разных проектах.

Для использования фонетических алгоритмов, представленных в EDQ, подходит только латиница, но всегда можно использовать транслитерацию и преднастроить свои данные для этих алгоритмов.

Еще одна, так скажем, не вполне удобная особенность, которую мы заметили, ‒ это не совсем прозрачный процесс выгрузки результатов обработки в базу. Если использовать как источник таблицы БД, то проще было бы при получении результата сразу иметь возможность заменить исходную информацию очищенной.

Как было сказано в начале, большинство проектов, которые используют хранилища данных, так или иначе «страдают» от качества информации, хранящейся в них. EDQ может помочь в решении проблем не только дедупликации, о которой мы тут говорили, но и многих других. Большой плюс данного продукта – наличие готовых к использованию разнообразных процессоров. А информационные панели с простым интерфейсом помогут бизнес-пользователям принимать активное участие в контроле качества данных.

В следующих статьях мы постараемся рассмотреть на примере процесс стандартизации адресов по ФИАС и создание информационных панелей, а также интеграцию с Oracle Siebel.Следите за обновлениями.

Антон Акиньшин, разработчик центра внедрения бизнес-систем компании «Инфосистемы Джет». Пожалуйста, обращайтесь с вопросами в комментариях.

Автор: Инфосистемы Джет

Источник