Рубрика «качество данных»

Как посчитать «похожесть» номеров в паспортах. И найти одинаковые даже с опечатками - 1

Продукты HFLabs ищут дублированных клиентов в базах федеральных компаний. Очевиднейший способ найти одинаковые клиентские карточки — сравнить паспорта или другие документы, удостоверяющие личность.

Раньше мы сравнивали номера документов строго: одинаковые — отлично, нет — извините. На ручной разбор из-за опечатки в номере уходили даже те карточки, у которых совпадали ФИО и адреса́ проживания. Такой подход излишне нагружал персонал заказчиков.

Поэтому мы с головой залезли в данные, изучили статистику и вывели критерии — когда разные номера действительно разные, а когда дело в опечатках. Рассказываю, как работает алгоритм.
Читать полностью »

Собрали всем «Хабром» справочник «Кем выдан…» для паспортов. Качайте на здоровье - 1

С пару месяцев назад мы поэкспериментировали: получится ли на «Хабре» собрать справочник подразделений, выдающих российские паспорта. Дело полезное: эти данные нужны много кому, канонического источника нет, а существующие — очень так себе.

И знаете, все получилось. Пригодный к использованию справочник готов, можно качать и пользоваться. А еще мы сделали подсказки, которые ускоряют ввод подразделений в формы.
Читать полностью »

Эксперимент: собираем справочник подразделений УФМС, выдающих паспорт - 1

Самое утомительное поле при вводе паспорта — «Кем выдан». Вбивать в форму какое-нибудь «Отделом внутренних дел Медведевского района республики Марий Эл» муторно. Люди злятся, сокращают название как придется, ошибаются.

Было бы здо́рово подсказывать варианты по коду подразделения.
Читать полностью »

Сегодня была анонсирована бета версия онлайн-игры WikiBest, которая является частью научных исследований в области качества данных в Википедии. Примечательно, что в настоящее время игра позволяет сравнивать качество данных в 5 языковых версиях Википедии: русский, украинский, белорусский, польский, английский. В скором будущем планируется расширить количество языков.

image
Читать полностью »

В большинстве проектов по внедрению Siebel, так или иначе, приходится сталкиваться с проблемами качества данных. В этой части Oracle предлагает интересное решение – Enterprise Data Quality с возможностью интегрирования в Siebel (что нас собственно и привлекло). В данном материале я вкратце расскажу о самом продукте, его архитектуре, а также покажу, как можно создать простой процесс повышения качества данных.

Коротко о продукте

EDQ ‒ продукт, позволяющий управлять качеством информации. Основой для анализа EDQ могут служить разные источники данных, такие как:

  • базы данных (Oracle, Postgres, DB2, MySql и т.д.),
  • текстовые файлы,
  • XML-файлы,
  • MS Office файлы,
  • системные файлы и прочее.

Читать полностью »

Проблема качества данных представляет собой достаточно серьезную тему и не только в связи с их обработкой и анализом. На данных в современном цифровом мире построено множество процессов, в том числе и связанных с безопасностью. Поэтому от того, насколько качественные данные используются в государственных и коммерческих организациях зависит эффективность и результат их работы.
Показатели качества публичных данных - 1
Рассмотрим несколько показателей, которые могли бы составить интегрированную оценку качества публичных (открытых) данных.
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js