Довольно часто на Хабре появляются статьи с новыми алгоритмами автоматического разбора адресов, записанных одной строкой. Кроме этого, услуги по обработке адресов предоставляют различные it-компании. В статье мы расскажем как использовать свою адресную базу для выбора алгоритма автоматического разбора адресов, и на что стоит обратить внимание при тестировании и разработке алгоритмов адресных фильтров.
Эта статья для всех, кто хранит данные клиентов и хочет решить одну из следующих задач:
- убедиться, что адрес существует, чтобы не отправить посылку или письмо в никуда;
- разбить адрес на компоненты, чтобы понять, где идут лучше продажи;
- дополнить адрес недостающей информацией, чтобы оптимизировать план работы курьеров;
- стандартизовать адреса, чтобы найти дублирующие записи одного и того же клиента;
- актуализировать и привести адреса к формату справочника, чтобы пройти проверки регуляторов.
Задача автоматического разбора почтовых адресов кажется довольно простой на первый взгляд — бери да сопоставляй адресному справочнику (например, ФИАСу) слова из входной строки. Но все, кто за неё берутся, утопают в большом количестве особенностей адресов…
Читать полностью »