2010-12-29 1 views
0

Я ищу идеи о том, как извлекать почтовые адреса из различных веб-источников. Я использую HtmlAgilityPack для преобразования html в XDocument (Csharp 4.0)Как разобрать почтовые адреса из html (высокая толерантность - низкая строгость)

Не желая разбивать адрес на компоненты, а просто получать адрес в целом. Я готов принять довольно высокий уровень неточности.

Адреса будут потенциально доступны на сайтах au, uk, ca и usa.

Этот ответ обеспечивает good regex solution

+0

Не знаете, если это вам поможет, но вот ссылка на международные адреса: http://www.bitboost.com/ref/international-address-formats.html#Formats –

+0

Фактический пример одного из этих «различных веб-источников» было бы полезно. –

ответ

2

Похоже, используя решение регулярных выражений (при условии, выше) поможет вам достаточное количество адресов. Вы упомянули, что готовы согласиться с довольно высоким уровнем неточности, но не обязательно. В зависимости от того, насколько чистым вы можете получить данные, вы можете выполнить очистку списка адресов или «очистить», как это иногда называется. То есть, когда вы принимаете неверный адрес (в зависимости от того, насколько сильно он был очищен от html) и запускайте его через механизм стандартизации, а затем через механизм проверки. Много раз это займет недостижимый адрес и возвращает полный и конечный адрес. Я говорю о адресах USPS (США), потому что у меня есть опыт, но я уверен, что есть и другие страны, которые имеют подобные услуги. Эти услуги очистки могут быть либо в режиме реального времени, либо в пакетном режиме, в зависимости от ваших потребностей. Большинство из них относительно быстрые. Надеюсь это поможет.

Я работаю для адресной компании, названной smartistreets.

Смежные вопросы