Похоже, используя решение регулярных выражений (при условии, выше) поможет вам достаточное количество адресов. Вы упомянули, что готовы согласиться с довольно высоким уровнем неточности, но не обязательно. В зависимости от того, насколько чистым вы можете получить данные, вы можете выполнить очистку списка адресов или «очистить», как это иногда называется. То есть, когда вы принимаете неверный адрес (в зависимости от того, насколько сильно он был очищен от html) и запускайте его через механизм стандартизации, а затем через механизм проверки. Много раз это займет недостижимый адрес и возвращает полный и конечный адрес. Я говорю о адресах USPS (США), потому что у меня есть опыт, но я уверен, что есть и другие страны, которые имеют подобные услуги. Эти услуги очистки могут быть либо в режиме реального времени, либо в пакетном режиме, в зависимости от ваших потребностей. Большинство из них относительно быстрые. Надеюсь это поможет.
Я работаю для адресной компании, названной smartistreets.
Не знаете, если это вам поможет, но вот ссылка на международные адреса: http://www.bitboost.com/ref/international-address-formats.html#Formats –
Фактический пример одного из этих «различных веб-источников» было бы полезно. –