Я пытаюсь создать алгоритм нечеткого совпадения в SAS, и я зацикливаюсь на механизме, чтобы создать список всех возможных параметров адреса.Создать список адресов из массива
Я хочу, чтобы создать список адресов общего строк, т.е. St, улица, пр, пр, и т.д.
Затем возьмите адрес и, если какие-либо слова в строке соответствует списку общего адреса строк, создать все возможные сценарии этого адреса.
Так, например:
101 N Main St будет конвертировать в: 101 N Main St 101 N Main Street 101 North Main St 101 North Main Street
Я могу программировать это на малый масштаб, но не тогда, когда у меня есть около 100 общих строк адреса, которые я хочу в списке.
Если вы еще этого не сделали, вы должны посмотреть на 'ngrams', который является тем, что вы здесь делаете. У SAS есть определенная возможность иметь дело с ними, но есть также много информации о том, как обрабатывать некоторые из них, которые могут быть лучше, чем этот конкретный подход (и могут дать вам подсказки о том, как подходить к программированию шагов данных, даже если литература в основном python/r/c). – Joe
Поиск на lexjansen.com, и вы найдете массу бумаг и кода, который работает по очистке и извлечению адресов. Общий метод состоит в том, чтобы извлечь компоненты, стандартизировать, а затем повторно форматировать. – Reeza