У меня есть база данных заказов доступа, содержащий 500+ имена клиентов в поле под названием «CustomerName»Использование SQL для дедупликации, ВЫБРАТЬ аналогичные поля
Проблема заключается в том, что, как заказы получить введены, наша команда продаж иногда типы имен по-разному , («ACME Inc» против «ACME, Inc.»). Теперь у меня есть несколько клиентов, которые на самом деле являются одной и той же компанией, но выглядят по-разному.
До сих пор я написал запрос, который показывает различные значения CustomerName, и теперь мне нужен запрос, который может в основном пройти через все эти и показать мне, где имена похожи. Возможно, если первые десять букв имени совпадают? Или в идеале, если определенный процент букв имени совпадает.
Я в затруднении, как это сделать, любая помощь приветствуется.
Большое спасибо!
посмотреть «расстояние от помех» или расстояние «левенштейна». оба являются полезными при определении того, как «разные» две строки. 'acme inc' и 'acme inc.' будет иметь очень короткие расстояния ветчины/лева. –
Идти вперед, попробуйте нормализовать свои данные. Есть причина, по которой люди это делают ... –