Принятая ответ Figure out if a business name is very similar to another one - Python, безусловно, поможет вам, как я сам работал на очень похожий подход к нормализации имен.
Обратите внимание, что одного отдельного показателя недостаточно. Ансамблевый подход должен быть реализован с учетом соответствия символа N Грама, редактирования расстояния и т. Д., Что в конечном итоге возвращает силу совпадающих слов. Придумайте формулу для расчета силы ваших совпадающих ключевых слов, и как только ваш список имен исчерпан, просто заново запустите Алгоритм для имен/слов, которые имеют силу ниже определенного порога, установленного вами. Это заставляет имена затем резонировать с другим кластером имен, где значение match/strength более сильное.
Также вам нужно будет следить за точностью/отзывом компромисса. С вышеприведенным подходом я видел, что точность слишком хорошая, но отзыв не так уж хорош.
Это не похоже на особенно сложную задачу, вы пытались решить ее самостоятельно? – Dukeling
«Если вы не укажете особо ограничительный стандарт того, что такое имя, это, вероятно, будет очень сложной проблемой», - сказал человек, ранее известный как «42». Преподобный д-р Джонатан Луис «Луи» Смит-младший, D.D.S., Ph.D., M.Div. – twalberg