2013-11-14 3 views
1

Есть ли какой-либо алгоритм или стандарт для проверки имен клиентов в разных форматах.алгоритм проверки имени клиента

Я имею в виду,

  • J. Smith
  • Джон Смит
  • John L. Smith
  • J. Smith Louis
  • Джон Луис С.

Может быть тот же человек и должен пройти проверку.

Благодаря

+0

Это не похоже на особенно сложную задачу, вы пытались решить ее самостоятельно? – Dukeling

+1

«Если вы не укажете особо ограничительный стандарт того, что такое имя, это, вероятно, будет очень сложной проблемой», - сказал человек, ранее известный как «42». Преподобный д-р Джонатан Луис «Луи» Смит-младший, D.D.S., Ph.D., M.Div. – twalberg

ответ

2

Принятая ответ Figure out if a business name is very similar to another one - Python, безусловно, поможет вам, как я сам работал на очень похожий подход к нормализации имен.

Обратите внимание, что одного отдельного показателя недостаточно. Ансамблевый подход должен быть реализован с учетом соответствия символа N Грама, редактирования расстояния и т. Д., Что в конечном итоге возвращает силу совпадающих слов. Придумайте формулу для расчета силы ваших совпадающих ключевых слов, и как только ваш список имен исчерпан, просто заново запустите Алгоритм для имен/слов, которые имеют силу ниже определенного порога, установленного вами. Это заставляет имена затем резонировать с другим кластером имен, где значение match/strength более сильное.

Также вам нужно будет следить за точностью/отзывом компромисса. С вышеприведенным подходом я видел, что точность слишком хорошая, но отзыв не так уж хорош.

Смежные вопросы