0

У меня есть таблица со значениями, такими как адрес, имя, IBAN, электронная почта и хотите определить, когда клиент в последний раз купил что-то.Нечеткая идентификационная отпечатка

Проблема в том, что некоторые поля содержат орфографические ошибки, другие были намеренно введены неправильно.

На GitHub несколько библиотек, таких как https://github.com/seatgeek/fuzzywuzzy, https://github.com/seamusabshere/fuzzy_match или https://github.com/atom/fuzzaldrin, доступны для выполнения нечетких запросов на основе одного и сопоставимого столбца. Но я хочу объединить несколько полей - это звучит как общая проблема, и я ожидал найти существующие решения там.

Можете ли вы рекомендовать подходы к такой проблеме? Существуют ли существующие проекты для такой проблемы, которые мне не хватает? Является ли регулярная строка-расстояние по всем полям, как правило, достаточно хорошими?

ответ

1

Я упомянул об этом в другом вопросе, но dedupe python librarydoes what you want.

В основном, он вычисляет расстояние между каждым полем в паре рядов, затем изучает оптимальные веса, чтобы объединить эти расстояния в одну парную парную парную партию.

Смежные вопросы