У меня есть база данных из 50 000 + компаний, которые постоянно обновляются (200+ в месяц).Похожие имена в огромном списке
огромная проблема с повторным содержанием, потому что имена не всегда строги/правильно:
«Супер 1 Магазин»
«Супер Один магазин»
«Супер 1 Магазины»
Редактировать: еще один пример .. который, вероятно, нуждается в другом подходе:
«Ая Пицца» < ---> «Органическая пиццу Ого и компании»
Нам нужен инструмент для сканирования данных для похожих имен. У меня есть опыт работы с Levenshtein Distance и LCS, но они отлично подходят для сравнения, если 2 строки похожи ...
Здесь я должен сканировать 50 000 имен, которые могут быть каждый с каждым, и вычислить там ... общий рейтинг подобия. ..
Мне нужен совет, как атаковать эту проблему, ожидаемые результаты состоят в том, чтобы иметь список с 10-20 группами очень похожих имен и, возможно, дополнительно настроить чувствительность для получения большего количества результатов.
интересно! вы попробовали 'similar_text()' [function] (http://php.net/manual/en/function.similar-text.php)? – Lan
Легкий ответ сначала нормализуется после карты/сокращения, но я полагаю, что вы ищете что-то более сложное. – mcuadros
Я никогда не использовал его, но как насчет SOUNDEX? –