В моей базе данных есть несколько названий названий, которые очень часто создаются и воссоздаются с незначительными изменениями. При ручном наблюдении глаз можно легко идентифицировать их как дубликаты с незначительными изменениями правописания. Напр. Идентифицировать бесплатные текстовые ключевые слова с процентным совпадением
Resort Inn, Res Ort inn, Rsort Inn etcи так далее. То, что я ищу, - это решение, которое дает процентное совпадение ключевых слов, которые ищут как дубликаты. Возможно, набор источников может быть недостаточно большим, но набор ссылок может переходить в миллионы данных. Таким образом, потенциальный mysql «match to» не масштабируется. Также ссылочный набор находится в индексах mysql и sphinx. Текущая логика дублирования не фиксирует все дубликаты. Например,
Moy Knn Resort Moy-Knn Moy Knn Resort Moeyy-Knn American Food
Все это дубликаты по мне. Но четвертый не захватывается вообще. Я понимаю, что они выглядят одинаково, но процентное число после сравнения, устраняя гласные и другие вещи, помогло бы. Решение предпочтительнее в основном будет с «php-sphinx», так как большинство из них уже готово или awk (если возможно и умеренно комфортно). Если нет, любая логика с открытым исходным кодом (python/perl и т. Д.) Будет работать.
Вы имеете в виду «Я понимаю, что они [не похожи]» - пропустили слово? – barryhunter
Да, «не надо» отсутствует – user676500