У меня есть база данных ~ 150 000 слов и шаблон (любое слово), и я хочу получить все слов из базы данных, в которой расстояние между ним и Дамерау-Левенштейном шаблон меньше заданного числа. Мне нужно сделать это очень быстро. Какой алгоритм вы могли бы предложить? Если нет хорошего алгоритма для расстояния Дамерау-Левенштейн, то только расстояние Левенштина будет приветствоваться.Быстрое получение нечетких строк из базы данных
Благодарим за помощь.
P.S. Я не буду использовать SOUNDEX.
определяет очень быстро – JRL
Нет специальных требований. Чем быстрее алгоритм, тем лучше. Я попробовал просто вычислить расстояние с помощью стандартного алгоритма (например: http://en.wikipedia.org/wiki/Damerau%E2%80%93Levenshtein_distance) и подтвердил, что мне нужно что-то быстрее. – StuffHappens