Если расстояние Левенштейна между двумя строками, s
и t
дается формулой L(s,t)
,Разница в нормировке Левенштейна (редактировать) расстояние?
чем разница в воздействии на результате эвристического следующих двух различных схем нормализации?
L(s,t)/[length(s) + length(t)]
L(s,t)/max[length(s), length(t)]
(L(s,t)*2)/[length(s) + length(t)]
Я заметил, что нормализация подход 2 рекомендуется на расстоянии Википедии странице Левенштейна, но не упоминается из подхода 1. Оба подхода одинаковы? Просто интересно, есть ли математическое обоснование для использования одного над другим.
Кроме того, в чем разница между подходом 1 и приближением 3?
на следующем примере:
s = "Hi, my name is"
t = "Hello, my name is"
L(s,t) = 4
length(s) = 14
(включает в себя белое пространство)
length(t) = 17
(включает в себя белое пространство)
расстояние Левенштейна учитывая три алгоритма нормализации выше, являются:
4/(14 + 17) = 0,129
4/(17) = 0,235
(4 * 2)/(14 + 17) = 0,258
Влияние на то, что именно? – kraskevich
Влияние на полученную метрику и различную интерпретацию – user2205916
Следуя более раннему комментарию, что вы намерены делать с нормализованными различиями? Я подозреваю, что ответ на этот вопрос будет полностью зависеть от этого. – templatetypedef