Разница в нормировке Левенштейна (редактировать) расстояние?

Если расстояние Левенштейна между двумя строками, s и t дается формулой L(s,t),Разница в нормировке Левенштейна (редактировать) расстояние?

чем разница в воздействии на результате эвристического следующих двух различных схем нормализации?

L(s,t)/[length(s) + length(t)]
L(s,t)/max[length(s), length(t)]
(L(s,t)*2)/[length(s) + length(t)]

Я заметил, что нормализация подход 2 рекомендуется на расстоянии Википедии странице Левенштейна, но не упоминается из подхода 1. Оба подхода одинаковы? Просто интересно, есть ли математическое обоснование для использования одного над другим.

Кроме того, в чем разница между подходом 1 и приближением 3?

на следующем примере:

s = "Hi, my name is"

t = "Hello, my name is"

L(s,t) = 4

length(s) = 14 (включает в себя белое пространство)

length(t) = 17 (включает в себя белое пространство)

расстояние Левенштейна учитывая три алгоритма нормализации выше, являются:

4/(14 + 17) = 0,129
4/(17) = 0,235
(4 * 2)/(14 + 17) = 0,258

источник

2016-12-09 user2205916

Влияние на то, что именно? – kraskevich

Влияние на полученную метрику и различную интерпретацию – user2205916

Следуя более раннему комментарию, что вы намерены делать с нормализованными различиями? Я подозреваю, что ответ на этот вопрос будет полностью зависеть от этого. – templatetypedef

Эффекты обоих вариантов должны быть примерно одинаковыми. Второй член охватывает диапазон от нуля (строки равны) до одного (совершенно другого), а верхний диапазон в первом варианте зависит от длины строк. Если длины почти равны, верхняя граница равна 0,5 и увеличивается при больших различиях между длинами.

источник

2016-12-09 19:50:53 clemens

Разница в нормировке Левенштейна (редактировать) расстояние?

ответ

Смежные вопросы