2016-12-09 3 views
0

Если расстояние Левенштейна между двумя строками, s и t дается формулой L(s,t),Разница в нормировке Левенштейна (редактировать) расстояние?

чем разница в воздействии на результате эвристического следующих двух различных схем нормализации?

  1. L(s,t)/[length(s) + length(t)]

  2. L(s,t)/max[length(s), length(t)]

  3. (L(s,t)*2)/[length(s) + length(t)]

Я заметил, что нормализация подход 2 рекомендуется на расстоянии Википедии странице Левенштейна, но не упоминается из подхода 1. Оба подхода одинаковы? Просто интересно, есть ли математическое обоснование для использования одного над другим.

Кроме того, в чем разница между подходом 1 и приближением 3?

на следующем примере:

s = "Hi, my name is"

t = "Hello, my name is"

L(s,t) = 4

length(s) = 14 (включает в себя белое пространство)

length(t) = 17 (включает в себя белое пространство)

расстояние Левенштейна учитывая три алгоритма нормализации выше, являются:

  1. 4/(14 + 17) = 0,129

  2. 4/(17) = 0,235

  3. (4 * 2)/(14 + 17) = 0,258

+1

Влияние на то, что именно? – kraskevich

+0

Влияние на полученную метрику и различную интерпретацию – user2205916

+0

Следуя более раннему комментарию, что вы намерены делать с нормализованными различиями? Я подозреваю, что ответ на этот вопрос будет полностью зависеть от этого. – templatetypedef

ответ

1

Эффекты обоих вариантов должны быть примерно одинаковыми. Второй член охватывает диапазон от нуля (строки равны) до одного (совершенно другого), а верхний диапазон в первом варианте зависит от длины строк. Если длины почти равны, верхняя граница равна 0,5 и увеличивается при больших различиях между длинами.