Я проверил модуль Simhash (https://github.com/leonsim/simhash).Расстояние Хэмминга (Simhash python), выдающее неожиданное значение
Я предполагаю, что Simhash («String»). Distance (Simhash («Другая строка»)) - это расстояние между двумя строками. Теперь, я не уверен, что я понимаю, этот «метод get_features (строка) полностью, как показано в (https://leons.im/posts/a-python-implementation-of-simhash-algorithm/).
def get_features(s):
width = 2
s = s.lower()
s = re.sub(r'[^\w]+', '', s)
return [s[i:i + width] for i in range(max(len(s) - width + 1, 1))]
Теперь, когда я пытаюсь вычислить расстояние между„АААА“и„АААС“, используя ширину 2, она выдает расстояние как 0.
from simhash import Simhash
Simhash(get_features("aaas")).distance(Simhash(get_features("aaaa")))
Я не уверен, что мне не хватает в здесь.