У меня есть два текстовых файла, которые я бы хотел сравнить. Что я сделал:2 всего текста сходство с использованием levenshtein distance
- Я разделил их оба на предложения.
- Я измерил расстояние levenshtein между каждым из предложений из одного файла с каждым из предложений из второго файла.
Я хотел бы вычислить среднее сходство между этими двумя текстовыми файлами, однако у меня есть проблемы, чтобы доставить какое-либо значимое значение - очевидно, средних арифметический (сумму всех расстояний [нормированный] делится на числе сравнений) является плохая идея.
Как интерпретировать такие результаты?
Редактировать: Значения расстояний нормализуются.
Вы можете нормализовать расстояния, d (A, B)/max (длина (A), длина (B)) ', а затем сообщить среднее арифметическое. –
@larsmans, расстояния уже нормализованы. – user2207055
Тогда почему это плохая идея? –