2016-03-30 2 views
0

Есть ли способ определить сходство данных нескольких экземпляров текста, возможно, процентов или другого способа, который может показать, насколько общий текст имеет друг с другом.Определение сходства между несколькими текстовыми блоками

T1 = abcabcabc 
T2 = xyzabcxyzabcxyz 
T3 = abcxyzabc 

Сходство было бы что-то вроде:

*abc*abc* or maybe 66% 

Я не могу быть более конкретным в данный момент.

Если код предоставлен, я предпочитаю python, но любой скриптовый язык или тому подобное хорош, псевдокод или ссылка на сайты для решения проблем.

ответ

1

Существуют различные способы измерения расстояния между текстом.

Проверьте, пожалуйста, String metric.

И есть инструмент Levenshtein distance на pypi, я сам не пробовал.

Существует еще один на wiki

В то время как расстояние Левенштейн вычислить минимальный шаг для преобразования одной строки в другую, вы можете использовать step/len(string), чтобы получить подобие процента два строки.

Смежные вопросы