Я не знаю, какая «самая длинная общая [[цепочка? Подстрока?]]» Имеет отношение к «процентной разнице», особенно после того, как вы заметили в комментарии, что вы ожидаете очень маленькую% разницу между двумя строками, которые различаются одним символом в середине (поэтому их самая длинная общая подстрока составляет примерно половину длины строк).
Игнорирование «длинный общий» странность, и определение «процентной разницы», как расстояние редактирования между строк, разделенных на длину макс (100 раз, конечно ;-), как насчет:
def levenshtein_distance(first, second):
"""Find the Levenshtein distance between two strings."""
if len(first) > len(second):
first, second = second, first
if len(second) == 0:
return len(first)
first_length = len(first) + 1
second_length = len(second) + 1
distance_matrix = [[0] * second_length for x in range(first_length)]
for i in range(first_length):
distance_matrix[i][0] = i
for j in range(second_length):
distance_matrix[0][j]=j
for i in xrange(1, first_length):
for j in range(1, second_length):
deletion = distance_matrix[i-1][j] + 1
insertion = distance_matrix[i][j-1] + 1
substitution = distance_matrix[i-1][j-1]
if first[i-1] != second[j-1]:
substitution += 1
distance_matrix[i][j] = min(insertion, deletion, substitution)
return distance_matrix[first_length-1][second_length-1]
def percent_diff(first, second):
return 100*levenshtein_distance(a, b)/float(max(len(a), len(b)))
a = "the quick brown fox"
b = "the quick vrown fox"
print '%.2f' % percent_diff(a, b)
Функция Левенштейна - от Stavros' blog. Результатом в этом случае будет 5,26 (процентная разница).
Насколько велика капля? –
где угодно между абзацем на страницу. – colorfulgrayscale
Кажется, вы ответили на свой вопрос. Если вы смотрите на «самые длинные общие подпоследовательности» и «diff», вы знаете, что это классическая проблема и NP-hard. Никто здесь не собирается делать лучше, чем несколько поколений компьютерных ученых. http://en.wikipedia.org/wiki/Longest_common_subsequence_problem – msw