2012-06-28 3 views
3

У меня есть приложение, которое показывает ~ 100 твитов трендовой темы. Дело в том, что многие из них действительно похожи (т. Е. Тот же твит с другим URL-адресом), поэтому я хотел бы игнорировать подобные подобные твиты.Расчет сходства набора строк (твитов)

Я пытаюсь найти эффективный способ сделать это с помощью python. Я думаю об использовании: http://code.google.com/p/pylevenshtein/, чтобы решить эту проблему, но мне придется сравнивать много твитов друг с другом, и, возможно, есть более простой способ.

ответ

2

Вы действительно должны попробовать difflib, у него есть классные вещи. Вот один из моих фаворитов:

>>>from difflib import SequenceMatcher as sm 
>>> dif = sm(a='hello', b='maybe hello') 
>>> dif.ratio() 
0.625 
>>> dif = sm(a='hello', b='Hello') 
>>> dif.ratio() 
0.8 
>>> dif = sm(a=[1,2,3,4], b=[2,3,5,6]) 
>>> dif.ratio() 
0.5 
Смежные вопросы