У меня есть приложение, которое показывает ~ 100 твитов трендовой темы. Дело в том, что многие из них действительно похожи (т. Е. Тот же твит с другим URL-адресом), поэтому я хотел бы игнорировать подобные подобные твиты.Расчет сходства набора строк (твитов)
Я пытаюсь найти эффективный способ сделать это с помощью python. Я думаю об использовании: http://code.google.com/p/pylevenshtein/, чтобы решить эту проблему, но мне придется сравнивать много твитов друг с другом, и, возможно, есть более простой способ.