Скажем, у меня есть параграф. Я отделяю это в предложения по sent_tokenize:Как найти, какие предложения имеют больше всего общего?
variable = ['By the 1870s the scientific community and much of the general public had accepted evolution as a fact.',
'However, many favoured competing explanations and it was not until the emergence of the modern evolutionary synthesis from the 1930s to the 1950s that a broad consensus developed in which natural selection was the basic mechanism of evolution.',
'Darwin published his theory of evolution with compelling evidence in his 1859 book On the Origin of Species, overcoming scientific rejection of earlier concepts of transmutation of species.']
Теперь я разделить каждое предложение на слова и добавить его в какой-либо переменной. Как я могу найти две группы предложений, которые имеют наибольшее число одинаковых слов. Я не знаю, как это сделать. Если у меня 10 предложений, тогда у меня будет 90 проверок (между каждым предложением.) Спасибо.
Это на самом деле 45 проверок, а не 90. Вы делите на 2, так как порядок не имеет значения. – alexis