Допустим, у меня есть следующие слова:Использование stringdist в R
word1 = 'john lennon'
word2 = 'john lenon'
word3 = 'lennon john'
Ее почти ясно, что эти 3 слова ВЕ и тому же человеку. Имея следующий код:
library(stringdist)
>stringdist('john lennon','john lenon',method = 'jw')
[1] 0.06363636
>stringdist('john lennon','lennon john',method = 'qgram')
[1] 0
>stringdist('john lennon','lennon john',method = 'jw')
[1] 0.33
>stringdist('john lennon','john lenon',method = 'qgram')
[1] 1
Его ясно, что в этом примере, что qgram
работает лучше. Но это только тот случай. Мой вопрос в том, как я могу объединить эти два метода?
jw
дает лучшие результаты, но не может «поймать» отмененные слова (в моем случае имя-фамилия с фамилией). Любой совет?
Если вы сравниваете количество символов, проще использовать stringdist (word1, word2, method = "qgram", q = 1), что не так дорого. –