Я хотел бы использовать сходство Jaccard в функции stringdist, чтобы определить схожесть мешков слов. Из того, что я могу сказать, использование Jaccard только соответствует буквам внутри символьной строки.Jaccard сходство в пакете stringdist для сопоставления слов в строке символов
c <- c('cat', 'dog', 'person')
d <- c('cat', 'dog', 'ufo')
stringdist(c, d, method='jaccard', q=2)
[1] 0 0 1
Таким образом, мы видим, что он вычисляет сходство «кошки» и «кошка», «собака» и «собака» и «человека» и «УФО».
Я также попытался преобразовать слова в 1 длинную текстовую строку. Следующие подходы, что мне нужно, но он по-прежнему расчета 1 - (количество разделяемых 2-грамм/количество общего уникального 2-г):
f <- 'cat dog person'
g <- 'cat dog ufo'
stringdist(f, g, method='jaccard', q=2)
[1] 0.5625
Как бы я получить его, чтобы вычислить сходство словами?
Пожалуйста, объясните, пожалуйста, ваш желаемый результат. Первый экземпляр вычисляет разницу между каждым словом в порядке. Вас интересует сравнение двух пакетов слов (неупорядоченных множеств)? – lmo