У меня есть фрейм данных с текстомУдалите строки, содержащие одинаковые или слова-переставляются предложения из кадра данных в R
TERM
good morning
hello
morning good
you're welcome
hello
hi
Я хотел бы, чтобы отфильтровать все дубликаты и все с теми же словами, но в другом порядке , Так что я получаю:
TERM
good morning
hello
you're welcome
hi
Я знаю, как получить расстояние до двух слов с помощью stringdist.
stringdist(stringOriginal,stringCompare,method=qgram)
Но поскольку у меня очень длинные кадры данных, я не хочу перебирать все записи.
Как отфильтровать похожие термины?
Thx Йорг
Вы мог бы разработать грубые методы силы 'strsplit' и набор функции' союза 'и' intersect' или 'setdiff'. – lmo
Было бы полезно изменить вопрос, включив в него небольшой пример того типа кадра данных, с которого вы начинаете, вместе с желаемым выходом. –
Используя 'stringdist', вы можете сделать:' library (stringdist); sdm <- stringdistmatrix (DF $ TERM, DF $ TERM, method = "qgram", useNames = "strings"); SDM [! дублируется (SDM),] ' –