4
Я создал скрипт для частоты слов в документе с использованием объекта и словаря documentTermMatrix в R. Сценарий работает с отдельными словами, а не с составным словом . "Foo" "бар" "Foo бар"Счетчик ngram с пакетом tm в R
Это код
require(tm)
my.docs <- c("foo bar word1 word2")
myCorpus <- Corpus(VectorSource(my.docs))
inspect(DocumentTermMatrix(myCorpus,list(dictionary = c("foo","bar","foo bar"))))
Но результат
Terms
Docs bar foo foo bar
1 1 1 0
я бы найти одну "Foo бар" = 1
Как я могу это исправить?