Что делает этот параметр разреженности в removeSparseTerms?Удаление разреженности в матрице
Это работает.
TrigramTokenizer <- function(x) NGramTokenizer(x, Weka_control(min = 3, max = 3))
BigramTokenizer <- function(x) NGramTokenizer(x, Weka_control(min = 2, max = 2))
tdm <- DocumentTermMatrix(corpus, control = list(tokenize = TrigramTokenizer))
x <- as.matrix(removeSparseTerms(tdm, 0.99991))
Однако, когда я изменяю к
x <- as.matrix(removeSparseTerms(tdm, 0.10))
Это не работает. Матрица возвращает разреженную матрицу. Я не понимаю его правильно? Параметр 0.10 определяет, что этот термин должен присутствовать как минимум в 10% документов в корпусе?
Это из-за разреженности моей матрицы?
Запуск корпуса возвращает этот результат
corpus
<<DocumentTermMatrix (documents: 42695, terms: 326740)>>
Non-/sparse entries: 393990/13949770310
Sparsity : 100%
Maximal term length: 97
Weighting : term frequency (tf)