Использование триграммы-Tokenizer из RWeka
классаЧто является первым элементом в моих триграммах?
> TriGramTokenizer <- function(x){NGramTokenizer(x, Weka_control(min=3, max=3))}
Я лексема в корпусе. Обследование показывает, что триграммы выглядеть следующим образом:
> inspect(tdm_trigram[1:10, 1:3])
A term-document matrix (10 terms, 3 documents)
Non-/sparse entries: 10/20
Sparsity : 67%
Maximal term length: 17
Weighting : term frequency (tf)
Docs
Terms en_US.blogs.capped.txt en_US.news.capped.txt
\u0097 age believe 0 1
\u0095 all tradeable 0 1
\u0093 amazing feat\u0094 0 1
\u0097 appear poised 0 1
\u0096 areas muslim 0 1
Что \u0097
? Я предварительно обработал свой корпус обычными методами из библиотеки tm
(stripWhitespace, удалил пунктуацию и т. Д.).
Должен ли я, возможно, читать с использованием другой кодировки?