2015-07-18 2 views
1

Использование триграммы-Tokenizer из RWeka классаЧто является первым элементом в моих триграммах?

> TriGramTokenizer <- function(x){NGramTokenizer(x, Weka_control(min=3, max=3))} 

Я лексема в корпусе. Обследование показывает, что триграммы выглядеть следующим образом:

> inspect(tdm_trigram[1:10, 1:3]) 
A term-document matrix (10 terms, 3 documents) 

Non-/sparse entries: 10/20 
Sparsity   : 67% 
Maximal term length: 17 
Weighting   : term frequency (tf) 

          Docs 
Terms      en_US.blogs.capped.txt en_US.news.capped.txt 
    \u0097 age believe        0      1 
    \u0095 all tradeable       0      1 
    \u0093 amazing feat\u0094      0      1 
    \u0097 appear poised       0      1 
    \u0096 areas muslim       0      1 

Что \u0097? Я предварительно обработал свой корпус обычными методами из библиотеки tm (stripWhitespace, удалил пунктуацию и т. Д.).

Должен ли я, возможно, читать с использованием другой кодировки?

ответ

2

Это Unicode control characters, которые вы интерпретировали как слова.

В старых версиях Unicode

  • U + 0097 был КОНЕЦ охраняемой
  • U + 0095 был MESSAGE ЖДЕМ
  • U + 0093 был SET передающих Государственного
  • U + 0096 был START О охраняемой

Вы можете лишить их перед вашими триграммами

Смежные вопросы