2015-06-23 2 views
0

Я делаю текст добычу с использованием «ТМ» пакетов в R, и я могу получить частоты слов после того, как я Матрица срока документа:Могу ли я проверить частоты заданных слов или фраз в кластеризации документов с помощью R?

freq <- colSums(as.matrix(dtm)) 

ord <- order(freq) 

freq[head(ord)] 
# abit acal access accord across acsess  
# 1  1  1  1  1  1 

freq[tail(ord)]  
# direct save month will thank list  
# 106 107 116 122 132 154 

Он может только представить мне список частот слов по последовательности , Мне было интересно, могу ли я часто проверять частоту слова? Могу ли я также проверить частоту фразы? Например, сколько раз слово «благодарность» находится в текстовом корпусе или какова частота фразы «контактный номер», показанной в этом корпусе?

Большое спасибо за любые подсказки и предложения.

ответ

1

Я показать это по данным из пакета тм:

library(tm) 
data(crude) 
dtm <- as.matrix(DocumentTermMatrix(crude)) 

#find the column that contains the word "demand" 
columnindices <- which(colnames(dtm)=="demand") 

#how often dooes the word "demand" show up? 
sum(dtm[,columnindices]) 
>6 

Если вы хотите сделать это с помощью фраз ваш ЦМР должен содержать эти фразы не только мешок отдельных слов, как он используется в большинстве случаев , если эти данные доступны, процедура такая же, как и для одного слова.

+0

Большое спасибо. Я запустил код с моими данными, но независимо от слов, которые я искал, выходы (counts) всегда были 0 или 1, что неверно, знаете ли вы, почему это произошло? Благодарю. –

+0

Нет, у меня нет идеалов. Может быть, вы можете опубликовать свои данные? –

Смежные вопросы