Я делаю текст добычу с использованием «ТМ» пакетов в R, и я могу получить частоты слов после того, как я Матрица срока документа:Могу ли я проверить частоты заданных слов или фраз в кластеризации документов с помощью R?
freq <- colSums(as.matrix(dtm))
ord <- order(freq)
freq[head(ord)]
# abit acal access accord across acsess
# 1 1 1 1 1 1
freq[tail(ord)]
# direct save month will thank list
# 106 107 116 122 132 154
Он может только представить мне список частот слов по последовательности , Мне было интересно, могу ли я часто проверять частоту слова? Могу ли я также проверить частоту фразы? Например, сколько раз слово «благодарность» находится в текстовом корпусе или какова частота фразы «контактный номер», показанной в этом корпусе?
Большое спасибо за любые подсказки и предложения.
Большое спасибо. Я запустил код с моими данными, но независимо от слов, которые я искал, выходы (counts) всегда были 0 или 1, что неверно, знаете ли вы, почему это произошло? Благодарю. –
Нет, у меня нет идеалов. Может быть, вы можете опубликовать свои данные? –