2016-07-12 2 views
1

Я нахожусь в проекте с R, и я начинаю с него грязными руками.Текстовая обработка с использованием R: использование sub

В первой части я пытаюсь очистить данные от векторных сообщений. Но позже, когда я создаю termdocumentmatrix, эти символы все еще появляются. Я хотел бы удалить слова с менее 4 букв и удалить знаки препинания

gsub("\\b\\w{1,4}\\b ", " ", pclbyshares$msg) 
gsub("[[:punct:]]", "", pclbyshares$msg) 
corpus <- Corpus(VectorSource(pclbyshares$msg)) 
TermDocumentMatrix(corpus) 
tdm <- TermDocumentMatrix(corpus) 
findFreqTerms(tdm, lowfreq=120, highfreq=Inf) 
+1

Просьба представить воспроизводимый пример – akrun

+0

Посмотрите на '' tm_map' и content_transformer' –

ответ

0

Вы еще не сохранили свои первые две строки кода, как переменные для использования в дальнейшем. Итак, в вашей третьей строке, где вы создаете свою переменную corpus, вы используете немодифицированные данные msg. Дайте это попробовать:

msg_clean <- gsub("\\b\\w{1,4}\\b ", " ", pclbyshares$msg) 
msg_clean <- gsub("[[:punct:]]", "", msg_clean) 
corpus <- Corpus(VectorSource(msg_clean)) 
TermDocumentMatrix(corpus) 
tdm <- TermDocumentMatrix(corpus) 
findFreqTerms(tdm, lowfreq = 120, highfreq = Inf) 
+0

Это не похоже, чтобы удалить знаки препинания еще – Claudio

+0

ли 'msg_clean' выглядеть как задумано после? выполняются первые две строки выше? –

Смежные вопросы