Я нахожусь в проекте с R, и я начинаю с него грязными руками.Текстовая обработка с использованием R: использование sub
В первой части я пытаюсь очистить данные от векторных сообщений. Но позже, когда я создаю termdocumentmatrix
, эти символы все еще появляются. Я хотел бы удалить слова с менее 4 букв и удалить знаки препинания
gsub("\\b\\w{1,4}\\b ", " ", pclbyshares$msg)
gsub("[[:punct:]]", "", pclbyshares$msg)
corpus <- Corpus(VectorSource(pclbyshares$msg))
TermDocumentMatrix(corpus)
tdm <- TermDocumentMatrix(corpus)
findFreqTerms(tdm, lowfreq=120, highfreq=Inf)
Просьба представить воспроизводимый пример – akrun
Посмотрите на '' tm_map' и content_transformer' –