Я извлек твиты из twitter с помощью пакета twitteR и сохранил их в текстовом файле.Как очистить данные твиттера в R?
Я выполнил следующие действия на корпус
xx<-tm_map(xx,removeNumbers, lazy=TRUE, 'mc.cores=1')
xx<-tm_map(xx,stripWhitespace, lazy=TRUE, 'mc.cores=1')
xx<-tm_map(xx,removePunctuation, lazy=TRUE, 'mc.cores=1')
xx<-tm_map(xx,strip_retweets, lazy=TRUE, 'mc.cores=1')
xx<-tm_map(xx,removeWords,stopwords(english), lazy=TRUE, 'mc.cores=1')
(с использованием mc.cores = 1 и ленивые = True в противном случае R на макинтош работает на ошибки)
tdm<-TermDocumentMatrix(xx)
Но это матрица долгосрочного документа содержит много странных символов, бессмысленных слов и тому подобное. Если твит
RT @Foxtel: One man stands between us and annihilation: @IanZiering.
Sharknado‚Äã 3: OH HELL NO! - July 23 on Foxtel @SyfyAU
После очистки твит я хочу только собственно полные английские слова, чтобы оставить, то есть предложение/фраза непорочную все остальное (имена пользователей, сокращенных слов, URL)
пример :
One man stands between us and annihilation oh hell no on
(Примечание: команды преобразования в пакете тм только в состоянии удалить стоп-слова, знаки пробелов, а также преобразование в нижнем регистре)
тогда 'sharknado' и' foxtel' будут выполнены, так как они не являются «правильными» английскими словами ... –
Вы видите какие-либо улучшения, если используете, например, 'xx <- tm_map (xx, content_transformer (removePunctuation)" или 'xx <- tm_map (xx, content_transformer (tolower)) '? – RHertel
Точный синтаксис может зависеть от номера версии пакета 'tm', который вы установили. – RHertel