2016-02-10 2 views
1

В этой программе я пытаюсь прочитать определенное количество твитов определенным пользователем и показать его данные чириканья после обработки, но проблема в том, что я указываю количество твитов, как 10, тогда он работает хорошо. .Проблема с покачиванием твитов в R

Код snipet

#Tweet processing 
library("twitteR") 
library("tm") 

tweets_process<-function(){ 




tweets<-userTimeline("roypartha97",n=100) 

tweets.df<-twListToDF(tweets) 


mycorpus<-Corpus(VectorSource(tweets.df$text)) 
mycorpus<-tm_map(mycorpus,content_transformer(tolower)) 
mycorpus<-tm_map(mycorpus,removePunctuation) 
mycorpus<-tm_map(mycorpus,removeNumbers) 

removeUrl<-function(x) gsub("http[:alnum:]*","",x) 

mycorpus<-tm_map(mycorpus,removeUrl) 
mycorpus<-tm_map(mycorpus,removeWords,stopwords("english")) 

mycorpusCopy<-mycorpus 
mycorpus<-tm_map(mycorpus,stemDocument,language="english",lazy=TRUE) 

for(i in 1:5) 
{ 
    cat(paste("[",i,"]",sep="")) 
    writeLines(mycorpus[[i]]) 
} 

#mycorpus<-tm_map(mycorpus,stemCompletion,dictionary=mycorpusCopy,lazy=TRUE) 

#tdm<-TermDocumentMatrix(mycorpus,control=list(wordLengths=c(1,Inf))) 
#print(tdm) 


} 

Но когда я меняю количество твитов 100 от 10, приходят эти проблемы -

[1]Error in UseMethod("stemDocument", x) : 
    no applicable method for 'stemDocument' applied to an object of class "try-error" 
In addition: Warning messages: 
1: In mclapply(content(x), FUN, ...) : 
    scheduled core 1 encountered error in user code, all values of the job will be affected 
2: In mclapply(content(x), FUN, ...) : 
    scheduled core 1 encountered error in user code, all values of the job will be affected 
3: In mclapply(content(x), FUN, ...) : 
    scheduled core 1 encountered error in user code, all values of the job will be affected 
4: In mclapply(content(x), FUN, ...) : 
    scheduled core 1 encountered error in user code, all values of the job will be affected 
> 
+1

Вы уверены, что вы аутентифицирован первым? –

+1

'gsub (" http [: alnum:] * "," ", x)' Я предполагаю, что это должно быть 'https?: // [^] *' работать должным образом. (Отключить тему для вопроса, но стоит отметить, я думаю) – Tensibai

+0

Я выполнил аутентификацию. Даже я получаю ожидаемый результат, когда количество твитов равно 10. –

ответ

1

После многих попыток, что я сделал в т шаг создания документа DocumentTermMatrix, я определил процесс очистки и его работу.

это то, что я использовал -

tdm = TermDocumentMatrix(mycorpus,control=list(removepunctuation=TRUE,stopwords=c(stopwords("english"),customstopwords),removeNumbers=TRUE,tolower=TRUE)) 
Смежные вопросы