Я хочу собирать данные из твиттера в течение нескольких недель.twitter API limit limit
Для этого я использую RStudio сервера и кронтаб автоматически запускать несколько сценариев, как следующее:
require(ROAuth)
require(twitteR)
require(plyr)
load("twitter_authentication.Rdata")
registerTwitterOAuth(cred)
searchResults <- searchTwitter("#hashtag", n=15000, since = as.character(Sys.Date()-1), until = as.character(Sys.Date()))
head(searchResults)
tweetsDf = ldply(searchResults, function(t) t$toDataFrame())
write.csv(tweetsDf, file = paste("tweets_test_", Sys.Date() - 1, ".csv", sep = ""))
На несколько дней, я только несколько твитов (до 100) на хэштегом и так скрипт работает плавно. Однако в другие дни будут тысячи твитов для определенного хэштега (конечно, я не использую термин «хэштег», а термин, который мне нужен для моего исследования).
Я могу добавить retryOnRateLimit=10
в serchTwitter
. Но когда я ищу несколько хэштегов каждый день, как я должен называть эти запросы в crontab?
Чтобы упорядочить эти запросы, мне нужно знать, сколько твитов я могу собрать, запустив скрипт один раз в течение 15-минутного интервала времени! Кто-нибудь знает ответ? (Конечно, в соответствии с предельными скоростями API Twitter, я могу сделать
180 запросов в окне
15 минут, но сколько твиты это?)
Я просто попытался собрать вчерашние твиты, в которых упоминалось @WhiteHouse. После более чем 11 000 твитов я достиг предела скорости. – feder80