Я обработки твиты с tweepy:Как распределить операции с привязкой к I/O в Python?
class StdOutListener(StreamListener):
def on_data(self, data):
process(json.loads(data))
return True
l = StdOutListener()
stream = Stream(auth, l)
stream.filter(track=utf_words)
process
функция получает содержимое URL-адресов (с запросами), включенной в твиты, обрабатывают данные с NLTK (я предполагаю, что это использует немного CPU) и сохраняет результат в Монго.
Проблема в том, что получение содержимого включенных URL-адресов занимает много времени и, следовательно, ограничивает мою скорость обработки. Как я пионически ускоряю эту вещь?
У меня нет Iterable здесь, StreamListener обрабатывает входящие твиты как события, вызывает функцию on_data и блокирует до тех пор, пока это не будет выполнено. Я не уверен, как мне приспособить ваш пример к моему делу. – Moonwalker
Отредактировано для пояснений. – akn320