Я использую метод urllib.urlopen()
и BeautfulSoup для ползания. Я не доволен скоростью просмотра, и я думаю о том, что анализирует urllib, предполагая, что он загружает больше, чем только html. Не удалось найти в документах, читает ли он или проверяет большие данные (изображения, вспышки, ...) по умолчанию.Как ускорить сканирование веб-страниц в Python?
Итак, если urllib должен загружать i.e изображения, flash, js ... как избежать запроса GET для таких типов данных?
Вы пытаетесь загрузить несколько сайтов одновременно? – Floris
Да, спасибо, что спросили. – Alex
Взгляните на вопрос [здесь] (http://stackoverflow.com/questions/4119680/multiple-asynchronous-connections-with-urllib2-or-other-http-library) - возможно, вы можете использовать эти методы для больше запросов одновременно. Может иметь большое значение (с достаточной пропускной способностью, большая часть задержки «ждет»). – Floris