2013-10-01 11 views
3

Я использую Scrapy для сканирования веб-сайтов и извлечения данных в json-файл, но я обнаружил, что для некоторых сайтов искатель занимает много времени для сканирования полного веб-сайта.Как увеличить скорость сканирования?

Мой вопрос: Как я могу свести к минимуму время, затрачиваемое на сканирование?

ответ

2

Попробуйте настроить CONCURRENT_ITEMS, CONCURRENT_REQUESTS, CONCURRENT_REQUESTS_PER_DOMAIN и другие настройки.

Для полного списка настроек см http://doc.scrapy.org/en/latest/topics/settings.html

+0

Hi @DaniloBargen .. Спасибо за быстрый ответ. Мой вопрос в идеале заключается в том, что должны быть значения, установленные для CONCURRENT_ITEMS, CONCURRENT_REQUESTS, CONCURRENT_REQUESTS_PER_DOMAIN, чтобы наш искатель работал быстро? Я имею в виду, как я буду решать, какие значения должны быть установлены, или мне нужно делать пробную и ошибку, чтобы увидеть, как это работает? – kishan

+0

Судебная и ошибка. Эти значения очень зависят от веб-сервера сканируемого сайта, а также от вашего интернет-соединения (очевидно). Но вы можете посмотреть значения по умолчанию (см. Документацию) и начать увеличивать их, чтобы наблюдать эффект. –

+0

Привет @DaniloBargen .. Я пробовал устанавливать значения для CONCURRENT_ITEMS, CONCURRENT_REQUESTS, CONCURRENT_REQUESTS_PER_DOMAIN в моем файле Spider. Но веб-сайт, который я использую для извлечения данных, довольно велик, и мне становится трудно проверить время, затраченное на обход всего сайта методом проб и ошибок для этих значений, поскольку мне нужно подождать достаточно времени, чтобы выполнить сканер а затем снова измените значения и тест. Есть ли другой способ для меня, чтобы попробовать сочетание этих значений для определенного сайта, чтобы увидеть результат достаточно быстро, чтобы проверить. Спасибо .. – kishan

Смежные вопросы