2016-05-06 3 views
5

Я пытаюсь очистить Amazon от Scrapy. , но у меня есть эта ошибкаКак предотвратить попадание в черный список при очистке Amazon

DEBUG: Retrying <GET http://www.amazon.fr/Amuses-bouche-Peuvent-b%C3%A9n%C3%A9ficier-dAmazon-Premium-Epicerie/s?ie=UTF8&page=1&rh=n%3A6356734031%2Cp_76%3A437878031> 
(failed 1 times): 503 Service Unavailable 

Я думаю, что это потому, что = Amazon очень хороша в обнаружении ботов. Как я могу предотвратить это?

я использовал time.sleep(6) перед каждым запросом.

Я не хочу использовать их API.

Я попытался я использовать Tor и polipo

+0

hows the tor + polipo? это работает? –

+0

@ ji-ruh для amazon non – parik

ответ

4

Вы должны быть очень осторожны с Amazon и следовать Условия использования Amazon и политики, связанной с веб-соскоб.

Amazon неплохо запрещает IP-адреса ботов. Вам нужно было бы настроить DOWNLOAD_DELAY и CONCURRENT_REQUESTS, чтобы попасть на сайт реже и быть хорошим гражданином, очищающим веб-страницы. И вам нужно будет вращать IP-адреса (вы можете посмотреть, например, crawlera) и user agents.

+2

Да, Crawlera, я бы также рекомендовал добавить scrapyjs/splash в ваш стек, так как Amazon часто имеет динамические элементы страницы. –

+0

Если я использую Crawlera, будет ли соскребать так быстро, как рекомендация Кролеры? 'CONCURRENT_REQUESTS = 32 CONCURRENT_REQUESTS_PER_DOMAIN = 32 AUTOTHROTTLE_ENABLED = False DOWNLOAD_TIMEOUT = 300' –

0

Это также может быть интересно для вас, basic scrapy setup с двумя посредниками, одно для случайного IP-адреса и второе для случайных агентов пользователя.

+0

Я использую tor и polipo, но я занесен в черный список. – parik

+0

Если вы считаете, что это может помочь, поделитесь своими посредниками, чтобы мы могли что-то попробовать. Никогда не используйте Polipo, проверьте это! – BB04Deng

+0

теперь я использую Crawlera, и он работает – parik

Смежные вопросы