2016-11-27 5 views
1

Im пытается использовать scrapy для ползания www.mywebsite.com.Сканирование перенаправленных URL-адресов с помощью scrapy

www.mywebsite.com размещен на бесплатном хосте с адресом www.mywebsite.freehost.com. Я перенаправляю бесплатный хост на мой платный домен.

Проблема заключается в том, что scrapy игнорирует перенаправление, и конечный результат состоит в том, что сбрасываются 0 страниц.

Как я могу рассказать, что мне нужно, чтобы просканировать перенаправленный URL? Мне нужно только это просканировать перенаправлены URL, а не другие страницы сайта, которые ведут из веб-сайта (например, facebook страниц и т.д.)

2016-11-27 14:48:42 [scrapy] INFO: Spider opened 
2016-11-27 14:48:42 [scrapy] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min) 
2016-11-27 14:48:42 [scrapy] DEBUG: Telnet console listening on 127.0.0.1:6023 
2016-11-27 14:48:44 [scrapy] DEBUG: Crawled (200) <GET http://www.mywebsite.com/> (referer: None) 
2016-11-27 14:48:44 [scrapy] DEBUG: Filtered offsite request to 'www.mywebsite.freehost.net': <GET www.mywebsite.freehost.net> 
2016-11-27 14:48:44 [scrapy] INFO: Closing spider (finished) 
2016-11-27 14:48:44 [scrapy] INFO: Dumping Scrapy stats: 

ответ

1

Журналы показывают, что запрос фильтруется:

DEBUG: Filtered offsite request to 'www.mywebsite.freehost.net': <GET www.mywebsite.freehost.net> 

Добавьте этот домен freehost.net в свой список allowed_domains или удалите allowed_domains со своего паука, чтобы разрешить каждый домен.

Смежные вопросы