Я новичок в Scrapy framework & в настоящее время использует его для извлечения статей из нескольких сайтов «Здоровье & Wellness». По некоторым запросам scrapy перенаправляется на домашнюю страницу (это поведение не наблюдается в браузере). Ниже приведен пример:Scrapy перенаправляет на главную страницу для некоторых URL-адресов
Команда: SCRAPY оболочка "http://www.bornfitness.com/blog/page/10/" Результат: 2015-06-19 21: 32: 15 + 0530 [SCRAPY] DEBUG: Веб-служба прослушивает 127.0.0.1:6080 2015- 06-19 21: 32: 15 + 0530 [по умолчанию] INFO: Паук открыт 2015-06-19 21: 32: 15 + 0530 [по умолчанию] DEBUG: перенаправление (301) на http://www.bornfitness.com/ > от http://www.bornfitness.com/blog/page/10/> 2015-06-19 21: 32: 16 + 0530 [по умолчанию] DEBUG: Crawled (200) http://www.bornfitness.com /> (referer: None)
Обратите внимание, что номер страницы в URL-адресе (10) является двузначным числом. Я не вижу этой проблемы с URL-адресами с одностраничным номером страницы (например, 8). Результат: 2015-06-19 21: 43: 15 + 0530 [default] INFO: Паук открыт 2015-06-19 21: 43: 16 + 0530 [default] DEBUG: Crawled (200) http: // www .bornfitness.com/blog/page/8 /> (referer: None)
Вы получаете 301 _before_ 200 за успешную загрузку страницы? т. е. перенаправляет ли страница на стр. 8? – tegancp