2016-05-17 3 views
26

ползая сайт как https://www.netflix.com, получение Запретный robots.txt: https://www.netflix.com/>получение Запретный robots.txt: Scrapy

ОШИБКА: Нет ответа скачал для: https://www.netflix.com/

+0

Robots.txt это просто текстовый файл, который роботы уважают, он не может запретить вам делать что-либо. У Netflix есть, вероятно, другие препятствия для соскабливания. – Selcuk

ответ

64

В новой версии (scrapy 1.1), запущенной 2016-05-11, сканирование сначала загружает файл robots.txt перед сканированием. Для того, чтобы изменить это изменение поведения в вашем settings.py с ROBOTSTXT_OBEY

ROBOTSTXT_OBEY=False 

Вот такие release notes

0

Прежде всего вам нужно убедиться, что вы изменяете свой агент пользователя в запросе, иначе пользовательский агент по умолчанию будет заблокирован.

Смежные вопросы