ползая сайт как https://www.netflix.com, получение Запретный robots.txt: https://www.netflix.com/>получение Запретный robots.txt: Scrapy
ОШИБКА: Нет ответа скачал для: https://www.netflix.com/
ползая сайт как https://www.netflix.com, получение Запретный robots.txt: https://www.netflix.com/>получение Запретный robots.txt: Scrapy
ОШИБКА: Нет ответа скачал для: https://www.netflix.com/
В новой версии (scrapy 1.1), запущенной 2016-05-11, сканирование сначала загружает файл robots.txt перед сканированием. Для того, чтобы изменить это изменение поведения в вашем settings.py
с ROBOTSTXT_OBEY
ROBOTSTXT_OBEY=False
Вот такие release notes
Прежде всего вам нужно убедиться, что вы изменяете свой агент пользователя в запросе, иначе пользовательский агент по умолчанию будет заблокирован.
Robots.txt это просто текстовый файл, который роботы уважают, он не может запретить вам делать что-либо. У Netflix есть, вероятно, другие препятствия для соскабливания. – Selcuk