получение Запретный robots.txt: Scrapy

ползая сайт как https://www.netflix.com, получение Запретный robots.txt: https://www.netflix.com/>получение Запретный robots.txt: Scrapy

ОШИБКА: Нет ответа скачал для: https://www.netflix.com/

источник

2016-05-17 deepak kumar

Robots.txt это просто текстовый файл, который роботы уважают, он не может запретить вам делать что-либо. У Netflix есть, вероятно, другие препятствия для соскабливания. – Selcuk

В новой версии (scrapy 1.1), запущенной 2016-05-11, сканирование сначала загружает файл robots.txt перед сканированием. Для того, чтобы изменить это изменение поведения в вашем settings.py с ROBOTSTXT_OBEY

ROBOTSTXT_OBEY=False

Вот такие release notes

источник

2016-05-17 14:24:08

Прежде всего вам нужно убедиться, что вы изменяете свой агент пользователя в запросе, иначе пользовательский агент по умолчанию будет заблокирован.

источник

2016-05-17 13:23:52

получение Запретный robots.txt: Scrapy

ответ

Смежные вопросы