2016-11-26 4 views
3

Я использую Scrapy shell без проблем с несколькими сайтами, но я нахожу проблемы, когда роботы (robots.txt) не разрешают доступ к сайту. Как отключить обнаружение роботов Scrapy (игнорируется существование)? Спасибо заранее. Я не говорю о проекте, созданного Scrapy, но команда Scrapy оболочки: scrapy shell 'www.example.com'Как отключить robots.txt при запуске scrapy shell?

+0

можно разделить журналы вы получаете при выполнении команды оболочки? – eLRuLL

+0

Журналы: http://pastebin.com/MASXrYb9 –

+0

Журналы показывают, что вы определенно находитесь в проекте Scrapy, что означает, что доступен файл 'settings.py' – eLRuLL

ответ

3

В файле settings.py вашего Scrapy проекта, искать ROBOTSTXT_OBEY и установить его на Ложный.

+0

Я изменил файл settings.py, затем запустил команду, и у scrapy shell была цена с учетом изменения для всех остальных. Спасибо за ваше решение. –

2

Если вы используете scrapy из каталога проектов scrapy shell, то будут использованы проекты settings.py. Если вы запустите за пределами проекта, то в рамках этой программы будут использоваться настройки по умолчанию. Однако вы можете переопределить и добавить настройки с помощью флага --set.
Так, чтобы отключить ROBOTSTXT_OBEY настройки вы можете просто:

scrapy shell http://stackoverflow.com --set="ROBOTSTXT_OBEY=False" 
+0

Когда я запускаю эту команду, у меня есть ошибка: http://pastebin.com/fwVsU4BB –

+0

Команда Scrapy shell проверяет текущие пауки, ища их 'allowed_domains', чтобы соответствовать этим атрибутам паука и пользовательским настройкам текущего сеанса оболочки. Может быть проблема с одним из этих пауков. – eLRuLL

Смежные вопросы