Я использую Scrapy shell без проблем с несколькими сайтами, но я нахожу проблемы, когда роботы (robots.txt) не разрешают доступ к сайту. Как отключить обнаружение роботов Scrapy (игнорируется существование)? Спасибо заранее. Я не говорю о проекте, созданного Scrapy, но команда Scrapy оболочки: scrapy shell 'www.example.com'
Как отключить robots.txt при запуске scrapy shell?
ответ
В файле settings.py вашего Scrapy проекта, искать ROBOTSTXT_OBEY и установить его на Ложный.
Я изменил файл settings.py, затем запустил команду, и у scrapy shell была цена с учетом изменения для всех остальных. Спасибо за ваше решение. –
Если вы используете scrapy из каталога проектов scrapy shell
, то будут использованы проекты settings.py
. Если вы запустите за пределами проекта, то в рамках этой программы будут использоваться настройки по умолчанию. Однако вы можете переопределить и добавить настройки с помощью флага --set
.
Так, чтобы отключить ROBOTSTXT_OBEY
настройки вы можете просто:
scrapy shell http://stackoverflow.com --set="ROBOTSTXT_OBEY=False"
Когда я запускаю эту команду, у меня есть ошибка: http://pastebin.com/fwVsU4BB –
Команда Scrapy shell проверяет текущие пауки, ища их 'allowed_domains', чтобы соответствовать этим атрибутам паука и пользовательским настройкам текущего сеанса оболочки. Может быть проблема с одним из этих пауков. – eLRuLL
- 1. получение Запретный robots.txt: Scrapy
- 2. robots.txt Как отключить jpg.php
- 3. Scrapy Shell и Scrapy Splash
- 4. Ошибка при запуске проекта Scrapy
- 5. Ошибка при запуске Scrapy проекту
- 6. twisted.internet.error.ConnectError при запуске Scrapy паука
- 7. Как отключить sitemap.xml с robots.txt
- 8. Scrapy не загружается при запуске HttpProxyMiddleware
- 9. Scrapy shell Ошибка
- 10. Scrapy Shell XPath
- 11. Scrapy shell не работает
- 12. Запуск Scrapy из Shell Script
- 13. Scrapy игнорирует robots.txt и не анализирует страницу
- 14. scrapy новичок: учебник. есть ошибка при запуске scrapy crawl dmoz
- 15. scrapy новичок: учебник. ошибка при запуске scrapy crawl dmoz
- 16. Ошибка при запуске нового проекта scrapy
- 17. Ошибка Scrapyd при запуске scrapy spider
- 18. Переполнение памяти при запуске scrapy из скрипта
- 19. Отключить проверку robots.txt в nutch
- 20. SCRAPY ошибка обучающая при запуске ползать
- 21. Невозможно импортировать имя при запуске проекта Scrapy
- 22. Недостаточное разрешение при запуске 'adb shell'
- 23. Как отключить определенную страницу от robots.txt
- 24. Как обрабатывать ошибку 302 в scrapy shell
- 25. Отключить сообщение при запуске системы
- 26. Отключить загрузку @Webservice при запуске
- 27. отключить клавиатуру FnLock при запуске
- 28. Отключить клавиатуру при запуске метода
- 29. Как отключить кеш в scrapy?
- 30. отключить фокус при запуске активности
можно разделить журналы вы получаете при выполнении команды оболочки? – eLRuLL
Журналы: http://pastebin.com/MASXrYb9 –
Журналы показывают, что вы определенно находитесь в проекте Scrapy, что означает, что доступен файл 'settings.py' – eLRuLL