Правило запрета скрининга

Как я могу отрицать выскабливание определенных частей веб-сайта, используя Правила в Scrapy.Правило запрета скрининга

Я хочу, чтобы Scrapy выполняла обход ссылок на mathcing www.example.com/help/nl/ en, лишив всех ссылок, соответствующих www.example.com/help/en/ и www.example.com/website/.

У меня есть следующий код:

class MySpider(CrawlSpider): 
    name = 'myspider' 
    allowed_domains = ['example.com', ] 
    start_urls = ['https://www.example.com/help/nl/', ] 
    rules = (
     Rule(SgmlLinkExtractor(allow=(r'/help/nl/',)), callback='parse_response'), 
    )

Но ползает весь сайт.

UPDATE

Я хочу Scrapy следовать только ссылки, содержащие/помощь/нл/

Rule(SgmlLinkExtractor(allow=(r'/help/nl/',), deny=(other than /help/nl/), callback='parse_response')

источник

2013-03-18 nelsonvarela

Что URL/сайту вы ползаете? – Talvalin

https://online.milieubarometer.nl/help/nl/ – nelsonvarela

Какова ценность 'downloader/response_count' при запуске искателя (он будет показан в конце журнала), и вы могли бы отредактировать вопрос показать некоторые из страниц сканирования, которые вы хотите исключить? Я просто запустил код с вашим правилом и правилом akhter, и то же количество страниц было сканировано, и все они имели форму «./help/nl/». – Talvalin

попробовать это

class MySpider(CrawlSpider): 
    name = 'myspider' 
    allowed_domains = ['example.com', ] 
    start_urls = ['https://www.example.com/help/nl/', ] 
    rules = (
     Rule(SgmlLinkExtractor(allow=(r'/help/nl/',),deny=(r'/en/$',r'/website/$',)), callback='parse_response'), 
    )

источник

2013-03-18 13:44:26

Я пробовал это, но scrapy все еще сканирует сайт enitre. – nelsonvarela

Мое решение было очень похоже на @akhter ответ. Однако я не использовал регулярное выражение.

я использовал:

deny=('/help', '/website')

Он должен сделать так, чтобы он блокирует все, что имеет, что в URL (/ помощь/или веб-сайте)

Надеется, что это помогает

источник

2016-04-27 23:27:17

Правило запрета скрининга

ответ

Смежные вопросы