привет им пытаются использовать crawlspider и я создал мой собственный запрещающих правилSCRAPY паук перепускной отрицать мои правила
class MySpider(CrawlSpider):
name = "craigs"
allowed_domains = ["careers-cooperhealth.icims.com"]
start_urls = ["careers-cooperhealth.icims.com"]
d= [0-9]
path_deny_base = [ '.(login)', '.(intro)', '(candidate)', '(referral)', '(reminder)', '(/search)',]
rules = (Rule (SgmlLinkExtractor(deny = path_deny_base,
allow=('careers-cooperhealth.icims.com/jobs/…;*')),
callback="parse_items",
follow= True),)
еще мой паук для обхода страниц, как https://careers-cooperhealth.icims.com/jobs/22660/registered-nurse-prn/login где Логин не должны сканироваться, что здесь проблема?
Опубликовать весь ваш класс пауков. – Blender
класс MySpider (CrawlSpider): Name = "Craigs" allowed_domains = [ "careers-cooperhealth.icims.com"] start_urls = [ "https://careers-cooperhealth.icims.com"] д = [ 0-9] path_deny_base = [ '(Логин)', '(интро)', '(кандидат)', '(направление)', '(напоминание)', «(/ поиск) ',] rules = (правило (SgmlLinkExtractor (deny = path_deny_base, allow = (' https://careers-cooperhealth.icims.com/jobs/ '), restrict_xpaths = (' * ')) , callback = «parse_items», follow = True), ) – chano
Отредактируйте это в свой вопрос. Трудно читать, когда все в одной строке. – Blender