Как я могу отрицать выскабливание определенных частей веб-сайта, используя Правила в Scrapy.Правило запрета скрининга
Я хочу, чтобы Scrapy выполняла обход ссылок на mathcing www.example.com/help/nl/ en, лишив всех ссылок, соответствующих www.example.com/help/en/ и www.example.com/website/.
У меня есть следующий код:
class MySpider(CrawlSpider):
name = 'myspider'
allowed_domains = ['example.com', ]
start_urls = ['https://www.example.com/help/nl/', ]
rules = (
Rule(SgmlLinkExtractor(allow=(r'/help/nl/',)), callback='parse_response'),
)
Но ползает весь сайт.
UPDATE
Я хочу Scrapy следовать только ссылки, содержащие/помощь/нл/
Rule(SgmlLinkExtractor(allow=(r'/help/nl/',), deny=(other than /help/nl/), callback='parse_response')
Что URL/сайту вы ползаете? – Talvalin
https://online.milieubarometer.nl/help/nl/ – nelsonvarela
Какова ценность 'downloader/response_count' при запуске искателя (он будет показан в конце журнала), и вы могли бы отредактировать вопрос показать некоторые из страниц сканирования, которые вы хотите исключить? Я просто запустил код с вашим правилом и правилом akhter, и то же количество страниц было сканировано, и все они имели форму «./help/nl/». – Talvalin