Я хочу получить данные только со страниц, где «имя» содержит некоторый узор другие страницы, которые я хочу пропустить.scrapy middleware для пропустить некоторую страницу
Теперь это так
def parse_item(self, response):
item=Item()
item['name']=response.xpath('//title//text()').extract().first()
if "pattern" not in item['name']:
return []
else:
return item
, как это сделать, как промежуточный слой?
thx, работает отлично –
, но он для всех страниц –
может сделать это только для parse_item()? –