scrapy middleware для пропустить некоторую страницу

Я хочу получить данные только со страниц, где «имя» содержит некоторый узор другие страницы, которые я хочу пропустить.scrapy middleware для пропустить некоторую страницу

Теперь это так

def parse_item(self, response): 
    item=Item() 
    item['name']=response.xpath('//title//text()').extract().first() 
    if "pattern" not in item['name']: 
    return [] 
    else: 
    return item

, как это сделать, как промежуточный слой?

источник

2016-06-08 John Doe

грустно ответил на мой собственный вопрос, но то, что может i do ...

def process_response(self,request, response, spider): 
     if not spider._rules: 
      return response 
     rule_index=request._meta.get('rule',None) 

     response_callback=None 
     if rule_index != None: 
      rule = spider._rules[rule_index] 
      response_callback=rule.callback 


     if response_callback and response_callback == getattr(spider,self.settings['PARSE_FUNCTION']): 
      ## do something 
     return response

источник

2016-06-09 23:49:15

Вы должны использовать Downloader Middleware специально из-за process_response предлагает

из scrapy.exceptions импорта IgnoreRequest

class SkipMiddleware(object): 
    def process_response(self, request, response, spider): 
     if spider.name == 'myspider' and request.callback == spider.parse_item: 
      if 'pattern' not in response.xpath('//title//text()').extract_first(): 
      raise IgnoreRequest 
     return response

забудьте activate it

источник

2016-06-08 23:05:30 eLRuLL

thx, работает отлично –

, но он для всех страниц –

может сделать это только для parse_item()? –

scrapy middleware для пропустить некоторую страницу

ответ

Смежные вопросы