Извлеките только подстраницы с помощью LinkExtractor Scrapy.

Я пытаюсь просканировать сайт http://www.funda.nl/koop/amsterdam/, в котором перечислены дома для продажи в Амстердаме, и извлеките данные из подстраниц, таких как http://www.funda.nl/koop/amsterdam/huis-49801360-brede-vogelstraat-2/ для индивидуальных домов. В качестве первого шага я хотел бы сначала получить список всех этих подстраниц. До сих пор у меня есть следующий паук:Извлеките только подстраницы с помощью LinkExtractor Scrapy.

import scrapy 
from scrapy.spiders import CrawlSpider, Rule 
from scrapy.linkextractors import LinkExtractor 
from Funda.items import FundaItem 
from scrapy.shell import inspect_response 

class FundaSpider(CrawlSpider): 
    name = "Funda" 
    allowed_domains = ["funda.nl"] 
    start_urls = ["http://www.funda.nl/koop/amsterdam/"] 

    le1 = LinkExtractor(allow=r'%s+huis-\d{8}' % start_urls[0], allow_domains='funda.nl') 
    rules = (
    Rule(le1, callback='parse_item'), 
    ) 

    def parse_item(self, response): 
     links = self.le1.extract_links(response) 
     for link in links: 
      item = FundaItem() 
      item['url'] = link.url 
      print("The item is "+str(item)) 
      yield item

Если я запускаю этот вывод генерирующего JSON как scrapy crawl Funda -o funda.json, то в результате funda.json выглядит следующим образом (первые несколько только строка):

[ 
{"url": "http://www.funda.nl/koop/amsterdam/huis-49801360-brede-vogelstraat-2/ywavcsbywacbcasxcxq.html"}, 
{"url": "http://www.funda.nl/koop/amsterdam/huis-49801360-brede-vogelstraat-2/"}, 
{"url": "http://www.funda.nl/koop/amsterdam/huis-49801360-brede-vogelstraat-2/print/"}, 
{"url": "http://www.funda.nl/koop/amsterdam/huis-49801360-brede-vogelstraat-2/reageer/"}, 
{"url": "http://www.funda.nl/koop/amsterdam/huis-49801360-brede-vogelstraat-2/bezichtiging/"}, 
{"url": "http://www.funda.nl/koop/amsterdam/huis-49801360-brede-vogelstraat-2/brochure/"}, 
{"url": "http://www.funda.nl/koop/amsterdam/huis-49801360-brede-vogelstraat-2/doorsturen/"}, 
{"url": "http://www.funda.nl/koop/amsterdam/huis-49801360-brede-vogelstraat-2/meld-een-fout/"}, 
{"url": "http://www.funda.nl/koop/amsterdam/huis-49800159-breezandpad-8/ywavcsbywacbcasxcxq.html"}, 
{"url": "http://www.funda.nl/koop/amsterdam/huis-49800159-breezandpad-8/"}, 
{"url": "http://www.funda.nl/koop/amsterdam/huis-49800159-breezandpad-8/print/"}, 
{"url": "http://www.funda.nl/koop/amsterdam/huis-49800159-breezandpad-8/reageer/"}, 
{"url": "http://www.funda.nl/koop/amsterdam/huis-49800159-breezandpad-8/bezichtiging/"}, 
{"url": "http://www.funda.nl/koop/amsterdam/huis-49800159-breezandpad-8/brochure/download/"}, 
{"url": "http://www.funda.nl/koop/amsterdam/huis-49800159-breezandpad-8/doorsturen/"}, 
{"url": "http://www.funda.nl/koop/amsterdam/huis-49800159-breezandpad-8/meld-een-fout/"},

В дополнении к нужным подстраницам http://www.funda.nl/koop/amsterdam/huis-49801360-brede-vogelstraat-2/ и http://www.funda.nl/koop/amsterdam/huis-49800159-breezandpad-8/, есть также много «под-подстраниц», которые я не собирался выбирать. Как я могу выбрать только подстраницы?

источник

2016-07-13 Kurt Peek

Сейчас я добавил if заявления, в котором проверяет, что url имеет нужное количество слэша (6) и заканчивается с косой чертой:

import scrapy 
from scrapy.spiders import CrawlSpider, Rule 
from scrapy.linkextractors import LinkExtractor 
from Funda.items import FundaItem 
from scrapy.shell import inspect_response 

class FundaSpider(CrawlSpider): 
    name = "Funda" 
    allowed_domains = ["funda.nl"] 
    start_urls = ["http://www.funda.nl/koop/amsterdam/"] 

    le1 = LinkExtractor(allow=r'%s+huis-\d{8}' % start_urls[0]) 
    rules = (
    Rule(le1, callback='parse_item'), 
    ) 

    def house_link(link): 
     url = link.url 
     return url.count('/') == 6 and url.endswith('/') 

    def parse_item(self, response): 
     links = self.le1.extract_links(response) 
     for link in links: 
      if link.url.count('/') == 6 and link.url.endswith('/'): 
       item = FundaItem() 
       item['url'] = link.url 
       print("The item is "+str(item)) 
       yield item

Теперь файл JSON генерируется scrapy crawl Funda -o funda.json имеет желательно ограниченное количество URL-адресов:

[ 
{"url": "http://www.funda.nl/koop/amsterdam/huis-49879212-henri-berssenbruggehof-15/"}, 
{"url": "http://www.funda.nl/koop/amsterdam/huis-49713458-jan-vrijmanstraat-29/"}, 
{"url": "http://www.funda.nl/koop/amsterdam/huis-49728947-emmy-andriessestraat-374/"}, 
{"url": "http://www.funda.nl/koop/amsterdam/huis-49800159-breezandpad-8/"}, 
{"url": "http://www.funda.nl/koop/amsterdam/huis-49818887-markiespad-19/"}, 
{"url": "http://www.funda.nl/koop/amsterdam/huis-49801593-jf-berghoefplantsoen-2/"}, 
{"url": "http://www.funda.nl/koop/amsterdam/huis-49890140-talbotstraat-9/"}, 
{"url": "http://www.funda.nl/koop/amsterdam/huis-49805292-nieuwendammerdijk-21/"}, 
{"url": "http://www.funda.nl/koop/amsterdam/huis-49801910-claus-van-amsbergstraat-86/"} 
][ 
{"url": "http://www.funda.nl/koop/amsterdam/huis-49713458-jan-vrijmanstraat-29/"}, 
{"url": "http://www.funda.nl/koop/amsterdam/huis-49701161-johannes-vermeerstraat-16/"}, 
{"url": "http://www.funda.nl/koop/amsterdam/huis-49879212-henri-berssenbruggehof-15/"}, 
{"url": "http://www.funda.nl/koop/amsterdam/huis-49728947-emmy-andriessestraat-374/"}, 
{"url": "http://www.funda.nl/koop/amsterdam/huis-49801593-jf-berghoefplantsoen-2/"}, 
{"url": "http://www.funda.nl/koop/amsterdam/huis-49800159-breezandpad-8/"}, 
{"url": "http://www.funda.nl/koop/amsterdam/huis-49805292-nieuwendammerdijk-21/"}, 
{"url": "http://www.funda.nl/koop/amsterdam/huis-49890140-talbotstraat-9/"}, 
{"url": "http://www.funda.nl/koop/amsterdam/huis-49801910-claus-van-amsbergstraat-86/"}, 
{"url": "http://www.funda.nl/koop/amsterdam/huis-49818887-markiespad-19/"} 
]

Я бы приветствовал более элегантные решения! Мне кажется, что определение глубины ссылки из URL-адреса является такой общей задачей, что для нее уже существуют методы/модули.

источник

2016-07-13 14:42:50

Извлеките только подстраницы с помощью LinkExtractor Scrapy.

ответ

Смежные вопросы