Scrapy сканирует первую страницу, но не соответствует ссылкам

Я не могу понять, почему Scrapy сканирует первую страницу, но не следит за ссылками для сканирования последующих страниц. Это должно быть что-то делать с Правилами. Очень признателен. Спасибо!Scrapy сканирует первую страницу, но не соответствует ссылкам

from scrapy.contrib.spiders import CrawlSpider, Rule 
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor 
from scrapy.selector import HtmlXPathSelector 
from craigslist_sample.items import CraigslistItem 

class MySpider(CrawlSpider): 
    name = "craig" 
    allowed_domains = ["sfbay.craigslist.org"] 
    start_urls = ["http://sfbay.craigslist.org/acc/"] 

    rules = (Rule (SgmlLinkExtractor(allow=("index100\.html",),restrict_xpaths=('//p[@id="nextpage"]',)) 
    , callback="parse_items", follow= True), 
    ) 

    def parse_items(self, response): 
     hxs = HtmlXPathSelector(response) 
     titles = hxs.select("//p") 
     items = [] 
     for titles in titles: 
      item = CraigslistItem() 
      item ["title"] = titles.select("a/text()").extract() 
      item ["link"] = titles.select("a/@href").extract() 
      items.append(item) 
     return(items) 

spider = MySpider()

источник

2012-11-05 Michael

Что находится в 'craigs_sample.items'? Можете ли вы поделиться этим фрагментом кода так, чтобы 'из craigslist_sample.items импортировал CraigslistItem'. –

Крейг использует index100, index200, index300 ... на следующих страницах, макс является index900.

rules = (Rule (SgmlLinkExtractor(allow=("index\d00\.html",),restrict_xpaths=('//p[@id="nextpage"]',)) 
, callback="parse_items", follow= True), 
)

работает для меня.

источник

2012-11-05 07:44:28 iMom0

Спасибо! Сейчас работает для меня. – Michael

Scrapy сканирует первую страницу, но не соответствует ссылкам

ответ

Смежные вопросы