Привет, мне нужна помощь со следующим кодом для навигации и получения данных с оставшихся страниц в ссылке, упомянутой в start_urls. Пожалуйста, помогитеscrapy переход на следующие страницы, перечисленные на первой странице обхода
class texashealthspider(CrawlSpider):
name="texashealth2"
allowed_domains=['www.texashealth.org']
start_urls=['http://jobs.texashealth.org/search/']
rules=(
Rule(SgmlLinkExtractor(allow=("startrow=\d",)),callback="parse",follow=True),
)
def parse(self, response):
hxs=HtmlXPathSelector(response)
titles=hxs.select('//tbody/tr/td')
items = []
for titles in titles:
item=TexashealthItem()
item['title']=titles.select('span[@class="jobTitle"]/a/text()').extract()
item['link']=titles.select('span[@class="jobTitle"]/a/@href').extract()
item['shifttype']=titles.select('span[@class="jobShiftType"]/text()').extract()
item['location']=titles.select('span[@class="jobLocation"]/text()').extract()
items.append(item)
print items
return items
Что происходит? что не так? –
Навигация не происходил на страницах, которые были на веб-странице. Scrapy сканировалась только через стартовую страницу и не ползала по остальным страницам. – Abhishek