У меня возникла проблема с итерацией обхода с помощью лучевой терапии. Я извлекаю поле заголовка и поле содержимого. Проблема в том, что я получаю JSON-файл со всеми перечисленными названиями и затем всем содержимым. Я хотел бы получить {title}, {content}, {title}, {content}, что означает, что мне, вероятно, придется перебирать функцию parse. Проблема заключается в том, что я не могу понять, какой элемент я циклический (т.е., for x in [???]
) Вот код:Не уверен, что итерации со скрипом
from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSelector
from scrapy.contrib.spiders import SitemapSpider
from Foo.items import FooItem
class FooSpider(SitemapSpider):
name = "foo"
sitemap_urls = ['http://www.foo.com/sitemap.xml']
#sitemap_rules = [
def parse(self, response):
hxs = HtmlXPathSelector(response)
items = [
item = FooItem()
item['title'] = hxs.select('//span[@class="headline"]/text()').extract()
item['content'] = hxs.select('//div[@class="articletext"]/text()').extract()
items.append(item)
return items