Я новичок, используя xpath
, Я хочу извлечь каждый заголовок, тело, ссылки, дата выпуска из this linkизвлекать данные из вложенного XPath
Everthing кажется, хорошо, но не на теле, как извлечь каждое тело на вложенная XPATH, спасибо :) перед
здесь мой источник
from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSelector
from thehack.items import ThehackItem
class MySpider(BaseSpider):
name = "thehack"
allowed_domains = ["thehackernews.com"]
start_urls = ["http://thehackernews.com/search/label/mobile%20hacking"]
def parse(self, response):
hxs = HtmlXPathSelector(response)
titles = hxs.xpath('//article[@class="post item module"]')
items = []
for titles in titles:
item = ThehackItem()
item['title'] = titles.select('span/h2/a/text()').extract()
item['link'] = titles.select('span/h2/a/@href').extract()
item['body'] = titles.select('span/div/div/div/div/a/div/text()').extract()
item['date'] = titles.select('span/div/span/text()').extract()
items.append(item)
return items
кто-нибудь может исправить о Блоке тела? только на теле ... благодаря, прежде чем мате здесь картины инспекционных элементов с сайта
Что вам нужно исправить для '' body''? что вы получаете? что вы ожидаете? –
Я хочу получить основное содержание о статье, в какой статье обсуждается ... , но я ничего не получаю – beboy
Можете ли вы помочь мне paul? – beboy