Я написал класс для Scrapy для того, чтобы получить часть содержимого страницы, как так:Как извлечь точные метки в Scrapy
#!/usr/bin/python
import html2text
from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSelector
class StockSpider(BaseSpider):
name = "stock_spider"
allowed_domains = ["www.hamshahrionline.ir"]
start_urls = ["http://www.hamshahrionline.ir/details/261730/Health/publichealth"]
def parse(self, response):
hxs = HtmlXPathSelector(response)
# sample = hxs.select("WhatShouldIputHere").extract()[AndHere]
converter = html2text.HTML2Text()
converter.ignore_links = True
print converter.handle(sample)
Моей главной проблемой является государством, что я заметил это.
Как я могу задать для этого путь пути и извлечения?
Можете ли вы направить меня на это и дать мне несколько примеров?
Спасибо
'HtmlXPathSelector' устарел. Используйте «Селектор». См. Это руководство для нескольких примеров: http://doc.scrapy.org/en/latest/topics/selectors.html – helderdarocha