Я использую scrapy для регистрации scigslist и получения всех ссылок, перейдите по этой ссылке, сохраните описание для каждой страницы и отправьте письмо для ответа. Теперь я написал сценарий scrapy, который проходит через Craigslist/sof.com и получает все названия и URL-адреса. Я хочу войти в каждый URL-адрес и сохранить электронную почту и описание для каждой работы. Heres мой код:Scrapy recursively scraping craigslist
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSelector
from craigslist.items import CraigslistItem
class MySpider(BaseSpider):
name = "craig"
allowed_domains = ["craigslist.org"]
start_urls = ["http://sfbay.craigslist.org/npo/"]
def parse(self, response):
hxs = HtmlXPathSelector(response)
titles = hxs.select("//span[@class='pl']")
for titles in titles:
title = titles.select("a/text()").extract()
link = titles.select("a/@href").extract()
desc = titles.select("a/replylink").extract
print link, title
Любые идеи, как это сделать?
Как это сделать? Что-то не так с вашим кодом или вам нужен больше кода? – rickhg12hs
Мне нужно больше кода. Этот код в порядке. Я хочу переписать ссылку, а затем обмануть данные этих ссылок. – Scooby