Я пытаюсь отказаться от сайта с помощью scrapy.Сканирование сайта рекурсивно с помощью scrapy
Это код, который я написал до сих пор основан на http://thuongnh.com/building-a-web-crawler-with-scrapy/ (исходного код не работаю вообще, поэтому я попытался восстановить его)
from scrapy.spiders import CrawlSpider, Rule
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import Spider
from scrapy.selector import HtmlXPathSelector
from nettuts.items import NettutsItem
from scrapy.http import Request
from scrapy.linkextractors import LinkExtractor
class MySpider(Spider):
name = "nettuts"
allowed_domains = ["net.tutsplus.com"]
start_urls = ["http://code.tutsplus.com/posts?"]
rules = [Rule(LinkExtractor(allow = ('')), callback = 'parse', follow = True)]
def parse(self, response):
hxs = HtmlXPathSelector(response)
item = []
titles = hxs.xpath('//li[@class="posts__post"]/a/text()').extract()
for title in titles:
item = NettutsItem()
item["title"] = title
yield item
return
Проблемы заключается в том, что гусеничный идет на стартовой страницу, но делает после этого не ломайте страницы.
примера использования этого класса? – Caridorc
@Caridorc это Scrapy, о котором мы говорим. У него есть scrapy cli с разными командами, и он знает, как забрать scrapy spiders в проекте и запустить их. Благодарю. – alecxe