В настоящее время я просматриваю сайт, чтобы извлечь информацию о продукте. Сайт состоит из миллионов [около 20 миллионов] информации о продукте, и мне нужно извлечь каждый из них. Мне нужно ускорить скорость сканирования, так как мой искатель в настоящее время очищает всего несколько сотен страниц в минуту.scrapy speed up crawling
Вот мой пример кода сканера.
class XYSspider(CrawlSpider):
name = "XYZ"
allowed_domains = ["www.xyz.info"]
start_urls = ['http://www.xyz.info/']
rules = [
Rule(LinkExtractor(allow=r'\.kat$'), follow=True),
Rule(LinkExtractor(allow=r'/id_\d+/'), callback='parse_product'),
]
def parse_product(self, response):
item = DmozItem()
item['title'] = response.xpath('//title/text()').extract()[0].encode('utf-8')
yield item
Есть ли способ ускорить процесс обхода. При текущей скорости мне потребовались бы несколько дней, чтобы очистить все данные. Любые идеи будут действительно полезными. Thankyou