Я пытаюсь сканировать веб-сайт, со страницы продукта я пытаюсь лом описания продукта, но как я выбрать только описание продукта:Как ограничить паук сканировать определенные XPaths с помощью Scrapy
xPath : hxs.select('//div[@class="product-shop"]/p/text()').extract()
HTML, достаточно большой, чтобы увидеть, пожалуйста, по ссылке, указанной выше ..
Я хочу только хотите, чтобы выбрать описание продукта не другие детали ...
Если я это сделать:
[" ".join([i.strip() for i in hxs.select('//div[@class="product-shop"]/p/text()').extract()])]
output :
[u'Itemcode: 12BTS28271 Brand: BASICS InStock - Ships within 2 business days. Tip: 90% of our shipments reach within 4 business days! This product is part of the Basics T.shirts line made of 100% Cotton. Stripes Muscle Fit T.shirts that come in Green Color. Casual that comes with Henley away.']
Но я хочу только:
[u'This product is part of the Basics T.shirts line made of 100% Cotton. Stripes Muscle Fit T.shirts that come in Green Color. Casual that comes with Henley away.']
Есть ли какое-либо регулярное выражение или что-то, чтобы избежать ненужных xPaths –