Как ограничить паук сканировать определенные XPaths с помощью Scrapy

Я пытаюсь сканировать веб-сайт, со страницы продукта я пытаюсь лом описания продукта, но как я выбрать только описание продукта:Как ограничить паук сканировать определенные XPaths с помощью Scrapy

link to page

xPath : hxs.select('//div[@class="product-shop"]/p/text()').extract()

HTML, достаточно большой, чтобы увидеть, пожалуйста, по ссылке, указанной выше ..

Я хочу только хотите, чтобы выбрать описание продукта не другие детали ...

Если я это сделать:

[" ".join([i.strip() for i in hxs.select('//div[@class="product-shop"]/p/text()').extract()])] 

output : 
[u'Itemcode: 12BTS28271 Brand: BASICS InStock - Ships within 2 business days. Tip: 90% of our shipments reach within 4 business days! This product is part of the Basics T.shirts line made of 100% Cotton. Stripes Muscle Fit T.shirts that come in Green Color. Casual that comes with Henley away.']

Но я хочу только:

[u'This product is part of the Basics T.shirts line made of 100% Cotton. Stripes Muscle Fit T.shirts that come in Green Color. Casual that comes with Henley away.']

источник

2013-06-25 vaibhav jain

Есть ли какое-либо регулярное выражение или что-то, чтобы избежать ненужных xPaths –

Rightclicking на элементе в панели элементов в хром говорит мне:

enter image description here

//*[@id="product_addtocart_form"]/div[2]/div[1]/p[3]

Баллы к

<p>This product is part of the Basics T.shirts line made of 100% Cotton.<br> 
         Stripes Muscle Fit T.shirts that come in Green Color.<br> 
         Casual that comes with Henley away.</p>

Попытка тот же XPATH на this page также указывает на описание там тоже:

<p>This product is part of the Basics Shirts line made of 100% Cotton.<br> 
        Plain Slim Fit Shirts that come in Orange Color.<br> 
        Casual that comes with Button Down away.</p>

Так это выглядит, как все, что вам нужно сделать, это позвонить, что XPATH на странице и вы установите. Вы все равно должны убедиться, что XPATH работает во всех случаях, хотя он всегда подвержен изменениям в зависимости от страницы.

источник

2013-06-25 14:05:42 TankorSmash

Спасибо, я не знал, что xPath также может быть написано как 'div [2]' ..that .... thanks –

@ user2217267 С удовольствием! – TankorSmash

Как ограничить паук сканировать определенные XPaths с помощью Scrapy

ответ

Смежные вопросы