Scrapy xpath удаление текста после <символ

Я пытаюсь получить информацию о продукте с this. Для того, чтобы получить описание (присутствует в нижней части страницы), я использую XPathScrapy xpath удаление текста после <символ

response.xpath('//*[@itemprop="description"]/table//text()').extract()[3].strip()

Это дает мне описание:

u'Color: White, Size:Free Size, With the body: Braided, Buckle: Automatic Deduction, With the body width: section ('

в то время как один присутствующий на сайте является

Color: White, Size:Free Size, With the body: Braided, Buckle: Automatic Deduction, With the body width: section (<2cm), Belt Length: 93cm 
Product Type: Belts, Accessories

Я проверил, что контент на сайте загружается даже после отключения javascript. Что мне здесь не хватает?

источник

2015-11-03 Pravesh Jain

Похоже, что он отключен из-за знака '' ', даже BeautifulSoup вырезает текст после' <'... очень странного – heinst

, это ошибка' parsel', я проверю его в репозитории [здесь] (https://github.com/scrapy/parsel/issues/23) – eLRuLL

ответил ли ответ? – eLRuLL

это все равно должны быть обработаны без каких-либо взломать но вы могли бы получить эту работу с:

from parsel import Selector 
... 

s = Selector(text=response.body_as_unicode(), type='xml') 
s.xpath('//*[@itemprop="description"]/table//text()').extract()[3].strip() 
# gives u'Color: White, Size:Free Size, With the body: Braided, Buckle: Automatic Deduction, With the body width: section (2cm), Belt Length: 93cm'

проблема здесь заключается в том, что parsel (внутренний scrapy анализатор) использует lxml.etree.HtmlParser(recover=True, encoding='utf8'), который удаляет этот вид странных символов избегать проблем.

источник

2015-11-03 15:53:11 eLRuLL

Scrapy xpath удаление текста после <символ

ответ

Смежные вопросы