2013-06-03 2 views
2

Я пытаюсь получить весь текст из div, но хочу исключить некоторый текст в некоторых тегах. Как и весь текст в <header><h2>some text</h2><header> и, возможно, также исключить текст <footer>.Текст Div, но исключает текст тега

У меня уже есть что-то вроде:

tree = <some html> 
XpathArticleSummary = "string(div)" 
divs = tree.xpath(XpathArticleSummary) 

Что я хочу что-то вроде:

XpathArticleSummary = "string(div[not(header|footer)])" 

Но это, конечно, не работает :)

Есть ли способ исключить?

ответ

0

Поскольку вы используете LXML это XPath должен работать:

div//text()[not(parent::footer or parent::header)] 

он должен ГНС вам список текстовых узлов.

+0

Thnx, я заменил родителя предком, так как был вложенный h2 и тег, который не работал. – Geveze

Смежные вопросы