Получить содержимое divs HTML с помощью lxml

Я использую python и lxml, чтобы получить содержимое div.article от загрузки ссылок. Я хочу фактическую разметку html div. Но до сих пор мне удалось получить text_content() ссылок, которые удаляют разметку.Получить содержимое divs HTML с помощью lxml

doc = html.fromstring(doc_text) 

article = doc.cssselect("div.article") 

if len(article) > 0: 
    text = article[0].text_content() 

    data = { 
     'product':product, 
     'content': text, 
    }

Может ли кто-нибудь помочь мне получить разметку статьи [0]?

Благодаря

источник

2013-03-11 iamjonesy

Вы можете просто использовать функции итерации узла и строить строку таким образом.

def innerHTML(node): 
    buildString = '' 
    for child in node: 
     buildString += html.tostring(child) 
    return buildString

источник

2013-03-11 16:46:51

Отлично работает, спасибо! – iamjonesy

Получить содержимое divs HTML с помощью lxml

ответ

Смежные вопросы