2013-03-11 3 views
1

Я использую python и lxml, чтобы получить содержимое div.article от загрузки ссылок. Я хочу фактическую разметку html div. Но до сих пор мне удалось получить text_content() ссылок, которые удаляют разметку.Получить содержимое divs HTML с помощью lxml

doc = html.fromstring(doc_text) 

article = doc.cssselect("div.article") 

if len(article) > 0: 
    text = article[0].text_content() 

    data = { 
     'product':product, 
     'content': text, 
    } 

Может ли кто-нибудь помочь мне получить разметку статьи [0]?

Благодаря

ответ

4

Вы можете просто использовать функции итерации узла и строить строку таким образом.

def innerHTML(node): 
    buildString = '' 
    for child in node: 
     buildString += html.tostring(child) 
    return buildString 
+0

Отлично работает, спасибо! – iamjonesy

Смежные вопросы