2013-06-19 2 views
1

Я пытаюсь разобрать фрагменты HTML, как это:Синтаксический HTML в Beautiful Soup

<div><span>adrress</span>text of address</div> 

Как я могу взять фрагмент «текст адреса» без программно тег диапазона в Beatiful суп?

Теперь я беру все содержимое DIV и удалить срок, но я думаю, что есть лучший способ

+0

можно использовать regexp? – tanaydin

+3

@tanaydin regexp и html не идут вместе. – kingdamian42

ответ

1
>>> fragment = '<div><span>adrress</span>text of address</div>' 
>>> soup = BeautifulSoup(fragment) 
>>> soup.div.span.nextSibling 
u'text of address' 
0

вот как:

>>> from BeautifulSoup import BeautifulSoup 
>>> text = "<div><span>address</span>text of address</div>" 
>>> print BeautifulSoup(text).find('div').contents[-1] 
text of address 

Извините за мой первый ответ, я неправильно понял вопрос.

Смежные вопросы