BeautifulSoup - Как извлечь подстроку строки между тегами?

-1

Я хотел бы искать HTML для «Веб-сайт:», а затем вернуться «http://www.aa.com»BeautifulSoup - Как извлечь подстроку строки между тегами?

<br>Website: <a href="http://www.aa.com">http://www.aa.com</a><br>

Я не уверен, что делать здесь, так как есть пункт между двумя строками.

источник

2015-04-20 Leet Haxor

Вы можете найти текст; результат в NavigableString объект, который сохраняет информацию о том, где в дереве он живет, а значит, вы можете задать его на следующий собрата из этого элемента:

>>> from bs4 import BeautifulSoup 
>>> import re 
>>> sample = '''\ 
... <br>Website: <a href="http://www.aa.com">http://www.aa.com</a><br> 
... ''' 
>>> soup = BeautifulSoup(sample) 
>>> soup.find(text=re.compile('Website:')) 
u'Website: ' 
>>> soup.find(text=re.compile('Website:')).next_sibling 
<a href="http://www.aa.com">http://www.aa.com</a>

После того, как у вас есть <a> элемент получает либо атрибут href или содержащий текст является тривиальным:

>>> soup.find(text=re.compile('Website:')).next_sibling['href'] 
'http://www.aa.com' 
>>> soup.find(text=re.compile('Website:')).next_sibling.string 
u'http://www.aa.com'

источник

2015-04-20 15:29:13

Подумайте о своем содержании как о дереве, а не о строке.
Beautifulsoup дает вам доступ к дереву разбора, выдает findall('a'), затем перемещайтесь по парсету с parent() и contents(), вы также можете перейти на siblings.

источник

2015-04-20 15:27:03

BeautifulSoup - Как извлечь подстроку строки между тегами?

ответ

Смежные вопросы