2014-01-05 5 views
1

У меня есть HTML-файл, и я хочу, чтобы узнать <tr> тегов, идентификатор начинается с «TR», как "id=tr3245", "id=tr8796" и т.д.вывода HTML-теги с питоном

<tr id=tr1256> 
    .... 
</tr> 
<tr id=tr5847> 
    .... 
</tr> 
<tr id=tr8746> 
    .... 
</tr> 
<tr id=tr9844> 
    .... 
</tr> 

Как я могу сделать это с «красивым суп"?

ответ

2

Использование BeautifulSoup.select с tr[id^="tr"] селектора CSS (См Beautiful Soup Documentation - CSS Selector):

from bs4 import BeautifulSoup 

html = ''' 
<tr id=tr1256> 
    .... 
</tr> 
<tr id=tr5847> 
    .... 
</tr> 
<tr id=tr8746> 
    .... 
</tr> 
<tr id=tr9844> 
    .... 
</tr> 
''' 

soup = BeautifulSoup(html) 
for tr in soup.select('tr[id^="tr"]'): 
    print(tr.get('id')) 

печатает

tr1256 
tr5847 
tr8746 
tr9844 
Смежные вопросы