Я пытаюсь отказаться от <span class= ''>
. Код выглядит следующим образом на страницах я слом:BeautifulSoup Scrapping Span Class HTML
< span class = "catnum"> Disc Number </span>
"1"
<br>
< span class = "catnum"> Track Number </span>
"1"
< br>
< span class = "catnum" > Duration < /span>
"5:28"
<br>
Что мне нужно, чтобы получить эти цифры являются после </span>
тега. Я также хотел бы упомянуть, что я пишу большую часть кода, который обрывает 1200 сайтов, и для этого потребуется перебрать более 1200 сайтов, где числа в кавычках будут меняться со страницы на страницу.
Я попробовал этот код в качестве теста на одной странице:
from bs4 import BeautifulSoup
soup = BeautifulSoup (open("Smith.html"), "html.parser")
for tag in soup.findAll('span'):
if tag.has_key('class'):
if tag['class'] == 'catnum':
print tag.string
Я знаю, что будет печатать все тег «класса пяди», а не только три я хочу, но я думал, что еще проверить его чтобы увидеть, если он работал, и я получил эту ошибку:
/Library/Python/2.7/site-packages/bs4/element.py:1527: UserWarning: has_key is deprecated. Use has_attr("class") instead. key))
'[span.next_sibling.strip() для диапазона в soup.select ("span.catnum")]' –