Я работаю над программным обеспечением для очистки экрана и сталкиваюсь с проблемой с Beautiful Soup. Я использую python 2.4.3 и Beautiful Soup 3.0.7a.Ошибка с экстрактом Beautiful Soup()
Мне нужно удалить тег <hr>
, но он может иметь много разных атрибутов, поэтому простой вызов replace() не будет вырезать его.
Учитывая следующий HTML:
<h1>foo</h1>
<h2><hr/>bar</h2>
И следующий код:
soup = BeautifulSoup(string)
bad_tags = soup.findAll('hr');
[tag.extract() for tag in bad_tags]
for i in soup.findAll(['h1', 'h2']):
print i
print i.string
Выход:
<h1>foo</h1>
foo
<h2>bar</h2>
None
ли я недопонимание функцию экстракта, или это ошибка с красивым супом?