в HTML-файл, я получил следующие вхождения:Handle HTML-теги с помощью питона
<span class="finereader"></span>
или
<span class="finereader">a</span>
Я хотел бы, чтобы удалить все эти теги. Второй пример показывает, что возможно, что в теге есть буква (или номер, но только 1). Письмо не следует удалять, только <span class="finereader">
и следующие </span>
. Есть ли какое-либо re.sub-выражение, которое может это сделать? Спасибо за любую помощь.
Возможно ли использование строк или LXML? Поскольку я работал с lxml ... и если я правильно понял, BS - это просто альтернатива lxml, не так ли? – MarkF6
@ MarkF6: 'BeautifulSoup' может использовать несколько парсеров, один из которых' lxml'. Взгляните на http://www.crummy.com/software/BeautifulSoup/bs4/doc/#installing-a-parser – Birei
Большое спасибо. Это сработало. Но у меня есть последняя проблема: макет, который создает BS (со всеми изменениями), мне не помогает; на самом деле, я бы вообще не хотел менять. Есть ли возможность достичь этого с помощью BS? – MarkF6