У меня есть сценарий Python, который будет выглядеть на HTML-файл, который имеет следующий формат:HTML замена тегов с помощью регулярных выражений и питона
<DOC>
<HTML>
...
</HTML>
</DOC>
<DOC>
<HTML>
...
</HTML>
</DOC>
Как удалить все HTML-теги (замените теги с «») за исключением открытия и закрытия тегов DOC с использованием регулярного выражения в Python? Кроме того, если я хочу сохранить альт-текст тега, каково должно быть выражение регулярного выражения?
Вы должны использовать парсер DOM, а не регулярное выражение. См. Http://docs.python.org/library/xml.dom.html –
И можете ли вы уточнить, что вы хотите удалить? –
Я хочу удалить все теги, кроме и теги. –
GobiasKoffi