У меня есть необработанные HTML-файлы, и я удаляю тег сценария.python Как идентифицировать блок html содержат текст?
Я хочу идентифицировать в DOM элементы блока (например, <h1> <p> <div>
и т. Д., А не <a> <em> <b>
и т. Д.) И заключить их в теги <div>
.
Есть ли простой способ сделать это в python? есть библиотека в питона, чтобы идентифицировать блочный элемент
Благодаря
UPDATE
на самом деле я хочу, чтобы извлечь документ HTML. Мне нужно идентифицировать блоки, содержащие текст. Для каждого текстового элемента я должен найти его ближайший родительский элемент, который отображается как блок. После этого для каждого блока я извлечу функцию, такую как размер и посылка блока.
Посмотрите 'beautifulsoup' https://www.crummy.com/software/BeautifulSoup/bs4/doc/ –
любая достойная поисковая система предоставит вам ответ на этот вопрос ... – jojo
вы должны принять ответ, если было полезно – jojo