2016-03-08 3 views
0

Открыть html-файл в браузере, скопировать текст и вставить его в документ-документ. Весь текст вставляется вместе с соответствующим форматированием и интервалом.Как читать html-текст с форматированием с использованием красивого супа

Как сделать то же самое в python.

soup.get_text() читает весь текст, но форматирование идет на бросок.

Я пробовал читать весь html. Однако при наличии сложных таблиц в html, Чтение только отображаемого текста является сложной задачей.

ответ

0

soup.get_text() извлечь необработанный текст из файла, без HTML-теги и стили CSS, используемые для форматирования (как h1, p, strong ...)

Вы должны явно извлечь блоки вы insterested в

Для супа, как:.

html = "<h1>Title</h1><p>Text</p>" 

вы можете получить заголовок и абзац:

for tag in soup.find_all(['h1', 'p']): 
    print tag 

Выходы:

<h1>Title</h1> 
<p>Text</p> 
<p>Other text</p> 
Смежные вопросы