Я использую BeautifulSoup для вытягивания текста из html-документа, который затем будет передан в NLTK для некоторого анализа. В файле HTML есть разрывы страниц. Разрывы страниц вызывают разделение непрерывных абзацев.Удаление разрывов страниц с BeautifulSoup
from bs4 import BeautifulSoup
soup = BeautifulSoup(html, "html5lib")
txt = (soup.get_text())
print(txt)
Разрезные пункты выглядеть следующим образом:
Документ содержит несколько абзацев. Каждый из пунктов состоит из нескольких
-6-
предложения из слов. Слова составлены из писем.
Мысли о том, как удалить разрыв страницы и иметь полный абзац для того, чтобы сделать это?
поэтому все ваши «разрывы страниц» имеют форму, которую вы описываете в примере? т. е. -page- и затем пучок пустых пространств? – mircealungu
Спасибо за быстрый ответ. Я., они все такие. – ashap