Рассмотрите текст на this page. Если вы посмотрите на исходный код, вы увидите, что основной текст представлен точно так же, как на странице - без HTML-разделов или каким-либо другим способом явно найти абзацы/вкладки в разделах.Идентификация разделов, вложенных из исходного текста
Есть ли способ автоматически идентифицировать и удалить разделы, которые вставляются из необработанного текста?
Одна вещь, которую я замечаю, заключается в том, что когда я кодирую текст как text = unicode(raw_text).encode("utf-8")
, я могу увидеть кучу \ n для линейных пропусков. Но нет. (Это может быть не полезным направлением мысли, а просто идеей).
Edit: Следующие работы
text = unicode(raw_text).encode("utf-8")
y = [x for x in text.split("\n") if " " not in x]
final = " ".join(y)
Я бы сказал, что '\ п \ s \ s' раздел пункта, тогда как символ новой строки следуют более двух пространств является раздел с вкладками. Кажется, что RegEx - это путь. – slider