Python находит полужирный текст в RTF

-1

Я имею дело с гигантским текстовым файлом, где каждая запись начинается с жирного названия. Было бы очень полезно импортировать богатый текстовый файл в Python и разделить строки там, где он видит жирный текст. Однако я не могу найти способ импорта не открытого текста и прибегать к поиску других методов поиска, где начинается жирный текст.Python находит полужирный текст в RTF

Есть ли способ заставить Python читать, где жирный текст?

источник

2015-06-07 peglegosaurus

Нет, не легко. Конечно, не в пределах ответа StackOverflow.

Проблема заключается в том, что RTF является проприетарным форматом со специальным «синтаксисом», который описывает формат.

Есть библиотеки, которые делают попытку читать, которые описаны здесь: Is there a Python module for converting RTF to plain text?

Однако, даже если один из тех, кто будет читать текст для вас, было бы вряд ли будет говорить вам формат. В конце концов, как бы вы это сказали?

Ваш лучший выбор может заключаться в поиске конвертера RTF в HTML (по крайней мере, один упоминается в вопросе, на который я указал), а затем используя BeautifulSoup, чтобы найти выделенные элементы HTML.

источник

2015-06-07 13:23:23 GreenAsJade

Согласно Wikipedia ...

{\rtf1\ansi{\fonttbl\f0\fswiss Helvetica;}\f0\pard 
This is some {\b bold} text.\par 
}

Если вы хотите разбить на новые линии, я думаю, что вы могли бы сделать .replace('{\\b ', '\n') и быть большую часть пути туда. Переключитесь на замену регулярных выражений, если вы также хотите отбросить другую. }

источник

2015-06-07 13:34:29

Выделенные выражения rtf bold также могут принимать форму 'Это некоторый \ b полужирный \ b0 текст.', поэтому в зависимости от того, что генерирует этот конкретный rtf, вы можете пропустить некоторые или все жирные заголовки. –

Python находит полужирный текст в RTF

ответ

Смежные вопросы